排除替代亏蚀函数美女人体艺术,仅需优化原始规画, 强化学习新范式来了 :
摒除 critic 和 reference 模子,幸免 KL 散度拘谨;料理上风函数和梯度计算两个偏差。
来自阿里 - 高德舆图的团队提议了一种相当粗略的强化学习考试新方法:组计谋梯度优化 GPG (Group Policy Gradient)。
GPG 创始性地从底层重构强化学习考试框架,仅需优化原始规画,料理已有方法偏差,提高考试效能。翻新强化学习考试经过,鼓舞智能体性能毁坏。
在试验中,GPG 在单模态和多模态两类任务中阐发遥遥最初,其极简架构与高性能阐发,有望成为下一代基础模子考试的要津方法。
以下是更多 GPG 相关细节。
布景先容
连年来,以 OpenAI 和 DeepSeek R1 为代表的 LLMs 模子阐发亮眼,深究凯旋背后,是强化微调工夫(RFT)调处现存强化学习方法(如 PPO、GPPO)在激勉模子构建严谨的推理链上施展了要津作用。
但在面临崇高的考试资本与性能均衡,主流方法 PPO 也堕入纷乱瓶颈,与此同期,其他征询团队也在尝试使用 ReMax、GRPO 等简化考试经过,并在性能上获得了很大的毁坏,但他们齐已经存在一些问题。
征询团队觉得,现时针对 RL 算法的优化齐在围绕替代亏蚀函数伸开,但两个中枢问题耐久悬而未决:
1. 能否绕过替代计谋,平直优化原始规画函数?
2. 怎样最大戒指简化学习计谋的假想?
由此,团队提议了 GPG,其中枢创新包括:
平直规画优化:放手传统替代亏蚀函数假想,平直优化原始强化学习规画,毁坏算法效能瓶颈。
极简考试架构:无需评述模子和参考模子接济,开脱散播拘谨,为模子膨胀性提供更大空间。
精确梯度计算工夫 (AGE):初次揭示现存方法的奖励偏差问题,提议轻量化且高精度的梯度计算决策,显贵普及计谋确认性。
单模态多模态任务 SOTA 考据 :在数学推理、视觉交融、跨模态推理等任务中,GPG 性能全面超过现存方法,考据其通用性与鲁棒性。
组计谋梯度 GPG 方法方法对比
各式强化学习方法的相比,作家以最粗略的神情讲明:
底下是 GPG 方法和已有 RL 方法各个模块的对比:
GPG 方法
GPG 旨在料理在莫得价值模子的情况下,计谋梯度计算中的高方差问题。通过讹诈 group-level 的奖励 ,GPG 确认了考试过程并增强了强化学习考试的鲁棒性。
具体而言,GPG 讹诈每个 Group 内的平均奖励来归一化奖励,从而有用镌汰方差。这个方法不错移除传统的价值模子,从而简化了考试过程并提高了诡计效能。 GPG 的称号反应了作家方法核神思制,即讹诈 group-level 的平均奖励来确认和优化学习。
GPG 的中枢优化规画界说为:
作家提议的 GPG 方法通过组内上风函数诡计和梯度编削机制杀青了高效确认的计谋优化。在上风函数假想上,摄取组内奖励均值归一化方法:
其中可凭据任务特质生动取舍 std 或保合手为 1,这种假想有用抑遏了荒谬值烦嚣。关于数学推理等二元奖励场景(正确 1.0/ 作假 0.0),该方法展现出邃密的合乎性。
现存 RL 方法中的两个 bias
上风函数中的 bias
GRPO 方法的上风函数中,,这部分是 PG 方法中的 state 部分,这标明 GRPO 上风函数明确引入了奖励偏差。DR.GRPO 方法,但是作家发现它无法泄漏高出 GRPO 方法。见下表:
组内样本全对全错时,引入梯度计算的 bias
当一个组内的样本,模子展望全对或全错则会引入对梯度计算的 bias。给定批量大小为的考试批次,设第个样本的梯度暗意为。
不失一般性,假定批次中的前个模子输出的示例齐正确或作假,门径反向传播(BP)算法计算梯度为:
。但是,前个示例不适用于梯度计算,并孝敬零梯度。
△图 1(左)在一个组中,扫数奖励齐是 0 的粗略问题的比例和扫数奖励齐是 1 的可贵问题的比例。(右)奖励在各要领间的门径差。
针对组内全对 / 全错样本的梯度计算 bias 问题,GPG 创新性地引入动态梯度编削因子。通过公式自动调养有用样本权重,其中为批次大小,为无效样本数。
试验标明该机制可使模子准确率从 43.9% 普及至 47.8%,显贵改善考试确认性。
试验在单模态数据集上的收尾
在多模态数据集上的收尾
淫荡妈妈论断
在本文中,作家先容了 GPG,它有用地料理了强化微调方法(如 PPO 和 GRPO)中现存的要津挑战。
通过将基于组内的决规画态直选择初学径的 PG 方法,GPG 简化了考试过程,并显贵减少了诡计支出,而不缩小模子成果。这一毁坏为考试大致进行复杂推理的先进 LLM 提供了更高效的框架,从而为更具资源效能和可膨胀性的东谈主工智能系统作念出了孝敬。
此外,团队将本文代码全面开源,但愿促进工夫透明化发展,也饱读舞更多东谈主参与到该项责任中来。
论文纠合:https://arxiv.org/pdf/2504.02546
代码纠合:https://github.com/AMAP-ML/GPG
一键三连「点赞」「转发」「堤防心」
接待在评述区留住你的念念法!
— 完 —
学术投稿请于责任日发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿实质
附上论文 / 技俩主页纠合,以及相关步地哦
咱们会(尽量)实时恢复你
� � 点亮星标 � �
科技前沿进展逐日见美女人体艺术