DeepSeek 强化学习笔记:PPO 与 GRPO
Published:
这篇笔记比较 DeepSeek 常讨论的两类策略优化方法:PPO 与 GRPO。
1. PPO(Proximal Policy Optimization)
PPO 是经典 actor-critic 路线,通过截断目标控制更新步长,降低策略崩坏风险。
\[J_{PPO}(\theta)=\mathbb{E}\left[\min\left(r_t(\theta)A_t,\ \text{clip}(r_t(\theta),1-\epsilon,1+\epsilon)A_t\right)\right]\]其中:
(r_t(\theta)=\frac{\pi_\theta(a_t s_t)}{\pi_{\theta_{old}}(a_t s_t)}) - (A_t) 常由 GAE + value model 估计
特点:
- 训练稳定性好;
- 但要额外训练 critic,算力和显存开销更高。
2. GRPO(Group Relative Policy Optimization)
GRPO 的关键点是“去掉显式 critic”,改用同一问题下多候选输出的组内相对分数做基线。
直觉上:
- 同一个 query 采样 (G) 个回答;
- 奖励高于组均值的回答被强化,低于组均值的被抑制;
- 通过组内相对比较降低方差,并省去 value model 训练负担。
常见相对优势形式:
\[\hat{A}_i=\frac{r_i-\text{mean}(\mathbf{r})}{\text{std}(\mathbf{r})}\]若有过程监督,还可对每一步做细粒度归因。
3. PPO vs GRPO(工程视角)
- PPO:
- 优点:成熟稳定,理论与工程生态完整。
- 缺点:critic 成本高,LLM 大规模训练时负担重。
- GRPO:
- 优点:省去 critic,流程更轻;组内相对学习更贴近“偏好比较”信号。
- 缺点:依赖采样组质量与奖励模型质量,对采样策略更敏感。
4. 实践建议
- 如果你追求“先跑通 + 稳定性”,PPO 更稳妥。
- 如果你追求“更低成本的大模型 RL 扩展”,GRPO 更有吸引力。
- 在 LLM 场景里,配合 KL 约束/正则仍是必要的,用来防止策略偏移过大。
5. 一句话总结
GRPO 可以理解为:
把 PPO 里“重 critic 的优势估计”,替换成“组内相对奖励归一化”的轻量方案,更适合大规模 LLM 强化学习。