DeepSeek 强化学习笔记:PPO 与 GRPO

Published:

中文 | English

这篇笔记比较 DeepSeek 常讨论的两类策略优化方法:PPO 与 GRPO。

1. PPO(Proximal Policy Optimization)

PPO 是经典 actor-critic 路线,通过截断目标控制更新步长,降低策略崩坏风险。

\[J_{PPO}(\theta)=\mathbb{E}\left[\min\left(r_t(\theta)A_t,\ \text{clip}(r_t(\theta),1-\epsilon,1+\epsilon)A_t\right)\right]\]

其中:

  • (r_t(\theta)=\frac{\pi_\theta(a_ts_t)}{\pi_{\theta_{old}}(a_ts_t)})
  • (A_t) 常由 GAE + value model 估计

特点:

  • 训练稳定性好;
  • 但要额外训练 critic,算力和显存开销更高。

2. GRPO(Group Relative Policy Optimization)

GRPO 的关键点是“去掉显式 critic”,改用同一问题下多候选输出的组内相对分数做基线。

直觉上:

  • 同一个 query 采样 (G) 个回答;
  • 奖励高于组均值的回答被强化,低于组均值的被抑制;
  • 通过组内相对比较降低方差,并省去 value model 训练负担。

常见相对优势形式:

\[\hat{A}_i=\frac{r_i-\text{mean}(\mathbf{r})}{\text{std}(\mathbf{r})}\]

若有过程监督,还可对每一步做细粒度归因。

3. PPO vs GRPO(工程视角)

  • PPO:
    • 优点:成熟稳定,理论与工程生态完整。
    • 缺点:critic 成本高,LLM 大规模训练时负担重。
  • GRPO:
    • 优点:省去 critic,流程更轻;组内相对学习更贴近“偏好比较”信号。
    • 缺点:依赖采样组质量与奖励模型质量,对采样策略更敏感。

4. 实践建议

  • 如果你追求“先跑通 + 稳定性”,PPO 更稳妥。
  • 如果你追求“更低成本的大模型 RL 扩展”,GRPO 更有吸引力。
  • 在 LLM 场景里,配合 KL 约束/正则仍是必要的,用来防止策略偏移过大。

5. 一句话总结

GRPO 可以理解为:
把 PPO 里“重 critic 的优势估计”,替换成“组内相对奖励归一化”的轻量方案,更适合大规模 LLM 强化学习。