DeepSeek 强化学习笔记：PPO 与 GRPO

Published: June 06, 2025

这篇笔记比较 DeepSeek 常讨论的两类策略优化方法：PPO 与 GRPO。

1. PPO（Proximal Policy Optimization）

PPO 是经典 actor-critic 路线，通过截断目标控制更新步长，降低策略崩坏风险。

\[J_{PPO}(\theta)=\mathbb{E}\left[\min\left(r_t(\theta)A_t,\ \text{clip}(r_t(\theta),1-\epsilon,1+\epsilon)A_t\right)\right]\]

其中：

特点：

GRPO 的关键点是“去掉显式 critic”，改用同一问题下多候选输出的组内相对分数做基线。

直觉上：

常见相对优势形式：

\[\hat{A}_i=\frac{r_i-\text{mean}(\mathbf{r})}{\text{std}(\mathbf{r})}\]

若有过程监督，还可对每一步做细粒度归因。

GRPO 可以理解为：
把 PPO 里“重 critic 的优势估计”，替换成“组内相对奖励归一化”的轻量方案，更适合大规模 LLM 强化学习。