43. 【实战】使用 GRPO 强化模型的数学推理能力#

43.1. 任务背景#

在大模型训练中，监督微调（Supervised Fine-Tuning，SFT）能让模型学会遵循指令和模仿优秀回答的格式，但它本质上仍是对训练数据中文本分布的拟合。当面对需要多步逻辑推理的数学问题时，SFT训练的模型往往只会“照猫画虎”地模仿解题步骤，却难以自主探索不同的推理路径，更无法在失败中自我修正。模型的推理能力因此被限制在了训练数据的“天花板”之内。

为了突破这一局限，需要引入强化学习，让模型在“目标驱动”下学会自主推理。然而，传统的强化学习算法如PPO（Proximal Policy Optimization）虽然效果显著，却需要额外训练一个Critic模型来评估每一步的好坏，这带来了巨大的内存开销和计算负担。

GRPO（Group Relative Policy Optimization）正是在此背景下应运而生。它由Shao等人在2024年提出，核心创新是直接摒弃了独立的Critic模型，转而通过对同一提示词采样多个回答组成一个“群组”，利用组内回答的相对表现来计算优势。这种“群组内部分组竞赛”的方式，使得GRPO在保持PPO训练效果的同时，大幅降低了资源消耗。DeepSeek团队正是凭借GRPO在DeepSeek-Math和DeepSeek-R1中取得了突破性成果，显著增强了模型的数学推理能力。

43.2. 任务目标#

本次任务将基于GRPO强化学习算法，训练一个兼具数学推理与工具调用能力的智能体。该智能体能够自主规划不同数字与计算符号的组合策略，并灵活调度多种计算工具，通过多步操作生成与目标结果相等的数学表达式。

具体而言，对于给定的目标数字和可用数字集合，模型需要：

自主规划策略：分析目标结果，规划如何使用给定的数字和运算符组合出目标值；
灵活调度工具：根据推理需要，适时调用计算工具（如加减乘除、括号运算等）辅助计算；
多步迭代优化：通过多轮“规划-执行-反思”的循环，不断调整策略，逐步逼近正确答案。

GRPO特别适合此类可验证任务——数学问题的答案具有唯一且可验证的标准答案，可通过简单的规则或字符串比较轻松验证正确性。训练过程中，模型为同一问题生成多个候选表达式，GRPO根据各组表达的准确性计算相对优势，引导模型向着生成正确数学表达式的方向优化。

43.3. 学习收获#

完成本次任务，你将能够：

理解 GRPO 的核心原理：掌握GRPO如何通过群组采样和组内相对优势估计来替代PPO中的Critic模型，理解其在数学推理等可验证任务中的独特优势。
明确 GRPO 训练的数据与奖励设计需求：熟悉GRPO所需的数据格式（prompt与标准答案），掌握如何设计基于规则的可验证奖励函数（如准确率奖励），并理解仅使用准确率奖励可能导致生成长度失控的问题及相应的优化策略。
掌握 GRPO 的标准训练流程：理解GRPO训练的三个核心阶段：
- Rollout生成阶段（为同一提示并行采样多个回答）；
- 奖励计算阶段（评估每个回答的质量并进行组内归一化）、
- 策略优化阶段（基于相对优势更新策略模型）。
了解 GRPO 训练中的关键指标：通过监控训练过程中的奖励均值与标准差变化、策略更新幅度等指标，理解GRPO的训练动态，判断模型是否在朝着生成更优数学表达式的方向稳定收敛。

43.4. 获取源码#

点击下方链接，获取任务完整源码 👇👇👇

《动手学大模型：实战进阶》

通过 30 个动手实战任务，将传统 2-3 年的大模型学习周期压缩至 2-3 个月，助你系统掌握大模型知识，快速拿到理想Offer 🎉

○ 如果你觉得这篇文章有所帮助，欢迎将本文链接推荐给更多人——无论是分享到朋友圈、博客、社群，还是任何你常逛的地方。每一次转发，都会让它在搜索结果中更容易被有需要的人看到。