未分类

**简报:复旦大学与上海人工智能实验室提出Rank-Surprisal Ratio(RSR),量化推理数据适配度,提升大模型思维链蒸馏效率**

**一、背景与问题**
在大语言模型推理能力蒸馏中,学生模型常面临“学习困境”:教师模型的思维链若过于复杂(陌生),学生难以理解;若过于简单(熟悉),则缺乏信息增量,无法有效提升推理能力。现有基于概率的筛选方法(如Perplexity)难以精准平衡“信息量”与“认知对齐”,导致教师模型越强,学生模型未必学得越好。

**二、核心创新:Rank-Surprisal Ratio(RSR)**
研究团队提出一种简单高效的度量指标RSR,从学生模型视角量化数据适配度:
– **分子(Rank)**:表示生成token在学生模型预测中的排名,排名越靠前,对齐程度越高。
– **分母(Surprisal)**:表示生成token的负对数概率,概率越低,信息量越丰富。
– **RSR值越小**,代表数据在“信息量”与“对齐度”间平衡越好,越适合学生学习。

**三、关键优势**
1. **直观易计算**:仅需对学生模型进行一次前向计算,无需额外数据或验证器。
2. **强相关性**:在大规模蒸馏实验(覆盖4B至671B模型)中,RSR与学生模型后训练性能的Spearman相关系数达0.86,显著优于现有指标。
3. **应用灵活**:可直接用于筛选推理轨迹或选择教师模型,无需实际训练即可优化数据配置。

**四、实验验证**
1. **轨迹筛选**:从多条候选思维链中基于RSR选择最优数据,训练后学生模型在数学推理任务上表现最佳。
2. **教师选择**:仅用200条推理轨迹评估教师适配性,RSR能稳定选出接近最优的教师模型。

**五、意义与展望**
RSR为解决推理蒸馏中的“信息-对齐矛盾”提供了可量化的工具,有望推动大模型训练从依赖规模转向数据高效利用。未来可扩展至代码生成、工具使用等任务,并与强化学习结合实现动态数据调度。

**六、论文信息**
– 论文链接:https://arxiv.org/pdf/2601.14249
– 代码开源:https://github.com/UmeanNever/RankSurprisalRatio
– 核心作者:复旦大学博士生杨宇铭(导师张奇教授),团队来自复旦大学与上海人工智能实验室。


**摘要**:本研究通过Rank-Surprisal Ratio指标,首次系统量化了推理数据对学生模型的适配度,为思维链蒸馏提供了高效的数据筛选与教师选择方法,显著提升学生模型的推理能力训练效率。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注