信息来源：机器之心、量子位、openai官网、X等

day1——满血o1+pro版本

**性能大幅提升：**相比preview版本，满血o1的数学和代码能力均大幅提升，Pro版则是再上一层楼。成功解决高难度科学问题（如生化领域），并提供详细的推理过程，支持思维链分析。按照OpenAI的说法，o1（包括之前的preview版）在博士级科学问答上的表现是超过人类专家的。
推理速度提升：满血版o1的平均响应速度比preview版快60%。
错误率降低：重大错误频率减少34%，推理更加精准。

day2——强化微调

**强化微调（RFT）则是一种更进一步模型定制技术，可让开发者使用强化学习针对具体任务对模型进行进一步的微调，并根据提供的参考答案对模型的响应进行评分。**John Allard 表示：「只需几十个例子，模型就能学会在自定义领域以新的有效方式进行推理。」

OpenAI 内部在训练 GPT-4o 和 o1 系列模型时也使用了同样的技术。