信息来源:机器之心、量子位、openai官网、X等

day1——满血o1+pro版本

1. 性能与推理能力

2. 多模态推理

3. 多语言能力

4. 安全性与鲁棒性

5. 未来功能扩展

day2——强化微调

**强化微调(RFT)则是一种更进一步模型定制技术,可让开发者使用强化学习针对具体任务对模型进行进一步的微调,并根据提供的参考答案对模型的响应进行评分。**John Allard 表示:「只需几十个例子,模型就能学会在自定义领域以新的有效方式进行推理。

OpenAI 内部在训练 GPT-4o 和 o1 系列模型时也使用了同样的技术。

核心特点