蒸馏是模仿,学强模型的输出,把它的「答案形状」复制过来;RL 是探索,模型必须大量自己推理、自己生成、在错误里反复迭代,从试错中提炼能力。
"It's hard when the thing that brings you so much energy and drive is also the thing that's slowly destroying you," Manning says.,更多细节参见雷电模拟器官方版本下载
,这一点在搜狗输入法下载中也有详细论述
换言之,真正强大的模型,需要的从来不只是正确答案,而往往要靠模型自己摸索出来的解题路径,这是依靠蒸馏别人 API 的输出,得不到的东西。
The 'magical' blue flower changing farmers' fortunes in India,更多细节参见heLLoword翻译官方下载