1.9.0
v1.9版本
- 支持了 ORPO,详细用法请参照
run_orpo.sh
。 不需要参考模型的优化方法,通过ORPO,LLM可以同时学习指令遵循和满足人类偏好,可以直接用base模型训练ORPO,训练相较SFT+DRO更简单,相对需要更多偏好数据集数据。 - 新增了支持微调qwen1.5, cohere 模型,和对应的template。
What's Changed
Full Changelog: 1.8.0...1.9.0
run_orpo.sh
。 不需要参考模型的优化方法,通过ORPO,LLM可以同时学习指令遵循和满足人类偏好,可以直接用base模型训练ORPO,训练相较SFT+DRO更简单,相对需要更多偏好数据集数据。Full Changelog: 1.8.0...1.9.0