1.9.0

shibing624 released this 17 Apr 09:01

· 112 commits to main since this release

v1.9版本

支持了 ORPO，详细用法请参照 run_orpo.sh。不需要参考模型的优化方法，通过ORPO，LLM可以同时学习指令遵循和满足人类偏好，可以直接用base模型训练ORPO，训练相较SFT+DRO更简单，相对需要更多偏好数据集数据。
新增了支持微调qwen1.5, cohere 模型，和对应的template。

What's Changed

Update transformers in requirements.txt by @dividez in #321

Full Changelog: 1.8.0...1.9.0

Contributors

dividez

Assets 2