Skip to content

1.9.0

Compare
Choose a tag to compare
@shibing624 shibing624 released this 17 Apr 09:01
· 112 commits to main since this release

v1.9版本

  1. 支持了 ORPO,详细用法请参照 run_orpo.sh。 不需要参考模型的优化方法,通过ORPO,LLM可以同时学习指令遵循和满足人类偏好,可以直接用base模型训练ORPO,训练相较SFT+DRO更简单,相对需要更多偏好数据集数据。
  2. 新增了支持微调qwen1.5, cohere 模型,和对应的template。

What's Changed

  • Update transformers in requirements.txt by @dividez in #321

Full Changelog: 1.8.0...1.9.0