Skip to content

中文羊驼大模型二期 v3.1

Compare
Choose a tag to compare
@ymcui ymcui released this 01 Sep 02:36
· 38 commits to main since this release
e9d5b22

本次更新推出长上下文版聊天/指令模型Chinese-Alpaca-2-7B-16K和Chinese-Alpaca-2-13B-16K,可直接应用于各类长文本下游任务。

🚀 Chinese-Alpaca-2-7B-16K、Chinese-Alpaca-2-13B-16K

  • 与Chinese-LLaMA-2-16K类似,通过位置插值方法,在增量数据上进行训练,使模型获得长文本处理能力
  • 长上下文版模型(Chinese-LLaMA-2-16K、Chinese-Alpaca-2-16K)支持16K,且均可通过NTK方法进一步扩展
  • 在长文本评测LongBench(中文+代码任务)上,16K版模型相比标准版均有显著的性能提升,其中Chinese-Alpaca-2-7B-16K和Chinese-Alpaca-2-13B-16K分别获得28.3和29.5的平均分,在同类模型中具有一定优势
  • Chinese-Alpaca-2-7B-16K、Chinese-Alpaca-2-13B-16K已加入到⚔️ 模型竞技场,欢迎体验评测

温馨提示

  • transformers 4.31.0以上版本可直接加载16K模型;llama.cpp下则需要在推理时添加--rope-scale 4参数
  • 使用长上下文版模型之前,务必参阅推理与部署表格,查看相关方法是否支持
  • 建议:主要处理长文本任务时,使用16K版模型;其他场景建议使用标准版模型

其他更新

  • 修复了训练脚本中gradient_checkpointing相关问题(#175) by @Qznan
  • privateGPT:添加了对16K模型的支持(#195
  • LangChain, TGW, API:添加了对16K模型的支持(#196
  • FAQ:添加了问题9、10、11(#197
  • LongBench:添加了推理脚本(#198#217

For English release note, please refer to Discussion.