中文羊驼大模型二期 v3.1

ymcui released this 01 Sep 02:36

· 38 commits to main since this release

本次更新推出长上下文版聊天/指令模型Chinese-Alpaca-2-7B-16K和Chinese-Alpaca-2-13B-16K，可直接应用于各类长文本下游任务。

🚀 Chinese-Alpaca-2-7B-16K、Chinese-Alpaca-2-13B-16K

与Chinese-LLaMA-2-16K类似，通过位置插值方法，在增量数据上进行训练，使模型获得长文本处理能力
长上下文版模型（Chinese-LLaMA-2-16K、Chinese-Alpaca-2-16K）支持16K，且均可通过NTK方法进一步扩展
在长文本评测LongBench（中文+代码任务）上，16K版模型相比标准版均有显著的性能提升，其中Chinese-Alpaca-2-7B-16K和Chinese-Alpaca-2-13B-16K分别获得28.3和29.5的平均分，在同类模型中具有一定优势
Chinese-Alpaca-2-7B-16K、Chinese-Alpaca-2-13B-16K已加入到⚔️ 模型竞技场，欢迎体验评测

温馨提示

transformers 4.31.0以上版本可直接加载16K模型；llama.cpp下则需要在推理时添加--rope-scale 4参数
使用长上下文版模型之前，务必参阅推理与部署表格，查看相关方法是否支持
建议：主要处理长文本任务时，使用16K版模型；其他场景建议使用标准版模型

其他更新

修复了训练脚本中gradient_checkpointing相关问题（#175） by @Qznan
privateGPT：添加了对16K模型的支持（#195）
LangChain, TGW, API：添加了对16K模型的支持（#196）
FAQ：添加了问题9、10、11（#197）
LongBench：添加了推理脚本（#198、#217）

For English release note, please refer to Discussion.

Contributors

Qznan

Assets 2

1 Join discussion