中文羊驼大模型二期 v1.1

ymcui released this 02 Aug 09:01

· 207 commits to main since this release

本次以功能性更新为主，包括添加了FlashAttention-2支持脚本、vLLM支持、长回复模板等。

🚀 已添加FlashAttention-2训练支持（#38）

针对模型训练添加了FlashAttention-2补丁，可有效提高模型训练速度并减少显存占用
可通过参数flash_attn控制是否开启FlashAttention-2加速训练，具体可查看预训练脚本Wiki或指令精调脚本Wiki

🚀 vLLM加速支持（#35、#48)

vLLM 是一个LLM推理和服务部署库，其具有高速运行、灵活易用等特点
在gradio_demo.py和inference_hf.py中添加了对vLLM部署服务的支持。此外，也提供了vLLM作为后端的仿OpenAI API风格的服务器DEMO（openai_api_server_vllm.py）
经测试，V100-16G GPU上使用7B模型推理，vLLM的平均推理速度相比transformers提升了470%，结合批量处理后vLLM的速度进一步达到了3800%的提升

🤖 生成长回复的系统提示语模板（#31）

默认系统提示语较为简单，模型生成的回复略短于一期Alpaca-Pro系列模型
提供了alpaca-2-long.txt系统提示语，可进一步提升回复长度（也可自行尝试修改）

其他更新

添加了自定义系统提示语的选项（#32）
添加了Alpaca-2-7B模型的输出示例（#33）
修正了部分脚本中的提示信息（#42）
添加了基于Colab的Gradio demo，可以自行架设demo体验模型了（#46）

For English release note, please refer to Discussion.

Assets 2

1 Join discussion