Skip to content

中文羊驼大模型二期 v1.1

Compare
Choose a tag to compare
@ymcui ymcui released this 02 Aug 09:01
· 207 commits to main since this release
2e0aca6

本次以功能性更新为主,包括添加了FlashAttention-2支持脚本、vLLM支持、长回复模板等。

🚀 已添加FlashAttention-2训练支持(#38

  • 针对模型训练添加了FlashAttention-2补丁,可有效提高模型训练速度并减少显存占用
  • 可通过参数flash_attn控制是否开启FlashAttention-2加速训练,具体可查看预训练脚本Wiki指令精调脚本Wiki

🚀 vLLM加速支持(#35#48)

  • vLLM 是一个LLM推理和服务部署库,其具有高速运行、灵活易用等特点
  • gradio_demo.pyinference_hf.py中添加了对vLLM部署服务的支持。此外,也提供了vLLM作为后端的仿OpenAI API风格的服务器DEMO(openai_api_server_vllm.py
  • 经测试,V100-16G GPU上使用7B模型推理,vLLM的平均推理速度相比transformers提升了470%,结合批量处理后vLLM的速度进一步达到了3800%的提升

🤖 生成长回复的系统提示语模板(#31

  • 默认系统提示语较为简单,模型生成的回复略短于一期Alpaca-Pro系列模型
  • 提供了alpaca-2-long.txt系统提示语,可进一步提升回复长度(也可自行尝试修改)

其他更新

  • 添加了自定义系统提示语的选项(#32
  • 添加了Alpaca-2-7B模型的输出示例(#33
  • 修正了部分脚本中的提示信息(#42
  • 添加了基于Colab的Gradio demo,可以自行架设demo体验模型了(#46

For English release note, please refer to Discussion.