根据 官方首页文章,vllm 能极大提高大语言模型推理阶段的吞吐性能,这对计算资源有限,受限于推理效率的一些情况来说无疑是一大福音
但是截止 2023.7.8,vllm 文档 显示其尚未支持目前热度较高的一些中文大模型,比如 baichuan-inc/baichuan-7B, THUDM/chatglm-6b
于是本人在另一个 repo 实现了 vllm 对 baichuan-inc/baichuan-7B 的支持。运行官方的测试脚本,确实也可以看到 5+ 倍的效率提升。目前代码已提交 PR 期望能合并到官方 repo
baichuan-inc/baichuan-7B 的 vllm 适配测试可参考 这里。也可直接 colab 运行。但是因为模型较大,需要选用 A100 gpu 或者更高配置
- chatglm2/3,包括对 tp 的支持,code reviewing
- 官方已实现若干中文大语言模型:aquila,baichuan,qwen