Skip to content

Latest commit

 

History

History
29 lines (23 loc) · 967 Bytes

README.md

File metadata and controls

29 lines (23 loc) · 967 Bytes

API 调用

您可以选择具体想部署的模型下载
git clone https://huggingface.co/FlagAlpha/Atom-7B-Chat   Atom-7B-Chat
mv Atom-7B-Chat /path/origin_model

首先需要安装额外的依赖 pip install fastapi uvicorn,然后运行仓库中的 accelerate_server.py

python accelerate_server.py \
--model_path /path/origin_model \
--gpus "0" \
--infer_dtype "int8" \
--model_source "llama2_chinese"

参数说明:

  • model_path 模型的本地路径
  • gpus 使用的显卡编号,类似"0"、 "0,1"
  • infer_dtype 模型加载后的参数数据类型,可以是 int8, float16
  • model_source 模型的源,可以是llama2_chinese、llama2_meta、llama3_meta 根据下载的模型不同去区分,如果下载的是FlagAlpha下载的则用llama2_chinese。

默认部署在本地的 8001 端口,通过 POST 方法进行调用

python accelerate_client.py