Skip to content

text generation webui_zh

ymcui edited this page Apr 22, 2024 · 5 revisions

使用text-generation-webui进行推理

用于运行大模型(如huggingface格式, gguf格式等)的gradio web UI。

Step 1: 安装text-generation-webui

text-generation-webui目前支持Windows/Linux/macOS/WSL系统,请参考webui installation

Step 2: 准备模型权重

text-generation-webui目前支持huggingfacegguf等格式的模型。

huggingface格式

将下载后的Chinese-Mixtral-Instruct完整版权重(下载地址)或者之前已执行了merge_mixtral_with_chinese_lora_low_mem.py脚本将LoRA(下载地址)与Mixtral-8x7B-v0.1合并后的完整版权重放到text-generation-webui models文件夹下,目录文件如下所示

text-generation-webui
└── models
    └── Chinese-Mixtral-Instruct
        ├── config.json
        ├── generation_config.json
        ├── model-00001-of-00019.safetensors
        ├── model-00002-of-00019.safetensors
        ├── ……
        ├── model-00019-of-00019.safetensors
        ├── model.safetensors.index.json
        ├── special_tokens_map.json
        ├── tokenizer_config.json
        └── tokenizer.model

gguf格式

如果是gguf格式,可作为一个单独的文件直接放在模型中。相应权重可从完整模型下载 GGUF下载,然后重命名,文件目录如下

text-generation-webui
└── models
    └── Chinese-Mixtral-Instruct-q4_k.gguf

Step 3: 加载模型并启动webui

运行以下命令:

python server.py

打开的网页在model中选择你要聊天的模型,webui会按照模型格式选择对应的加载方式。然后依次选择Parameters-> Instruction template,在Instruction template中下拉选择Mistral加载,最后回到chat界面中并输入你的指令,即可与chinese-mixtral-instruct对话了。

更详细的官方说明请参考webui using docs。如果遇到安装或者运行问题还请到原repo下提问,该流程已在commit-id 837bd88下跑通。