text generation webui_zh

使用text-generation-webui进行推理

text-generation-webui是一种基于Gradio的用于运行大模型的Web UI，支持Hugging Face，GGUF（llama.cpp）等常见格式。

Step 1: 安装text-generation-webui

text-generation-webui目前支持Windows/Linux/macOS/WSL系统。

1、下载并解压：https://github.com/oobabooga/text-generation-webui/archive/refs/heads/main.zip

2、根据不同操作系统，执行start_*.sh脚本

3、根据提示选择GPU

What is your GPU?

A) NVIDIA
B) AMD (Linux/MacOS only. Requires ROCm SDK 5.6 on Linux)
C) Apple M Series
D) Intel Arc (IPEX)
N) None (I want to run models in CPU mode)

安装过程较长，请耐心等待。更详细的教程请参考：webui installation

Step 2: 准备模型权重

text-generation-webui目前支持Hugging Face、GGUF等格式的模型。

Hugging Face兼容格式

将完整版Llama-3-Chinese-Instruct-8B放到text-generation-webui的models文件夹下，目录文件如下所示：

text-generation-webui
└── models
    └── llama-3-chinese-instruct
        ├── config.json
        ├── generation_config.json
        ├── model-00001-of-00004.safetensors
        ├── model-00002-of-00004.safetensors
        ├── model-00003-of-00004.safetensors
        ├── model-00004-of-00004.safetensors
        ├── model.safetensors.index.json
        ├── special_tokens_map.json
        ├── tokenizer_config.json
        └── tokenizer.json

GGUF格式

如果是GGUF格式，可作为一个单独文件直接放到对应目录中。相应权重可从完整模型下载 GGUF下载，然后重命名，文件目录如下：

text-generation-webui
└── models
    └── llama-3-chinese-instruct-q4_k.gguf

Step 3: 加载模型和配置

安装完毕之后，再次运行start_*.sh，浏览器中访问日志显示的地址，即可进入网页界面。

15:59:59-435616 INFO     Starting Text generation web UI

Running on local URL:  http://127.0.0.1:7860

界面如下所示：

接下来要进行一些配置：

1）选择model选项卡，在下拉列表里选择llama-3-chinese-instruct，再点击load按钮，即可加载模型。

2）选择parameters选项卡，再选择instruction tempalte选项卡，选择Llama 3指令末班，再点击load按钮。

Step 4：开始聊天

回到chat选项卡，右侧的Mode选择Instruct，即可开始与模型对话。

更详细的用法请自行探索网页界面，或参考官方手册。如果遇到安装或者运行问题还请到原repo下搜索解决方案或提问。

中文文档

English Docs

Model Reconstruction
Model Quantization, Inference and Deployment
System Performance
Training Scripts
- Pre-training Scripts
- Instruction Fine-tuning Scripts
FAQ

Provide feedback

Saved searches

Use saved searches to filter your results more quickly