各种推理引擎的使用说明

llama-cpp-python
vllm
ollama

llama-cpp-python

支持的模型类型

GGUF 量化模型。

使用例子

以运行 sakura-13b-lnovel-v0.9b-Q4_K_M.gguf 模型为例：

python server.py \
    --model_name_or_path ./models/sakura-13b-lnovel-v0.9b-Q4_K_M.gguf \
    --llama_cpp \
    --use_gpu \
    --model_version 0.9 \
    --trust_remote_code \
    --no-auth

server.py 相关参数及说明

# 通用参数
--model_name_or_path: GGUF 模型路径
--model_version: 0.9, 0.8
--no-auth: 强制禁用身份验证

# llama.cpp 特有参数
--llama_cpp: 启动 llama.cpp 推理引擎
--use_gpu: llama.cpp 使用 GPU 进行推理
--n_gpu_layers: 加载至 GPU 的模型层数

vllm

vLLM 是一个快速且易于使用的 LLM 分布式推理和服务库。

优势：

支持 PagedAttention。
支持 tensor parallel 多 GPU 推理加速。
支持 GPTQ, AWQ, SqueezeLLM, FP8 KV Cache 等量化方法。
支持 NVIDIA GPU 和 AMD GPU（实验性，未测试）。
与 HuggingFace Transformers 模型无缝集成。

劣势：

Sakura13B v0.9 与 v0.10 仅能运行全量模型（目前 SakuraLLM 未提供量化模型），显存用量高于 llama.cpp 与 ollama。
仅支持 4bit 量化，且量化存在 bug，效果不如直接运行全量模型。
由于存在部分依赖冲突，依赖安装相对繁琐。

支持的模型类型

Transformers 模型（包括 GPTQ 4bit 量化与 AWQ 量化）。

前置需求

首先运行以下命令安装 vllm 库（必须先运行这一步，否则会有依赖冲突导致无法安装）：
```
pip install vllm
```
运行以下命令安装运行 vllm 后端的其余依赖库：
```
pip install -r requirements.vllm.txt
```

使用例子

以运行 SakuraLLM/Sakura-13B-LNovel-v0.9 模型为例：

python server.py \
    --model_name_or_path SakuraLLM/Sakura-13B-LNovel-v0.9 \
    --vllm \
    --model_version 0.9 \
    --trust_remote_code \
    --no-auth \
    --tensor_parallel_size 2 \
    --enforce_eager

server.py 相关参数及说明

# 通用参数
--model_name_or_path: transformers 模型 tag
--model_version: 0.9, 0.8
--use_gptq_model: 使用 GPTQ 量化模型
--use_awq_model: 使用 AWQ 量化模型
--trust_remote_code: 允许不安全代码
--no-auth: 强制禁用身份验证

# vllm 特有参数
--vllm: 启动 vllm 推理引擎
--enforce_eager: 启用 eager 模式，可减少显存用量
--tensor_parallel_size: tensor parallel 的规模，一般取可用的 GPU 数量
--gpu_memory_utilization: 0~1, vllm 推理引擎可用的每个 GPU 显存比例

ollama

介绍

原项目地址：ollama/ollama

优势：

安装运行简便，使用 docker 对模型进行管理。
对于 kaggle 环境，从 ollama library 拉取模型速度快于 huggingface 仓库，可进行 API Server 快速部署。

劣势：

使用 ollama 私有格式模型，需要对 gguf 和 PyTorch/Safetensors 格式模型进行转换。

支持的模型类型

ollama 私有格式模型，可从 GGUF 和 PyTorch/Safetensors 格式模型进行转换，转换方法参见 issue #49 与 ollama 文档。

Sakura 相关模型地址（第三方维护）：

onekuma/sakura-13b-lnovel-v0.9b-q2_k

前置需求

从ollama 官网下载并安装 ollama 程序，用于自动下载 ollama 模型。
运行以下命令安装运行 ollama 后端的依赖库：
```
pip install -r requirements.ollama.txt
```

使用例子

以运行 onekuma 维护的 sakura-13b-lnovel-v0.9b-q2_k 模型为例：

python server.py \
    --model_name_or_path onekuma/sakura-13b-lnovel-v0.9b-q2_k \
    --ollama \
    --model_version 0.9 \
    --trust_remote_code \
    --no-auth

server.py 相关参数及说明

# 通用参数
--model_name_or_path: ollama 模型 tag (不支持文件路径)
--model_version: 0.9
--no-auth: 强制禁用身份验证

# ollama 特有参数
--ollama: 启动 ollama 推理引擎

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

usage.md

usage.md

各种推理引擎的使用说明

llama-cpp-python

支持的模型类型

使用例子

server.py 相关参数及说明

vllm

支持的模型类型

前置需求

使用例子

server.py 相关参数及说明

ollama

介绍

支持的模型类型

前置需求

使用例子

server.py 相关参数及说明

Files

usage.md

Latest commit

History

usage.md

File metadata and controls

各种推理引擎的使用说明

llama-cpp-python

支持的模型类型

使用例子

server.py 相关参数及说明

vllm

支持的模型类型

前置需求

使用例子

server.py 相关参数及说明

ollama

介绍

支持的模型类型

前置需求

使用例子

server.py 相关参数及说明