# 使用vLLM进行Yi-1.5-6B-Chat模型的推理

欢迎来到本教程！在这里，我们将指导您如何使用vLLM进行Yi-1.5-6B-Chat模型的推理。vLLM是一个快速且易于使用的大型语言模型（LLM）推理和服务库。让我们开始吧！

## 🚀 在Colab上运行

我们还提供了一键运行的[Colab脚本](https://colab.research.google.com/drive/1KuydGHHbI31Q0WIpwg7UmH0rfNjii8Wl?usp=drive_link)，让开发变得更简单！

## 安装

首先，我们需要安装相关的依赖。根据官方文档要求，使用pip安装vLLM需要CUDA 12.1。您可以参考官方[文档](https://docs.vllm.ai/en/stable/getting_started/installation.html)获取更多详情。

现在让我们安装vLLM：

In [None]:
!pip install vllm

## 加载模型

接下来，我们将加载Yi-1.5-6B-Chat模型。请注意电脑的显存和硬盘占用情况。如果出现错误，可能是由于资源不足引起的。

本教程使用Yi-1.5-6B-Chat模型。以下是该模型的显存和硬盘占用情况：

| 模型 | 显存使用 | 硬盘占用 |
|-------|------------|------------------|
| Yi-1.5-6B-Chat | 21G | 15G |

In [None]:
from transformers import AutoTokenizer
from vllm import LLM, SamplingParams

# 加载分词器
tokenizer = AutoTokenizer.from_pretrained("01-ai/Yi-1.5-6B-Chat")

# 设置采样参数
sampling_params = SamplingParams(
    temperature=0.8, 
    top_p=0.8)

# 加载模型
llm = LLM(model="01-ai/Yi-1.5-6B-Chat")

## 模型推理

现在，让我们准备一个提示词模版并使用模型进行推理。在这个例子中，我们将使用一个简单的问候语提示词。

In [None]:
# 准备提示词模版
prompt = "你好！"  # 根据需要更改提示词
messages = [
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
print(text)

# 生成回复
outputs = llm.generate([text], sampling_params)

# 打印输出
for output in outputs:
    prompt = output.prompt
    generated_text = output.outputs[0].text
    print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")
# 期望的回复："你好！今天见到你很高兴。我能为你做些什么呢？"

就是这样！您已经成功地使用vLLM进行了Yi-1.5-6B-Chat模型的推理。请随意尝试不同的提示词并调整采样参数，看看模型会如何响应。祝您实验愉快！