# transformers推理模型

## 模型加载

In [1]:
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "/root/autodl-tmp/Qwen3-8B"

# 加载分词器和模型
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",  # 自动选择适合的张量数据类型
    device_map="auto"    # 自动将模型分配到可用的设备（如 GPU）
)


Loading checkpoint shards:   0%|          | 0/5 [00:00<?, ?it/s]

## 输入提示准备

In [2]:

# 准备模型输入
prompt = "给我简单介绍一下大模型"
messages = [
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,  # 不立即分词，而是生成完整的文本模板
    add_generation_prompt=True,  # 添加生成提示（用于引导模型生成内容）
    enable_thinking=True  # 启用思考模式，默认为 True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
 


## 文本生成处理

In [3]:
# 执行文本生成
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=32768  # 设置生成的最大新标记数
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist()

# 输出结果将首先包含思考内容（用 <think></think> 标签包裹），然后是实际的回答
print(tokenizer.decode(output_ids, skip_special_tokens=True))

<think>
嗯，用户让我简单介绍一下大模型。首先，我需要确定“大模型”具体指的是什么。通常来说，大模型指的是大规模预训练语言模型，比如像GPT、BERT、T5这些。不过用户可能对技术细节不太熟悉，所以得用简单易懂的语言解释。

接下来，我应该考虑用户的需求。他们可能是刚开始接触AI，或者对大模型的应用场景感兴趣。需要区分清楚大模型的基本概念、特点、应用场景以及优缺点。可能还需要提到一些常见的例子，比如GPT-3、BERT等，这样用户更容易理解。

另外，用户可能想知道大模型和传统模型的区别，比如参数量、训练数据量、处理任务的能力等。需要强调大模型的规模带来的优势，比如多任务处理、迁移学习能力，但也要提到计算资源和能耗的问题。

还要注意避免使用太多专业术语，保持口语化。比如“参数量”可以解释为模型内部的“变量数量”，“预训练”可以理解为在大量数据上先学习通用知识。同时，可能需要提到实际应用，比如聊天机器人、文本生成、翻译等，让用户知道大模型的实际用途。

另外，用户可能没有说出来的深层需求是想了解大模型的前景或者如何应用，所以在结尾可以简要提到其影响和未来趋势，比如更高效的模型、更广泛的应用场景等。但要注意不要太过深入，保持简洁。

最后，检查有没有遗漏的重要点，比如大模型的训练过程、微调、推理等，但可能不需要太详细。保持回答结构清晰，分点说明，让用户一目了然。
</think>

大模型（Large Model）通常指那些参数量巨大、训练数据海量、具有强大语言理解和生成能力的AI模型。它们通过在大量文本数据上进行预训练，学习语言的通用规律和知识，从而能够完成多种复杂的任务，比如：

### 核心特点：
1. **参数量庞大**：通常拥有数十亿甚至数千亿个参数（模型内部的“变量”），这使得模型能捕捉更复杂的语言模式。
2. **预训练+微调**：先在海量文本上学习通用知识（预训练），再针对具体任务（如问答、翻译）进行微调。
3. **多任务能力**：能处理文本生成、翻译、摘要、问答、代码编写等多种任务，无需针对每个任务单独训练模型。

### 应用场景：
- **聊天机器人**（如ChatGPT、通义千问）
- **文本生成**（如写文章、故事、诗歌）
- **智能客服**（自动回答用户问题）
- **代码辅助**（生成或修复代码）
- **数据分析**（从文本

## 禁用思考模式

In [7]:
prompt = "给我简单介绍一下大模型"
messages = [
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,  # 不立即分词，而是生成完整的文本模板
    add_generation_prompt=True,  # 添加生成提示（用于引导模型生成内容）
    enable_thinking=False  # 启用思考模式，默认为 True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

# 执行文本生成
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=32768  # 设置生成的最大新标记数
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist()

# 输出结果将首先包含思考内容（用 <think></think> 标签包裹），然后是实际的回答
print(tokenizer.decode(output_ids, skip_special_tokens=True))

当然可以！下面是一个关于“大模型”的简单介绍：

---

### 什么是大模型？

**大模型**（Large Model），也被称为**大语言模型**（Large Language Model, LLM），是一种基于深度学习的**人工智能模型**，它通过在海量文本数据上进行训练，掌握语言的结构、语义和使用习惯，从而能够完成多种自然语言处理任务。

---

### 特点：

1. **参数量大**：通常拥有数十亿甚至上千亿个参数，这是其“大”的核心特征。
2. **语言理解能力强**：可以理解并生成自然语言，包括中文、英文等多种语言。
3. **多任务处理能力**：可以完成文本生成、翻译、问答、摘要、代码编写等多种任务。
4. **自学习能力**：通过大量数据训练，模型可以不断优化自己的语言理解和生成能力。

---

### 应用场景：

- **智能客服**：自动回答用户问题。
- **内容创作**：写文章、写故事、写邮件等。
- **编程辅助**：帮助编写代码、调试程序。
- **数据分析**：生成报告、解释数据。
- **教育辅助**：辅导学习、解答问题。

---

### 常见的大模型：

- **GPT**（由OpenAI开发）
- **BERT**（由Google开发）
- **ERNIE**（由百度开发）
- **通义千问**（Qwen，由阿里云开发）
- **LLaMA**（由Meta开发）

---

### 小结：

大模型是人工智能领域的重要突破，它让机器具备了更强的语言理解和生成能力，正在深刻改变我们的生活和工作方式。

如果你对某个具体的大模型感兴趣，也可以告诉我，我可以进一步为你介绍！


# 完整代码

In [None]:
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "/root/autodl-tmp/Qwen3-8B"

# load the tokenizer and the model
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)

# prepare the model input
prompt = "请简单介绍一下大模型"
messages = [
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=True # Switches between thinking and non-thinking modes. Default is True.
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

# conduct text completion
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=32768
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist() 

# the result will begin with thinking content in <think></think> tags, followed by the actual response
print(tokenizer.decode(output_ids, skip_special_tokens=True))