## 导入所需库
导入 PyTorch 和 transformers 库，以加载和使用 Phi-4 模型。


In [None]:
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline

## 设置随机种子
设置随机种子以确保不同运行之间的结果可重复。


In [None]:
torch.random.manual_seed(0)

## 加载 Phi-4-mini-flash-reasoning 模型和分词器
从 Hugging Face 加载 Microsoft 的 Phi-4-mini-flash-reasoning 模型及其对应的分词器。该模型将加载到 CUDA 上以加快推理速度。


In [None]:
model_id = "microsoft/Phi-4-mini-flash-reasoning"
model = AutoModelForCausalLM.from_pretrained(
   model_id,
   device_map="cuda",
   torch_dtype="auto",
   trust_remote_code=True,
)
tokenizer = AutoTokenizer.from_pretrained(model_id)

## 准备输入消息  
使用聊天模板为模型创建一个包含二次方程数学问题的对话消息。


In [None]:
messages = [{
   "role": "user",
   "content": "How to solve 3*x^2+4*x+5=1?"
}]   
inputs = tokenizer.apply_chat_template(
   messages,
   add_generation_prompt=True,
   return_dict=True,
   return_tensors="pt",
)

## 生成响应
使用指定的参数（如 temperature 和 top_p）生成模型响应，以控制输出的随机性。


In [None]:
outputs = model.generate(
   **inputs.to(model.device),
   max_new_tokens=32768,
   temperature=0.6,
   top_p=0.95,
   do_sample=True,
)

## 解码输出为文本
将生成的令牌序列转换回人类可读的文本，排除原始输入令牌，仅显示模型的响应内容。


In [None]:
outputs = tokenizer.batch_decode(outputs[:, inputs["input_ids"].shape[-1]:])


---

**免责声明**：  
本文档使用AI翻译服务 [Co-op Translator](https://github.com/Azure/co-op-translator) 进行翻译。尽管我们努力确保翻译的准确性，但请注意，自动翻译可能包含错误或不准确之处。原始语言的文档应被视为权威来源。对于关键信息，建议使用专业人工翻译。我们不对因使用此翻译而产生的任何误解或误读承担责任。
