## 匯入所需的函式庫  
匯入 PyTorch 和 transformers 函式庫，用於載入和使用 Phi-4 模型。


In [None]:
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline

## 設定隨機種子  
設定隨機種子以確保不同執行結果的一致性。  


In [None]:
torch.random.manual_seed(0)

## 加載 Phi-4-mini-flash-reasoning 模型和分詞器
從 Hugging Face 加載 Microsoft Phi-4-mini-flash-reasoning 模型及其對應的分詞器。該模型將被加載到 CUDA 上以加快推理速度。


In [None]:
model_id = "microsoft/Phi-4-mini-flash-reasoning"
model = AutoModelForCausalLM.from_pretrained(
   model_id,
   device_map="cuda",
   torch_dtype="auto",
   trust_remote_code=True,
)
tokenizer = AutoTokenizer.from_pretrained(model_id)

## 準備輸入訊息  
使用聊天範本為模型建立一個包含二次方程數學問題的對話訊息。


In [None]:
messages = [{
   "role": "user",
   "content": "How to solve 3*x^2+4*x+5=1?"
}]   
inputs = tokenizer.apply_chat_template(
   messages,
   add_generation_prompt=True,
   return_dict=True,
   return_tensors="pt",
)

## 生成回應  
使用指定的參數（例如溫度和 top_p）來控制輸出中的隨機性，生成模型回應。


In [None]:
outputs = model.generate(
   **inputs.to(model.device),
   max_new_tokens=32768,
   temperature=0.6,
   top_p=0.95,
   do_sample=True,
)

## 解碼輸出為文字
將生成的標記序列轉換回人類可讀的文字，排除原始輸入標記，只顯示模型的回應。


In [None]:
outputs = tokenizer.batch_decode(outputs[:, inputs["input_ids"].shape[-1]:])


---

**免責聲明**：  
本文件已使用 AI 翻譯服務 [Co-op Translator](https://github.com/Azure/co-op-translator) 進行翻譯。雖然我們致力於提供準確的翻譯，但請注意，自動翻譯可能包含錯誤或不準確之處。原始文件的母語版本應被視為權威來源。對於關鍵信息，建議使用專業人工翻譯。我們對因使用此翻譯而引起的任何誤解或誤釋不承擔責任。
