In [2]:
from transformers import AutoModel, AutoTokenizer
from transformers import GenerationConfig
import torch
from mtkresearch.llm.prompt import MRPromptV3

model_id = 'MediaTek-Research/Llama-Breeze2-3B-Instruct-v0_1'
model = AutoModel.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
    low_cpu_mem_usage=True,
    trust_remote_code=True,
    device_map='auto',
    img_context_token_id=128212
).eval()

tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True, use_fast=False)

generation_config = GenerationConfig(
  max_new_tokens=2048,
  do_sample=True,
  temperature=0.01,
  top_p=0.01,
  repetition_penalty=1.1,
  eos_token_id=128009
)

prompt_engine = MRPromptV3()

sys_prompt = 'You are a helpful AI assistant built by MediaTek Research. The user you are helping speaks Traditional Chinese and comes from Taiwan.'

def _inference(tokenizer, model, generation_config, prompt, pixel_values=None):
    inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
    if pixel_values is None:
        output_tensors = model.generate(**inputs, generation_config=generation_config)
    else:
        output_tensors = model.generate(**inputs, generation_config=generation_config, pixel_values=pixel_values.to(model.device, dtype=model.dtype))
    output_str = tokenizer.decode(output_tensors[0])
    return output_str

  from .autonotebook import tqdm as notebook_tqdm


FlashAttention2 is not installed.


Loading checkpoint shards: 100%|██████████| 2/2 [00:07<00:00,  3.88s/it]


In [21]:
import os
import json
import torch
import sys
from tqdm import tqdm
from transformers import AutoProcessor, AutoModelForCausalLM, AutoTokenizer, GenerationConfig
from mtkresearch.llm.prompt import MRPromptV3

# 模型與分詞器設定
model_id = 'MediaTek-Research/Llama-Breeze2-3B-Instruct-v0_1'

# 針對 Windows 系統移除信號超時檢查，以避免 AttributeError
if sys.platform == "win32":
    import signal
    def no_op_handler(signum, frame):
        pass
    signal.signal = no_op_handler
    print("偵測到 Windows 環境，已調整信號處理以順利載入模型。")
    print("-" * 50)

# 載入模型
try:
    model = AutoModelForCausalLM.from_pretrained(
        model_id,
        torch_dtype=torch.bfloat16,
        low_cpu_mem_usage=True,
        trust_remote_code=True,
        device_map='auto',
        img_context_token_id=128212
    ).eval()
    tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True, use_fast=False)
    print("✅ 模型與分詞器載入成功！")
except Exception as e:
    print(f"❌ 載入模型時發生錯誤：{e}")
    sys.exit(1)

# 生成設定
generation_config = GenerationConfig(
    max_new_tokens=2048,
    do_sample=True,
    temperature=0.01,
    top_p=0.01,
    repetition_penalty=1.1,
    eos_token_id=128009
)

# 提示詞引擎與系統提示
prompt_engine = MRPromptV3()
sys_prompt = 'You are a helpful AI assistant built by MediaTek Research. The user you are helping speaks Traditional Chinese and comes from Taiwan.'

def _inference(tokenizer, model, generation_config, prompt, pixel_values=None):
    """
    執行模型推論的函式
    """
    inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
    if pixel_values is None:
        # 修正：直接傳遞 pixel_values=None 給 generate，以滿足多模態模型的內部檢查
        output_tensors = model.generate(**inputs, generation_config=generation_config, pixel_values=None)
    else:
        output_tensors = model.generate(**inputs, generation_config=generation_config, pixel_values=pixel_values.to(model.device, dtype=model.dtype))
    output_str = tokenizer.decode(output_tensors[0])
    return output_str

# 測試案例列表
test_cases = [
    {
        "question": "在法國大革命期間，為何拿破崙能成功地推翻法國共和政府並宣告自己為皇帝？",
        "answer": "拿破崙能成功地推翻法國共和政府並宣告自己為皇帝的原因包括：其軍事才能使他在混亂的法國大革命後期平定了內亂，贏得了人民的支持；他實行了獨裁政治，並廢除了選舉制度，使自己成為了無可挑戰的領導者；並且他利用了法國人民對於皇權的傳統崇拜，自封為法國皇帝，正式結束了法國共和政府的統治。"
    },
    {
        "question": "請解釋為何美國曾經在1947年實施馬歇爾計劃，以及該計劃對於歐洲後續統一有何影響？",
        "answer": "美國在1947年實施馬歇爾計劃，主要是為了遏制蘇聯的影響力，並防止歐洲國家轉向共產主義。此計劃對於歐洲後續的統一有重大影響，它透過經濟援助加強了歐洲各國的經濟合作與聯繫，進而形成歐洲共同體的基礎，最終導致歐洲聯盟的成立。"
    },
    {
        "question": "如果維京人的北歐探險在10世紀末期並未終止，他們是否有可能在哥倫布前發現美洲？",
        "answer": "否，維京人早在哥倫布前就已發現美洲。他們的探險活動在10世紀末期並未終止，他們在大約1000年左右就已經到達北美洲。"
    },
    {
        "question": "如果歐洲的文藝復興運動未曾發生，會對哪位科學家的理論產生最大的影響？",
        "answer": "哥白尼"
    },
    {
        "question": "如果美國獨立宣言並未在1776年簽署，那麼法國大革命的時間點可能會有所改變嗎？",
        "answer": "會"
    },
    {
        "question": "如果盧梭和菲利普二世在同一時期活著，那麼他們的對話可能會是關於什麼？",
        "answer": "他們的對話可能會是關於啟蒙時代的價值觀和統治理念，以及如何平衡人民的自由和國家的權威。此外，他們也可能會討論如何通過教育來提升國家的整體素質和實力。"
    },
    {
        "question": "法國大革命後的法國，和美國獨立戰爭後的美國，兩者的國家性質有何不同？",
        "answer": "法國大革命後的法國為民主共和國，重視公民的政治參與，而美國獨立戰爭後的美國為聯邦制國家，重視個人權利和自由。"
    },
    {
        "question": "如果克里斯托弗·哥倫布在1492年發現美洲並於1498年死亡，而瓦斯科·達伽馬在1497年發現了通往印度的海路，那麼在哥倫布死亡時，歐洲人是否已經知道到達印度的海路？",
        "answer": "是"
    },
    {
        "question": "如果美國獨立戰爭並未成功，那麼盧易斯安那購地是否還會發生？",
        "answer": "不會"
    },
    {
        "question": "如果光緒皇帝在1900年時仍然年幼，那麼誰是當時實際掌握清朝政權的人物？",
        "answer": "慈禧太后"
    },
    {
        "question": "如果工業革命發生在中國而非英國，會對全球歷史產生何種影響？",
        "answer": "如果工業革命發生在中國而非英國，中國可能會取代英國成為全球第一個工業化強國，進而影響全球政治和經濟的發展，並使中國的文化和思想在全球範圍內得到廣泛傳播。"
    },
    {
        "question": "如果明成祖朱棣與明太祖朱元璋的爭權奪位事件並未發生，那麼朱棣是否會發起靖難之役？",
        "answer": "不會"
    },
    {
        "question": "如果羅馬帝國在公元476年並未滅亡，那麼歐洲的中世紀是否會存在？",
        "answer": "不會"
    },
    {
        "question": "在中國古代，哪位皇帝在位時期，發生了兩次重要的歷史事件：一是漢武帝修建了長城，二是班超出使西域？",
        "answer": "秦始皇"
    },
    {
        "question": "如果哥倫布在1492年發現新大陸，而麥哲倫於1522年完成繞地球一周的航行，那麼哥倫布和麥哲倫是否有機會見面？",
        "answer": "不，哥倫布和麥哲倫沒有機會見面。"
    }
]

# 執行測試
print("==========================================")
print("     開始測試原始模型在多跳問題上的表現    ")
print("==========================================\n")

for idx, case in enumerate(tqdm(test_cases, desc="評估中")):
    question = case["question"]
    conversations = [
        {"role": "system", "content": sys_prompt},
        {"role": "user", "content": question}
    ]

    prompt = prompt_engine.get_prompt(conversations)
    output = _inference(tokenizer, model, generation_config, prompt)
    parsed = prompt_engine.parse_generated_str(output)

    print("-" * 80)
    print(f"問題 {idx+1}: {question}")
    print(f"模型回答：\n{parsed['content']}")
    print(f"✅ 正確答案：\n{case['answer']}")
    print("-" * 80)

print("==========================================")
print("           直接測試已完成。                ")
print("==========================================")


偵測到 Windows 環境，已調整信號處理以順利載入模型。
--------------------------------------------------
FlashAttention2 is not installed.


Loading checkpoint shards: 100%|██████████| 2/2 [00:08<00:00,  4.13s/it]


✅ 模型與分詞器載入成功！
     開始測試原始模型在多跳問題上的表現    



評估中:   0%|          | 0/15 [00:00<?, ?it/s]Setting `pad_token_id` to `eos_token_id`:128009 for open-end generation.
評估中:   7%|▋         | 1/15 [00:12<02:57, 12.69s/it]Setting `pad_token_id` to `eos_token_id`:128009 for open-end generation.


--------------------------------------------------------------------------------
問題 1: 在法國大革命期間，為何拿破崙能成功地推翻法國共和政府並宣告自己為皇帝？
模型回答：
拿破崙成功推翻法國共和政府並宣告自己為皇帝的原因有幾點：

1.軍事才能：拿破崙是一位優秀的將領，擁有卓越的戰略和指揮能力。他在義大利戰爭中取得了勝利，並且迅速地征服了義大利大部分地區。這使得他獲得了聲望和權力。

2.政治手腕：拿破崙善於操縱輿論和利用媒體來傳播他的思想。他創立了一個強大的中央集權政府，並透過建立一個新的法律制度來鞏固自己的統治。

3.外交政策：拿破崙採取了一系列外交措施來加強法國的國際地位。他與其他歐洲國家簽訂了條約，併為法國提供了經濟援助。此外，他還積極參與國際事務，試圖影響歐洲的政治格局。

4.民族主義：拿破崙利用民族主義來團結人民，將他們對國家的愛國情懷轉化為支持他的力量。通過提倡法蘭西人的偉大和榮譽，他激發了公民的自豪感和忠誠度。

5.改革：拿破崙實施了一些重要的改革，如建立現代教育系統、發展交通基礎設施以及改進農業技術等。這些改革提高了人民的生活質量，使其更加依賴於拿破崙的統治。

總之，拿破崙能夠成功推翻法國共和政府並宣告自己為皇帝是由於他的軍事才能、政治手腕、外交政策、民族主義和改革努力所致。
✅ 正確答案：
拿破崙能成功地推翻法國共和政府並宣告自己為皇帝的原因包括：其軍事才能使他在混亂的法國大革命後期平定了內亂，贏得了人民的支持；他實行了獨裁政治，並廢除了選舉制度，使自己成為了無可挑戰的領導者；並且他利用了法國人民對於皇權的傳統崇拜，自封為法國皇帝，正式結束了法國共和政府的統治。
--------------------------------------------------------------------------------


評估中:  13%|█▎        | 2/15 [00:26<02:51, 13.18s/it]Setting `pad_token_id` to `eos_token_id`:128009 for open-end generation.


--------------------------------------------------------------------------------
問題 2: 請解釋為何美國曾經在1947年實施馬歇爾計劃，以及該計劃對於歐洲後續統一有何影響？
模型回答：
美國在1947年實施馬歇爾計劃的原因是第二次世界大戰結束後，歐洲各國經濟狀況十分惡劣。許多國家都面臨嚴重的通貨膨脹、失業率高以及物資短缺等問題，這些因素導致了社會動盪不安和政治不穩定。

為了解決這一情況，美國總統哈里·S·杜魯門於1947年提出了一項名為「歐洲復興計劃」的倡議，由美國財政部長約翰·梅納德·凱恩斯領導。該計劃旨在透過提供貸款和援助來幫助歐洲國家恢復其經濟，並促進他們之間的團結與合作。

馬歇爾計劃對於歐洲後續統一有著重要影響。它為西方國家提供了必要的資金和技術支援，使得法國、義大利和其他歐洲國家能夠重建並發展自己的工業基礎設施。此外，它還加強了美國與歐洲盟國之間的關係，最終促成了北大西洋公約組織（NATO）的成立，以維護歐洲地區的安全與穩定。

此外，馬歇爾計劃也鼓勵了歐洲國家之間的團結與合作，因為它們共同努力應對經濟挑戰。隨著時間推移，歐洲國家逐漸意識到共同利益和價值觀的重要性，從而促進了歐洲統一的進程。

最後，馬歇爾計劃對於歐洲後續統一產生了深遠的影響。它為歐洲國家提供了必要的資金和技術支援，使其能夠重建並發展自己的工業基礎設施；同時，加強了美國與歐洲盟國之間的關係，並促進了歐洲國家之間的團結與合作。
✅ 正確答案：
美國在1947年實施馬歇爾計劃，主要是為了遏制蘇聯的影響力，並防止歐洲國家轉向共產主義。此計劃對於歐洲後續的統一有重大影響，它透過經濟援助加強了歐洲各國的經濟合作與聯繫，進而形成歐洲共同體的基礎，最終導致歐洲聯盟的成立。
--------------------------------------------------------------------------------


評估中:  20%|██        | 3/15 [00:35<02:15, 11.32s/it]Setting `pad_token_id` to `eos_token_id`:128009 for open-end generation.


--------------------------------------------------------------------------------
問題 3: 如果維京人的北歐探險在10世紀末期並未終止，他們是否有可能在哥倫布前發現美洲？
模型回答：
如果維京人的北歐探險在10世紀末期並未終止，他們可能有機會在哥倫布之前發現美洲。然而，重要的是要考慮到幾個因素：

1. 維京人航海技術的進步：隨著時間推移，維京人不斷改善他們的船隻和導航技術，這使得他們能夠更遠地航行。

2. 北大西洋氣候變化：在10世紀末期，北大西洋經歷了溫暖的氣候，使其成為前往新世界的理想路線。

3. 美洲原住民的存在：當時美洲已經有人居住，並且可能知道如何與外來者互動。這將減少維京人面臨的潛在衝突或抵抗。

4. 歐洲殖民活動：雖然維京人可能比哥倫布早到達美洲，但他們很可能沒有足夠的資源、知識或意圖去建立一個持久的殖民地。

總之，如果維京人繼續探索，在哥倫布前發現美洲是可能的，但需要考慮到各種因素，如技術進步、氣候條件、美洲原住民以及歐洲殖民活動等。
✅ 正確答案：
否，維京人早在哥倫布前就已發現美洲。他們的探險活動在10世紀末期並未終止，他們在大約1000年左右就已經到達北美洲。
--------------------------------------------------------------------------------


評估中:  27%|██▋       | 4/15 [00:41<01:42,  9.34s/it]Setting `pad_token_id` to `eos_token_id`:128009 for open-end generation.


--------------------------------------------------------------------------------
問題 4: 如果歐洲的文藝復興運動未曾發生，會對哪位科學家的理論產生最大的影響？
模型回答：
如果歐洲的文藝復興運動未曾發生，對伽利略·伽利萊（Galileo Galilei）的理論產生最大的影響。伽利略是義大利著名的科學家和天文學家，他在文藝復興時期進行了許多重要的研究與發現，並且為現代物理學奠定了基礎。

在沒有文藝復興這個背景的情況下，伽利略可能不會有機會接觸到古希臘哲學家的思想、數學家們的成就以及當時其他科學家的貢獻，這些都促進了他的工作。因此，如果他不能夠吸收這些知識並將其應用於自己的研究中，那麼我們今天所認識到的伽利略的理論便不會如此深遠地影響後世的科學發展。
✅ 正確答案：
哥白尼
--------------------------------------------------------------------------------


評估中:  33%|███▎      | 5/15 [00:47<01:20,  8.08s/it]Setting `pad_token_id` to `eos_token_id`:128009 for open-end generation.


--------------------------------------------------------------------------------
問題 5: 如果美國獨立宣言並未在1776年簽署，那麼法國大革命的時間點可能會有所改變嗎？
模型回答：
如果美國獨立宣言並未在1776年簽署，那麼法國大革命的時間點可能會有所改變。因為法國大革命是受到美國獨立宣言啟發而產生的，當時美國脫離英國統治成功，激勵了許多歐洲國家追求自由與民主。

然而，如果美國獨立宣言沒有被簽署，則其他國家可能不會如此迅速地採取行動來推動自己的革命運動。這將導致更長的時間間隔才能看到像法國大革命這樣的重大事件發生。

總之，美國獨立宣言對於法國大革命起到了一個重要的催化劑作用。如果它沒有被簽署，法國大革命的時間點可能會延遲，但最終還是會出現。
✅ 正確答案：
會
--------------------------------------------------------------------------------


評估中:  40%|████      | 6/15 [01:01<01:29,  9.96s/it]Setting `pad_token_id` to `eos_token_id`:128009 for open-end generation.


--------------------------------------------------------------------------------
問題 6: 如果盧梭和菲利普二世在同一時期活著，那麼他們的對話可能會是關於什麼？
模型回答：
如果盧梭和菲利普二世在同一時期活著，他們的對話可能會圍繞以下幾個主題展開：

1.政治與社會改革：盧梭是瑞士共和國的先驅，提倡直接民主、公民投票權以及人民統治。作為西班牙國王的菲利普二世，可能會討論如何透過立法來改善人民生活並實現更好的政府運作。

2.自然與人文主義：盧梭是一位哲學家和作家，他的作品《愛彌兒》探討了教育和道德問題。他可能會與菲利普二世討論關於個人自由、平等和正義的想法，以及這些概念如何影響社會結構。

3.藝術與文化：兩者都有豐富的創造力，盧梭曾寫詩歌和小說，而菲利普二世則喜歡收集藝術品。因此，他們可能會談論文學、音樂、戲劇或其他形式的藝術，並分享他們對不同類型藝術的看法。

4.旅行與冒險：盧梭曾經去過許多地方旅行，而菲利普二世也熱衷於探索新領土。兩人可以討論他們的旅程經歷、發現到的獨特文化以及它們對自己思想和觀點的影響。

5.科學與技術：隨著時間推移，科技不斷進步。盧梭可能會向菲利普二世介紹一些當代發明，如印刷機、蒸汽機或望遠鏡，而菲利普二世可以分享他對未來技術發展的願景。

總之，如果盧梭和菲利普二世在同一時期活著，他們的對話將涵蓋廣泛的主題，從政治和社會改革到藝術和科學。
✅ 正確答案：
他們的對話可能會是關於啟蒙時代的價值觀和統治理念，以及如何平衡人民的自由和國家的權威。此外，他們也可能會討論如何通過教育來提升國家的整體素質和實力。
--------------------------------------------------------------------------------


評估中:  47%|████▋     | 7/15 [01:13<01:26, 10.76s/it]Setting `pad_token_id` to `eos_token_id`:128009 for open-end generation.


--------------------------------------------------------------------------------
問題 7: 法國大革命後的法國，和美國獨立戰爭後的美國，兩者的國家性質有何不同？
模型回答：
法國大革命後的法國和美國獨立戰爭後的美國，兩者的國家性質有以下不同之處：

1.政治體制：法國在大革命後採用了共和制，而美國則是聯邦制。共和制強調中央集權和平等原則；而聯邦制則注重分權和各州自主。

2.社會結構：法國大革命導致貴族階級被廢除，並建立了一個新的中產階級。然而，這也引發了激烈的衝突與動盪。在美國，獨立戰爭使得殖民地脫離英國統治，形成一個由各州組成的聯盟，沒有貴族或封建制度。

3.經濟發展：法國大革命期間，資本主義開始興起，但仍然受到君主專制的影響。美國獨立戰爭後，新生的美國政府鼓勵商業活動並推廣自由貿易，促進了經濟增長。

4.文化差異：法國大革命時期，思想家們提倡理性、啟蒙運動和人道主義。美國獨立戰爭後，雖然也有這些觀念，但還融入了更多的個人主義和民主精神。

5.國際關係：法國大革命後，法國成為歐洲大陸上最大的帝國之一，試圖擴張其勢力範圍。美國獨立戰爭後，美國成為一個孤立的國家，主要面對外部威脅，如印第安人和海盜。

總之，法國大革命後的法國和美國獨立戰爭後的美國，在政治體制、社會結構、經濟發展、文化差異以及國際關係方面都存在著顯著的不同。
✅ 正確答案：
法國大革命後的法國為民主共和國，重視公民的政治參與，而美國獨立戰爭後的美國為聯邦制國家，重視個人權利和自由。
--------------------------------------------------------------------------------


評估中:  53%|█████▎    | 8/15 [01:16<00:58,  8.30s/it]Setting `pad_token_id` to `eos_token_id`:128009 for open-end generation.


--------------------------------------------------------------------------------
問題 8: 如果克里斯托弗·哥倫布在1492年發現美洲並於1498年死亡，而瓦斯科·達伽馬在1497年發現了通往印度的海路，那麼在哥倫布死亡時，歐洲人是否已經知道到達印度的海路？
模型回答：
是的，在哥倫布死亡時，歐洲人已經知道到達印度的海路。瓦斯科·達伽馬在1497年發現了通往印度的海路，這比克里斯托弗·哥倫布於1492年發現美洲還要早一年。因此，當哥倫布於1498年去世時，歐洲人就已經知道如何前往印度的海路。
✅ 正確答案：
是
--------------------------------------------------------------------------------


評估中:  60%|██████    | 9/15 [01:21<00:42,  7.15s/it]Setting `pad_token_id` to `eos_token_id`:128009 for open-end generation.


--------------------------------------------------------------------------------
問題 9: 如果美國獨立戰爭並未成功，那麼盧易斯安那購地是否還會發生？
模型回答：
如果美國獨立戰爭並未成功，那麼盧易斯安那購地的可能性就會降低。因為在這場戰爭中，美國取得了勝利，並且透過《弗吉尼亞條約》獲得了西部領土，包括現今的路易斯安那州。

然而，如果美國獨立戰爭失敗，英國仍然擁有北美洲大部分地區的主權。在此情況下，英國可能不會考慮出售或讓渡任何土地給其他國家，包括法國和西班牙等歐洲殖民者。因此，盧易斯安那購地很難發生。
✅ 正確答案：
不會
--------------------------------------------------------------------------------


評估中:  67%|██████▋   | 10/15 [01:22<00:26,  5.30s/it]Setting `pad_token_id` to `eos_token_id`:128009 for open-end generation.


--------------------------------------------------------------------------------
問題 10: 如果光緒皇帝在1900年時仍然年幼，那麼誰是當時實際掌握清朝政權的人物？
模型回答：
如果光緒皇帝在1900年時仍然年幼，那麼當時實際掌握清朝政權的人物是慈禧太后。
✅ 正確答案：
慈禧太后
--------------------------------------------------------------------------------


評估中:  73%|███████▎  | 11/15 [01:36<00:32,  8.09s/it]Setting `pad_token_id` to `eos_token_id`:128009 for open-end generation.


--------------------------------------------------------------------------------
問題 11: 如果工業革命發生在中國而非英國，會對全球歷史產生何種影響？
模型回答：
如果工業革命發生在中國而非英國，可能會對全球歷史產生以下幾種影響：

1. 速度和規模：由於中國人口眾多且擁有悠久的製造業傳統，工業革命很可能比在英國更快地展開。這將導致技術進步加速，並使中國成為世界上最先進的經濟體之一。

2. 地緣政治：一個強大的中國工業帝國可能會挑戰歐洲列強的地位，特別是英國。在這種情況下，歐洲國家可能會更加團結起來應對中國崛起，而不是像現在一樣分裂成不同的陣營。

3. 文化交流：隨著中國工業發展，與西方文化的接觸也會增加。這可能會導致更多的文化融合和相互理解，從而減少衝突並促進合作。

4. 科學和技術創新：雖然中國已經有一個長期的科學和技術傳統，但工業革命仍然可以推動進一步的創新和發明。這將為人類社會帶來許多好處，包括改善生活條件、提高生產力以及解決各種問題。

5. 經濟增長：一個強大的中國工業部門將繼續推動全球經濟增長，特別是在亞洲地區。這將導致其他地區的經濟增長放緩，因為它們依賴於出口到中國的產品。

6. 環境影響：工業革命通常伴隨著環境破壞，這可能會因為中國工業活動而惡化。然而，如果中國能夠有效管理其工業活動並採用可持續做法，那麼這些負面影響就可以被降低或避免。

總之，如果工業革命發生在中國而非英國，它可能會導致技術進步加速、更強大的中國工業部門、更好的國際關係、更多的文化交流、科學和技術創新、經濟增長，以及潛在的環境後果。
✅ 正確答案：
如果工業革命發生在中國而非英國，中國可能會取代英國成為全球第一個工業化強國，進而影響全球政治和經濟的發展，並使中國的文化和思想在全球範圍內得到廣泛傳播。
--------------------------------------------------------------------------------


評估中:  80%|████████  | 12/15 [01:41<00:20,  6.99s/it]Setting `pad_token_id` to `eos_token_id`:128009 for open-end generation.


--------------------------------------------------------------------------------
問題 12: 如果明成祖朱棣與明太祖朱元璋的爭權奪位事件並未發生，那麼朱棣是否會發起靖難之役？
模型回答：
如果明成祖朱棣與明太祖朱元璋的爭權奪位事件並未發生，那麼朱棣可能不會發起靖難之役。因為他沒有理由挑戰自己的父親，朱元璋在建立明朝時是非常成功且受到人民尊敬的皇帝。

然而，如果朱棣一直處於一個被壓迫或受限制的環境中，他可能會考慮其他方式來實現他的目標，如謀反、叛亂或尋求外國勢力的支持等。這些選擇取決於當時的情況和朱棣個人的意圖。
✅ 正確答案：
不會
--------------------------------------------------------------------------------


評估中:  87%|████████▋ | 13/15 [01:50<00:15,  7.57s/it]Setting `pad_token_id` to `eos_token_id`:128009 for open-end generation.


--------------------------------------------------------------------------------
問題 13: 如果羅馬帝國在公元476年並未滅亡，那麼歐洲的中世紀是否會存在？
模型回答：
如果羅馬帝國在公元476年並未滅亡，那麼歐洲的中世紀可能會存在。這是因為羅馬帝國的崩潰標誌著一個重要的轉折點，導致了歐洲歷史上的一系列變化和發展。

當時，西羅馬帝國被日耳曼人入侵，並最終於476年滅亡。在此之後，各個地區開始獨立統治，形成了一系列小型國家或王國，這些國家隨後逐漸演變成中世紀的形式。

在沒有羅馬帝國的情況下，歐洲很有可能經歷了一段動盪不安、分裂且多樣化的時期。這種情況將促進地方勢力和貴族權力的興起，他們試圖建立自己的領土並對周圍地區施加影響力。

儘管如此，中世紀仍然是一個持續進行的過程，而不是一段固定的時間段。它通常被定義為從5至15世紀期間，歐洲社會和文化發生顯著變化的時期。因此，如果羅馬帝國在476年沒有滅亡，歐洲的中世紀仍然可能繼續存在，但其具體內容和特徵可能會有所不同。
✅ 正確答案：
不會
--------------------------------------------------------------------------------


評估中:  93%|█████████▎| 14/15 [01:51<00:05,  5.60s/it]Setting `pad_token_id` to `eos_token_id`:128009 for open-end generation.


--------------------------------------------------------------------------------
問題 14: 在中國古代，哪位皇帝在位時期，發生了兩次重要的歷史事件：一是漢武帝修建了長城，二是班超出使西域？
模型回答：
漢武帝在位時期發生了兩次重要的歷史事件：一是修建長城，二是班超出使西域。
✅ 正確答案：
秦始皇
--------------------------------------------------------------------------------


評估中: 100%|██████████| 15/15 [01:55<00:00,  7.67s/it]

--------------------------------------------------------------------------------
問題 15: 如果哥倫布在1492年發現新大陸，而麥哲倫於1522年完成繞地球一周的航行，那麼哥倫布和麥哲倫是否有機會見面？
模型回答：
哥倫布在1492年發現新大陸，而麥哲倫於1522年完成繞地球一周的航行。兩人之間有機會見面，特別是在麥哲倫返回西班牙後。

當時，歐洲各國都對探索世界充滿熱情，因此可能會舉辦一些國際活動或聚會來討論這些成就。因此，哥倫布和麥哲倫很有可能在這些場合中相遇並互相交流他們的經歷與發現。
✅ 正確答案：
不，哥倫布和麥哲倫沒有機會見面。
--------------------------------------------------------------------------------
           直接測試已完成。                





In [3]:
prompt = prompt_engine.get_prompt(conversations)
output_str = _inference(tokenizer, model, generation_config, prompt)
result = prompt_engine.parse_generated_str(output_str)
print(result)

Setting `pad_token_id` to `eos_token_id`:128009 for open-end generation.


{'role': 'assistant', 'content': '推理步驟：\n1. 愛因斯坦提出相對論。\n2. 愛因斯坦出生於德國的烏爾姆市。\n3. 德國是一個位於歐洲的國家，其首都是柏林。\n\n答案：提出相對論的科學家出生的國家的首都是柏林。'}


In [20]:
import os
import json
import torch
import sys
from tqdm import tqdm
from transformers import AutoProcessor, AutoModelForCausalLM

# 載入模型與 processor
model_name = "MediaTek-Research/Llama-Breeze2-3B-Instruct"

# 針對 Windows 系統移除信號超時檢查，以避免 AttributeError
# 此處我們檢查是否在非 Linux/macOS 的環境
if sys.platform == "win32":
    # 猴子補丁（Monkey Patch）來修復 Windows 不支援 signal.SIGALRM 的問題
    # 我們將其替換為一個無操作的函式，以便程式碼繼續執行
    import signal
    def no_op_handler(signum, frame):
        pass
    signal.signal = no_op_handler

print("偵測到 Windows 環境，已調整信號處理以順利載入模型。")
print("-" * 50)

try:
    # 使用 AutoProcessor 載入，它會處理 tokenizer 和 image processor 的所有細節
    processor = AutoProcessor.from_pretrained(model_name, trust_remote_code=True)
    model = AutoModelForCausalLM.from_pretrained(
        model_name,
        torch_dtype=torch.bfloat16 if torch.cuda.is_available() else torch.float32,
        device_map="auto",
        trust_remote_code=True
    )
    model.eval() # 設定為評估模式
    print("✅ 模型與 Processor 載入成功！")
except Exception as e:
    print(f"❌ 載入模型時發生錯誤：{e}")
    sys.exit(1)

def get_answer_from_response(response_text):
    """
    從模型的生成文字中提取「最終答案」
    """
    response_parts = response_text.split("最終答案：")
    if len(response_parts) > 1:
        return response_parts[-1].strip()

    return response_text.strip()

# 20個多跳歷史問題，用於直接測試
test_cases = [
    {
        "question": "在法國大革命期間，為何拿破崙能成功地推翻法國共和政府並宣告自己為皇帝？",
        "answer": "拿破崙能成功地推翻法國共和政府並宣告自己為皇帝的原因包括：其軍事才能使他在混亂的法國大革命後期平定了內亂，贏得了人民的支持；他實行了獨裁政治，並廢除了選舉制度，使自己成為了無可挑戰的領導者；並且他利用了法國人民對於皇權的傳統崇拜，自封為法國皇帝，正式結束了法國共和政府的統治。"
    },
    {
        "question": "請解釋為何美國曾經在1947年實施馬歇爾計劃，以及該計劃對於歐洲後續統一有何影響？",
        "answer": "美國在1947年實施馬歇爾計劃，主要是為了遏制蘇聯的影響力，並防止歐洲國家轉向共產主義。此計劃對於歐洲後續的統一有重大影響，它透過經濟援助加強了歐洲各國的經濟合作與聯繫，進而形成歐洲共同體的基礎，最終導致歐洲聯盟的成立。"
    },
    {
        "question": "如果維京人的北歐探險在10世紀末期並未終止，他們是否有可能在哥倫布前發現美洲？",
        "answer": "否，維京人早在哥倫布前就已發現美洲。他們的探險活動在10世紀末期並未終止，他們在大約1000年左右就已經到達北美洲。"
    },
    {
        "question": "如果歐洲的文藝復興運動未曾發生，會對哪位科學家的理論產生最大的影響？",
        "answer": "哥白尼"
    },
    {
        "question": "如果美國獨立宣言並未在1776年簽署，那麼法國大革命的時間點可能會有所改變嗎？",
        "answer": "會"
    },
    {
        "question": "如果盧梭和菲利普二世在同一時期活著，那麼他們的對話可能會是關於什麼？",
        "answer": "他們的對話可能會是關於啟蒙時代的價值觀和統治理念，以及如何平衡人民的自由和國家的權威。此外，他們也可能會討論如何通過教育來提升國家的整體素質和實力。"
    },
    {
        "question": "法國大革命後的法國，和美國獨立戰爭後的美國，兩者的國家性質有何不同？",
        "answer": "法國大革命後的法國為民主共和國，重視公民的政治參與，而美國獨立戰爭後的美國為聯邦制國家，重視個人權利和自由。"
    },
    {
        "question": "如果克里斯托弗·哥倫布在1492年發現美洲並於1498年死亡，而瓦斯科·達伽馬在1497年發現了通往印度的海路，那麼在哥倫布死亡時，歐洲人是否已經知道到達印度的海路？",
        "answer": "是"
    },
    {
        "question": "如果美國獨立戰爭並未成功，那麼盧易斯安那購地是否還會發生？",
        "answer": "不會"
    },
    {
        "question": "如果光緒皇帝在1900年時仍然年幼，那麼誰是當時實際掌握清朝政權的人物？",
        "answer": "慈禧太后"
    },
    {
        "question": "如果工業革命發生在中國而非英國，會對全球歷史產生何種影響？",
        "answer": "如果工業革命發生在中國而非英國，中國可能會取代英國成為全球第一個工業化強國，進而影響全球政治和經濟的發展，並使中國的文化和思想在全球範圍內得到廣泛傳播。"
    },
    {
        "question": "如果明成祖朱棣與明太祖朱元璋的爭權奪位事件並未發生，那麼朱棣是否會發起靖難之役？",
        "answer": "不會"
    },
    {
        "question": "如果羅馬帝國在公元476年並未滅亡，那麼歐洲的中世紀是否會存在？",
        "answer": "不會"
    },
    {
        "question": "在中國古代，哪位皇帝在位時期，發生了兩次重要的歷史事件：一是漢武帝修建了長城，二是班超出使西域？",
        "answer": "秦始皇"
    },
    {
        "question": "如果哥倫布在1492年發現新大陸，而麥哲倫於1522年完成繞地球一周的航行，那麼哥倫布和麥哲倫是否有機會見面？",
        "answer": "不，哥倫布和麥哲倫沒有機會見面。"
    }
]

# 測試原始模型
def test_original_model_direct(model, processor, test_cases, max_gen_tokens=150):
    print("==========================================")
    print("  開始直接測試原始模型在多跳問題上的表現  ")
    print("==========================================\n")

    for i, case in enumerate(tqdm(test_cases, desc="評估中")):
        question = case["question"]
        prompt = f"問題：{question}\n請逐步推理並回答："
        
        # 修正：使用 apply_chat_template 函數來準備模型輸入，並直接使用 tokenizer
        messages = [{"role": "user", "content": prompt}]
        full_prompt = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
        
        # 使用 tokenizer 進行編碼，然後手動添加 pixel_values=None
        inputs = processor.tokenizer(
            full_prompt,
            return_tensors="pt"
        ).to(model.device)
        inputs['pixel_values'] = None

        with torch.no_grad():
            outputs = model.generate(
                **inputs,
                max_new_tokens=max_gen_tokens,
                do_sample=True,
                temperature=0.7,
                top_p=0.9,
                pad_token_id=processor.eos_token_id
            )
        
        response = processor.decode(outputs[0], skip_special_tokens=True)
        
        # 提取模型回答，並移除 chat template 部分
        full_prompt_template = processor.apply_chat_template(
            [{"role": "user", "content": prompt}],
            tokenize=False,
            add_generation_prompt=True
        )
        response_text = response.split(full_prompt_template.strip())[-1].strip()

        pred_answer = get_answer_from_response(response_text)
        ref_answer = case["answer"].strip()
        is_correct = "✅ 正確" if pred_answer == ref_answer else "❌ 錯誤"

        print("-" * 50)
        print(f"問題 {i+1}: {question}\n")
        print(f"✅ 正確答案: {ref_answer}")
        print(f"🤖 模型回答: {pred_answer}")
        print(f"🎯 判斷結果: {is_correct}\n")
        print(f"--- 完整模型回應 --- \n{response_text}\n-----------------------\n")
    
    print("==========================================")
    print("          直接測試已完成。                ")
    print("==========================================")

if __name__ == "__main__":
    test_original_model_direct(model, processor, test_cases)


偵測到 Windows 環境，已調整信號處理以順利載入模型。
--------------------------------------------------


Loading checkpoint shards: 100%|██████████| 2/2 [00:03<00:00,  1.52s/it]
Some parameters are on the meta device because they were offloaded to the cpu.


✅ 模型與 Processor 載入成功！
  開始直接測試原始模型在多跳問題上的表現  



評估中:   0%|          | 0/15 [00:00<?, ?it/s]


AttributeError: PreTrainedTokenizerFast has no attribute tokenizer

In [24]:
print("最終答案：不會")

最終答案：不會
