<a href="https://colab.research.google.com/github/WenyuCho/Generative-AI/blob/main/Homework/final_project.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# preprocessing

載入資料集(QMSum)

In [5]:
# === 建立資料夾並 Clone QMSum GitHub ===
!git clone https://github.com/Yale-LILY/QMSum.git

Cloning into 'QMSum'...
remote: Enumerating objects: 809, done.[K
remote: Counting objects: 100% (5/5), done.[K
remote: Compressing objects: 100% (5/5), done.[K
remote: Total 809 (delta 1), reused 0 (delta 0), pack-reused 804 (from 1)[K
Receiving objects: 100% (809/809), 13.76 MiB | 21.07 MiB/s, done.
Resolving deltas: 100% (446/446), done.


In [6]:
pwd

'/content'

In [7]:
!mkdir RAGLLM
!mkdir RAGLLM/data

mkdir: cannot create directory ‘RAGLLM’: File exists
mkdir: cannot create directory ‘RAGLLM/data’: File exists


將每一行為一筆資料的 .jsonl 格式（如 test set）轉換為標準 .json 檔，並加上 relevant 編號。

In [8]:
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
"""
JSONL to JSON Converter - 固定處理 QMSum 測試資料
"""

import json
from pathlib import Path

INPUT_FILE = "QMSum/data/ALL/jsonl/test.jsonl"
OUTPUT_FILE = "QMSum/data/ALL/jsonl/converted_test.json"

def convert_jsonl_to_json(input_file, output_file):
    result = {}

    print(f"正在讀取文件: {input_file}")
    with open(input_file, 'r', encoding='utf-8') as f:
        for line_num, line in enumerate(f, 1):
            line = line.strip()
            if not line:
                continue
            try:
                meeting_data = json.loads(line)
                meeting_id = f"m_test_{line_num - 1}"

                if 'meeting_transcripts' in meeting_data and meeting_data['meeting_transcripts']:
                    for i, transcript in enumerate(meeting_data['meeting_transcripts']):
                        transcript['relevant'] = str(i)

                result[meeting_id] = meeting_data
            except json.JSONDecodeError as e:
                print(f"錯誤: 第{line_num}行JSON格式錯誤 - {e}")
                continue

    # 儲存 JSON
    print(f"正在寫入文件: {output_file}")
    with open(output_file, 'w', encoding='utf-8') as f:
        json.dump(result, f, indent=2, ensure_ascii=False)

    # 統計
    print(f"\n轉換完成!")
    print(f"會議數: {len(result)}")
    print(f"輸出文件: {output_file}")
    print(f"檔案大小: {Path(output_file).stat().st_size / 1024:.1f} KB")

    # 顯示前 5 筆統計
    print(f"\n各會議摘要:")
    for meeting_id, meeting_data in list(result.items())[:5]:
        print(f"   {meeting_id}:")
        print(f"     - 主題數: {len(meeting_data.get('topic_list', []))}")
        print(f"     - 一般查詢: {len(meeting_data.get('general_query_list', []))}")
        print(f"     - 特定查詢: {len(meeting_data.get('specific_query_list', []))}")
        print(f"     - 逐字稿段落: {len(meeting_data.get('meeting_transcripts', []))}")
    if len(result) > 5:
        print(f"   ... 還有 {len(result) - 5} 個會議")

    return result

if __name__ == '__main__':
    convert_jsonl_to_json(INPUT_FILE, OUTPUT_FILE)


正在讀取文件: QMSum/data/ALL/jsonl/test.jsonl
正在寫入文件: QMSum/data/ALL/jsonl/converted_test.json

轉換完成!
會議數: 35
輸出文件: QMSum/data/ALL/jsonl/converted_test.json
檔案大小: 3871.0 KB

各會議摘要:
   m_test_0:
     - 主題數: 6
     - 一般查詢: 1
     - 特定查詢: 12
     - 逐字稿段落: 133
   m_test_1:
     - 主題數: 4
     - 一般查詢: 1
     - 特定查詢: 6
     - 逐字稿段落: 668
   m_test_2:
     - 主題數: 2
     - 一般查詢: 1
     - 特定查詢: 4
     - 逐字稿段落: 376
   m_test_3:
     - 主題數: 5
     - 一般查詢: 1
     - 特定查詢: 6
     - 逐字稿段落: 804
   m_test_4:
     - 主題數: 4
     - 一般查詢: 1
     - 特定查詢: 4
     - 逐字稿段落: 726
   ... 還有 30 個會議


將 JSON 格式的 QMSum 會議資料，轉換為 segments.csv 和 queries.csv，供後續 embedding 和問答流程使用。

In [9]:
import json
import csv
import re
from pathlib import Path

INPUT_JSON_PATH = "QMSum/data/ALL/jsonl/converted_test.json"
SEGMENTS_CSV_PATH = "RAGLLM/data/segments.csv"
QUERIES_CSV_PATH = "RAGLLM/data/queries.csv"

def convert_json_to_csv(input_json_path, segments_csv_path, queries_csv_path):
    segment_rows = []
    query_rows = []
    brace_pattern = re.compile(r'\{[^}]+\}')  # 移除轉義標記

    with open(input_json_path, "r", encoding="utf-8") as f:
        data = json.load(f)

    for meeting_id, meeting_data in data.items():
        transcripts = meeting_data.get("meeting_transcripts", [])
        segment_count = len(transcripts)

        # 建立逐字稿片段
        for t in transcripts:
            content = t.get("content", "")
            content_cleaned = brace_pattern.sub("", content).strip()
            segment_rows.append({
                "meeting_id": meeting_id,
                "segment_count": segment_count,
                "segment_id": t.get("relevant", ""),
                "speaker": t.get("speaker", ""),
                "content": content_cleaned
            })

        # 一般查詢
        for q in meeting_data.get("general_query_list", []):
            query_rows.append({
                "meeting_id": meeting_id,
                "query_type": "general",
                "query": q.get("query", ""),
                "answer": q.get("answer", ""),
                "relevant_text_span": ""
            })

        # 特定查詢
        for q in meeting_data.get("specific_query_list", []):
            query_rows.append({
                "meeting_id": meeting_id,
                "query_type": "specific",
                "query": q.get("query", ""),
                "answer": q.get("answer", ""),
                "relevant_text_span": q.get("relevant_text_span", "")
            })

    # 輸出 segments.csv（加雙引號）
    with open(segments_csv_path, "w", newline='', encoding="utf-8") as f:
        writer = csv.DictWriter(f, fieldnames=["meeting_id", "segment_count", "segment_id", "speaker", "content"], quoting=csv.QUOTE_ALL)
        writer.writeheader()
        writer.writerows(segment_rows)

    # 輸出 queries.csv
    with open(queries_csv_path, "w", newline='', encoding="utf-8") as f:
        writer = csv.DictWriter(f, fieldnames=["meeting_id", "query_type", "query", "answer", "relevant_text_span"])
        writer.writeheader()
        writer.writerows(query_rows)

    print("JSON 轉 CSV 完成：")
    print(f"   segments.csv：{len(segment_rows)} 行 → {segments_csv_path}")
    print(f"   queries.csv：{len(query_rows)} 行 → {queries_csv_path}")

# 直接執行
if __name__ == "__main__":
    convert_json_to_csv(INPUT_JSON_PATH, SEGMENTS_CSV_PATH, QUERIES_CSV_PATH)


JSON 轉 CSV 完成：
   segments.csv：20718 行 → RAGLLM/data/segments.csv
   queries.csv：281 行 → RAGLLM/data/queries.csv


將 segments.csv 每個段落轉為向量嵌入，並以字典格式儲存為 segments_bge_base_en.pt，供後續問答系統使用。

In [10]:
import pandas as pd
import torch
from sentence_transformers import SentenceTransformer
import time
from pathlib import Path

CSV_PATH = "RAGLLM/data/segments.csv"
OUTPUT_PT_PATH = "RAGLLM/data/segments_bge_base_en.pt"
EMBEDDING_MODEL = "BAAI/bge-base-en-v1.5"
BATCH_SIZE = 64

def convert_csv_to_pt():
    print(f"載入 embedding 模型：{EMBEDDING_MODEL}")
    model = SentenceTransformer(EMBEDDING_MODEL)

    start_time = time.time()
    df = pd.read_csv(CSV_PATH)

    required_columns = ['meeting_id', 'segment_count', 'segment_id', 'speaker', 'content']
    for col in required_columns:
        if col not in df.columns:
            raise ValueError(f"缺少必要欄位: {col}")

    print(f"原始段落數：{len(df)}")
    df["content"] = df["content"].fillna("")
    df = df[df["content"].str.strip().astype(bool)]
    print(f"過濾後有效段落：{len(df)}")

    data = {}
    total = len(df)
    for i in range(0, total, BATCH_SIZE):
        batch = df.iloc[i:i+BATCH_SIZE].copy()
        contents = batch["content"].tolist()
        embeddings = model.encode(contents, convert_to_tensor=True, show_progress_bar=False)

        for j, (_, row) in enumerate(batch.iterrows()):
            key = f"{row['meeting_id']}_segment_{row['segment_id']}"
            data[key] = {
                "meeting_id": row["meeting_id"],
                "segment_id": str(row["segment_id"]),
                "speaker": row["speaker"],
                "content": row["content"],
                "segment_count": int(row["segment_count"]),
                "embedding": embeddings[j].cpu()
            }

    # 儲存 .pt
    torch.save(data, OUTPUT_PT_PATH)
    duration = time.time() - start_time

    print(f"\n儲存完成！共處理 {len(data)} 段落，耗時 {duration:.2f} 秒")
    print(f"輸出檔案：{OUTPUT_PT_PATH}")

    # 範例輸出
    sample_key = next(iter(data))
    sample = data[sample_key]
    print(f"\n範例段落：")
    print(f" Key: {sample_key}")
    print(f" Content: {sample['content'][:50]}...")
    print(f" Embedding shape: {sample['embedding'].shape}")

if __name__ == "__main__":
    convert_csv_to_pt()


載入 embedding 模型：BAAI/bge-base-en-v1.5


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/124 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/94.6k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/52.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/777 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/438M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/366 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/711k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/125 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

原始段落數：20718
過濾後有效段落：19862

儲存完成！共處理 19862 段落，耗時 72.04 秒
輸出檔案：RAGLLM/data/segments_bge_base_en.pt

範例段落：
 Key: m_test_0_segment_0
 Content: Good afternoon, everyone. Welcome to the Children,...
 Embedding shape: torch.Size([768])


# funcion

1. 安裝與套件載入區

In [2]:
# 安裝必要套件（如未安裝）
!pip install -q sentence-transformers transformers accelerate
!pip uninstall -y bitsandbytes
!pip install bitsandbytes --prefer-binary --upgrade --no-cache-dir

# 載入套件
import json
import os
import torch
import torch.nn.functional as F
import pandas as pd
from pathlib import Path
from tqdm import tqdm
import re

from sentence_transformers import SentenceTransformer
from transformers import (
    AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig, pipeline
)
from transformers.utils import logging as transformers_logging

transformers_logging.set_verbosity_error()


Found existing installation: bitsandbytes 0.46.0
Uninstalling bitsandbytes-0.46.0:
  Successfully uninstalled bitsandbytes-0.46.0
Collecting bitsandbytes
  Downloading bitsandbytes-0.46.0-py3-none-manylinux_2_24_x86_64.whl.metadata (10 kB)
Downloading bitsandbytes-0.46.0-py3-none-manylinux_2_24_x86_64.whl (67.0 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m67.0/67.0 MB[0m [31m90.8 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: bitsandbytes
Successfully installed bitsandbytes-0.46.0


In [3]:
!pip uninstall -y bitsandbytes
!pip install bitsandbytes==0.46.0 --prefer-binary --no-cache-dir

Found existing installation: bitsandbytes 0.46.0
Uninstalling bitsandbytes-0.46.0:
  Successfully uninstalled bitsandbytes-0.46.0
Collecting bitsandbytes==0.46.0
  Downloading bitsandbytes-0.46.0-py3-none-manylinux_2_24_x86_64.whl.metadata (10 kB)
Downloading bitsandbytes-0.46.0-py3-none-manylinux_2_24_x86_64.whl (67.0 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m67.0/67.0 MB[0m [31m90.6 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: bitsandbytes
Successfully installed bitsandbytes-0.46.0


2. 參數與模型初始化

❗❗❗注意：如果使用特定 huggingface 上，需要 API Tokens 的 model，要在Secret內帶入Access Tokens❗❗❗

In [4]:
from huggingface_hub import login
from google.colab import userdata

# 從 Colab Secrets 中取得 token
hf_token = userdata.get("HUGGINGFACE_TOKEN")
login(token=hf_token)

# === 基本參數設定 ===
DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
TOP_K = 10
MAX_TOKENS = 7500

EMBED_MODEL = "BAAI/bge-base-en-v1.5"
LLM_MODEL = "meta-llama/Meta-Llama-3-8B-Instruct"

# === 載入 Embedding 模型 ===
print("\n[Embedding] 載入 bge-base-en-v1.5...")
embedder = SentenceTransformer(EMBED_MODEL, device=DEVICE)

# === 載入 LLM 模型（4bit 量化）===
print("\n[LLM] 載入 LLaMA-3 模型（4bit）...")
quant_config = BitsAndBytesConfig(load_in_4bit=True, bnb_4bit_compute_dtype=torch.float16)
tokenizer = AutoTokenizer.from_pretrained(LLM_MODEL, use_fast=True)
tokenizer.use_default_system_prompt = False

model = AutoModelForCausalLM.from_pretrained(
    LLM_MODEL, device_map="auto", quantization_config=quant_config
)
llm = pipeline("text-generation", model=model, tokenizer=tokenizer, max_new_tokens=256)



[Embedding] 載入 bge-base-en-v1.5...


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.



[LLM] 載入 LLaMA-3 模型（4bit）...


model.safetensors.index.json:   0%|          | 0.00/23.9k [00:00<?, ?B/s]

Fetching 4 files:   0%|          | 0/4 [00:00<?, ?it/s]

Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`
Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`
Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`
Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


model-00004-of-00004.safetensors:   0%|          | 0.00/1.17G [00:00<?, ?B/s]

model-00001-of-00004.safetensors:   0%|          | 0.00/4.98G [00:00<?, ?B/s]

model-00003-of-00004.safetensors:   0%|          | 0.00/4.92G [00:00<?, ?B/s]

model-00002-of-00004.safetensors:   0%|          | 0.00/5.00G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/187 [00:00<?, ?B/s]

3. 基礎工具函式

In [5]:
def truncate_by_tokens(text, tokenizer, max_tokens=MAX_TOKENS):
    input_ids = tokenizer.encode(text, truncation=True, max_length=max_tokens, return_tensors=None)
    return tokenizer.decode(input_ids, skip_special_tokens=True)

def get_embedding(text):
    return embedder.encode(text, convert_to_tensor=True).to(DEVICE)

def clean_generated_output(text):
    text = text.strip()
    for prefix in ["Answer:", "A:", "答：", "Response:"]:
        if text.lower().startswith(prefix.lower()):
            text = text[len(prefix):].strip()
    return text

def is_valid_segment(s):
    return (
        isinstance(s.get("content", ""), str) and s["content"].strip() and
        isinstance(s.get("speaker", ""), str)
    )


4. 模型問答函式（含 fallback）

In [6]:
def ask_llm(context, query):
    messages = [
        {
            "role": "system",
            "content": (
                "You are a helpful assistant. Answer the user's query as specifically and factually as possible "
                "based only on the transcript excerpts. Do not guess or invent information. "
                "If the query is too vague or irrelevant, reply: <<UNANSWERABLE>>."
            )
        },
        {
            "role": "user",
            "content": f"Transcript:\n{context}\n\nQuery:\n{query}"
        }
    ]
    prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
    raw = llm(prompt, return_full_text=False)[0]['generated_text']
    cleaned = clean_generated_output(raw).strip()

    if (
        cleaned.upper() == "<<UNANSWERABLE>>" or
        len(cleaned) < 3 or
        cleaned.lower() in {"barry", "barry hugh"} or
        not re.match(r"^[A-Z].{3,}[.!?]?$", cleaned)
    ):
        return "<<UNANSWERABLE>>"
    return cleaned

def ask_llm_fallback(full_context, query):
    messages = [
        {
            "role": "system",
            "content": (
                "You are a helpful assistant tasked with summarizing full transcripts to answer user queries. "
                "Summarize relevant parts clearly and concisely. Use only the information from the transcript."
            )
        },
        {
            "role": "user",
            "content": f"Transcript:\n{full_context}\n\nQuery:\n{query}"
        }
    ]
    prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
    raw = llm(prompt, return_full_text=False)[0]['generated_text']
    return clean_generated_output(raw).strip()


5. SelfRoute 主推理函式

In [7]:
def selfroute_inference(query, reference, full_context, global_segments):
    query_emb = get_embedding(f"{query}\n\n{full_context}").to(DEVICE)
    query_emb = F.normalize(query_emb, p=2, dim=0)

    filtered_segments = [s for s in global_segments if is_valid_segment(s)]
    if not filtered_segments:
        return {
            "query": query,
            "reference": reference,
            "used_fallback": True,
            "answer": "No valid segments found.",
            "top_segments": []
        }

    all_embeddings = torch.stack([s["embedding"].to(DEVICE) for s in filtered_segments])
    all_embeddings = F.normalize(all_embeddings, p=2, dim=1)
    sim_scores = torch.matmul(all_embeddings, query_emb)
    top_k_values, top_k_indices = torch.topk(sim_scores, k=min(TOP_K, len(filtered_segments)))

    top_segments = []
    for score, idx in zip(top_k_values, top_k_indices):
        s = filtered_segments[idx]
        top_segments.append({
            "id": idx.item(),
            "speaker": s["speaker"],
            "text": s["content"],
            "similarity": round(score.item(), 4)
        })

    retrieved_context = "\n\n".join([f"{s['speaker']}: {s['text']}" for s in top_segments if s["text"].strip()])
    rag_answer = ask_llm(retrieved_context, query)

    if rag_answer.strip() == "<<UNANSWERABLE>>":
        fallback_context = truncate_by_tokens(retrieved_context, tokenizer, max_tokens=MAX_TOKENS)
        print(f"\n[Fallback] 使用 fallback 策略，因為 RAG 回答無效：{rag_answer}")
        final_answer = ask_llm_fallback(fallback_context, query)
        used_fallback = True
    else:
        final_answer = rag_answer
        used_fallback = False

    return {
        "query": query,
        "reference": reference,
        "used_fallback": used_fallback,
        "answer": final_answer,
        "top_segments": top_segments
    }


6. 主程式（使用測試資料執行）

In [8]:
queries_csv_path = "RAGLLM/data/queries.csv"
segments_csv_path = "RAGLLM/data/segments.csv"
segments_pt_path = "RAGLLM/data/segments_bge_base_en.pt"
output_json_path = "output/retrieval_topk.json"

# 載入資料
queries_df = pd.read_csv(queries_csv_path)
segments_df = pd.read_csv(segments_csv_path)
segment_data = torch.load(segments_pt_path, map_location="cpu")
global_segments = [v for k, v in segment_data.items() if is_valid_segment(v)]

# 問答流程
results = []
for _, row in tqdm(queries_df.iterrows(), total=len(queries_df), desc="自動問答中"):
    meeting_id = row["meeting_id"]
    query = row["query"]
    reference = row.get("answer", "")
    matched_contents = segments_df[segments_df["meeting_id"] == meeting_id]["content"].dropna().tolist()
    full_context = " ".join(matched_contents).strip()
    result = selfroute_inference(query, reference, full_context, global_segments)
    results.append(result)

# 輸出 JSON
os.makedirs(Path(output_json_path).parent, exist_ok=True)
with open(output_json_path, "w", encoding="utf-8") as f:
    json.dump(results, f, ensure_ascii=False, indent=2)

print(f"\n已輸出至：{output_json_path}")


自動問答中:   0%|          | 0/281 [00:00<?, ?it/s]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:   0%|          | 1/281 [01:05<5:06:01, 65.58s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:   1%|          | 3/281 [02:01<2:39:55, 34.51s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:   1%|▏         | 4/281 [02:25<2:19:55, 30.31s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:   2%|▏         | 7/281 [02:59<1:09:04, 15.12s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:   4%|▎         | 10/281 [03:52<1:08:00, 15.06s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:   5%|▍         | 13/281 [04:38<57:09, 12.79s/it]  


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:   5%|▌         | 15/281 [05:31<1:20:05, 18.06s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:   7%|▋         | 20/281 [06:18<39:31,  9.09s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:   7%|▋         | 21/281 [06:52<1:11:49, 16.58s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:   8%|▊         | 23/281 [07:31<1:10:59, 16.51s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:   9%|▉         | 26/281 [08:08<56:08, 13.21s/it]  


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  10%|█         | 29/281 [08:53<51:59, 12.38s/it]  


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  11%|█         | 30/281 [09:31<1:23:51, 20.05s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  11%|█▏        | 32/281 [09:42<51:22, 12.38s/it]  


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  13%|█▎        | 36/281 [10:31<40:04,  9.82s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  13%|█▎        | 37/281 [10:54<55:37, 13.68s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  14%|█▎        | 38/281 [11:29<1:21:58, 20.24s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  14%|█▍        | 40/281 [12:01<1:08:44, 17.11s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  16%|█▌        | 44/281 [12:45<45:35, 11.54s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  16%|█▌        | 45/281 [13:17<1:08:45, 17.48s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  17%|█▋        | 47/281 [13:54<1:05:40, 16.84s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  19%|█▊        | 52/281 [14:38<37:08,  9.73s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  19%|█▉        | 54/281 [15:10<45:06, 11.92s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  20%|█▉        | 55/281 [15:51<1:17:05, 20.47s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  20%|█▉        | 56/281 [16:38<1:46:31, 28.41s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  20%|██        | 57/281 [16:56<1:34:48, 25.40s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  22%|██▏       | 61/281 [17:32<43:51, 11.96s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  22%|██▏       | 62/281 [18:16<1:18:37, 21.54s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  23%|██▎       | 64/281 [19:07<1:18:51, 21.80s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  24%|██▍       | 68/281 [19:46<41:23, 11.66s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  25%|██▍       | 70/281 [20:19<45:29, 12.94s/it]  


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  26%|██▌       | 72/281 [20:51<47:27, 13.62s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  26%|██▋       | 74/281 [21:19<43:51, 12.71s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  27%|██▋       | 75/281 [21:25<37:23, 10.89s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  27%|██▋       | 77/281 [21:57<42:32, 12.51s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  28%|██▊       | 79/281 [22:09<30:42,  9.12s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  29%|██▉       | 81/281 [22:21<24:02,  7.21s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  29%|██▉       | 82/281 [22:32<28:06,  8.48s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  30%|██▉       | 83/281 [23:03<50:28, 15.30s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  31%|███       | 86/281 [23:41<38:54, 11.97s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  32%|███▏      | 89/281 [24:18<34:07, 10.67s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  32%|███▏      | 90/281 [24:51<55:10, 17.33s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  35%|███▍      | 97/281 [25:54<21:26,  6.99s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  36%|███▌      | 100/281 [26:50<36:57, 12.25s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  37%|███▋      | 103/281 [27:43<40:36, 13.69s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  39%|███▉      | 110/281 [28:48<21:14,  7.45s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  41%|████      | 114/281 [29:55<30:10, 10.84s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  42%|████▏     | 118/281 [31:14<40:11, 14.80s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  42%|████▏     | 119/281 [31:40<49:19, 18.27s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  43%|████▎     | 121/281 [32:03<38:25, 14.41s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  44%|████▍     | 123/281 [33:04<55:35, 21.11s/it]  


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  44%|████▍     | 124/281 [33:39<1:06:19, 25.35s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  46%|████▌     | 128/281 [34:43<38:17, 15.02s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  46%|████▋     | 130/281 [35:21<39:33, 15.72s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  47%|████▋     | 131/281 [35:58<55:14, 22.10s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  48%|████▊     | 135/281 [36:56<33:27, 13.75s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  49%|████▉     | 137/281 [37:12<24:47, 10.33s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  49%|████▉     | 138/281 [37:45<41:21, 17.35s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  50%|█████     | 141/281 [38:35<33:21, 14.29s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  51%|█████     | 142/281 [39:20<54:16, 23.43s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  51%|█████     | 143/281 [39:53<1:01:05, 26.56s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  52%|█████▏    | 146/281 [40:36<37:06, 16.50s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  52%|█████▏    | 147/281 [40:51<36:10, 16.20s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  53%|█████▎    | 148/281 [41:00<31:01, 14.00s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  53%|█████▎    | 150/281 [41:39<33:34, 15.38s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  54%|█████▎    | 151/281 [41:54<33:13, 15.34s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  54%|█████▍    | 153/281 [42:17<27:24, 12.85s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  55%|█████▌    | 155/281 [42:34<22:51, 10.88s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  56%|█████▌    | 156/281 [43:31<51:26, 24.69s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  57%|█████▋    | 160/281 [44:14<26:07, 12.95s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  59%|█████▊    | 165/281 [45:19<19:39, 10.17s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  59%|█████▉    | 166/281 [45:44<28:17, 14.76s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  60%|█████▉    | 168/281 [46:33<34:40, 18.41s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  60%|██████    | 169/281 [47:08<43:25, 23.26s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  61%|██████    | 171/281 [47:49<37:18, 20.35s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  61%|██████    | 172/281 [48:23<44:27, 24.47s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  62%|██████▏   | 174/281 [48:48<32:16, 18.09s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  62%|██████▏   | 175/281 [49:00<28:41, 16.24s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  63%|██████▎   | 176/281 [49:42<41:43, 23.85s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  63%|██████▎   | 177/281 [50:20<49:04, 28.31s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  63%|██████▎   | 178/281 [50:59<53:59, 31.45s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  65%|██████▍   | 182/281 [51:52<23:57, 14.52s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  66%|██████▌   | 185/281 [52:26<17:31, 10.95s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  66%|██████▌   | 186/281 [52:32<15:18,  9.67s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  67%|██████▋   | 187/281 [53:08<27:32, 17.58s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  68%|██████▊   | 190/281 [53:54<21:30, 14.18s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  69%|██████▊   | 193/281 [54:32<16:55, 11.54s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  70%|██████▉   | 196/281 [55:18<17:58, 12.69s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  70%|███████   | 197/281 [55:45<23:46, 16.98s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  71%|███████   | 200/281 [56:31<18:19, 13.58s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  72%|███████▏  | 202/281 [57:19<22:49, 17.34s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  72%|███████▏  | 203/281 [57:35<22:04, 16.99s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  73%|███████▎  | 204/281 [58:09<28:22, 22.11s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  73%|███████▎  | 206/281 [58:29<19:20, 15.47s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  74%|███████▎  | 207/281 [58:40<17:14, 13.98s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  74%|███████▍  | 209/281 [59:23<19:23, 16.16s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  75%|███████▍  | 210/281 [59:46<21:45, 18.38s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  77%|███████▋  | 216/281 [1:00:47<08:56,  8.26s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  77%|███████▋  | 217/281 [1:01:22<17:11, 16.12s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  78%|███████▊  | 220/281 [1:02:00<12:31, 12.32s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  79%|███████▉  | 223/281 [1:02:57<13:44, 14.21s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  80%|███████▉  | 224/281 [1:03:15<14:43, 15.51s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  80%|████████  | 226/281 [1:03:29<09:57, 10.87s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  81%|████████  | 227/281 [1:04:02<15:46, 17.52s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  81%|████████▏ | 229/281 [1:04:42<15:20, 17.70s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  82%|████████▏ | 230/281 [1:04:52<12:54, 15.19s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  83%|████████▎ | 233/281 [1:05:22<09:02, 11.30s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  83%|████████▎ | 234/281 [1:05:59<14:41, 18.75s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  84%|████████▍ | 236/281 [1:06:18<10:13, 13.64s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  84%|████████▍ | 237/281 [1:06:40<11:51, 16.18s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  85%|████████▌ | 240/281 [1:07:08<08:03, 11.79s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  88%|████████▊ | 248/281 [1:08:09<03:37,  6.59s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  89%|████████▊ | 249/281 [1:08:34<06:22, 11.97s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  89%|████████▉ | 251/281 [1:09:05<06:39, 13.32s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  90%|████████▉ | 252/281 [1:09:33<08:28, 17.55s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  90%|█████████ | 254/281 [1:09:45<05:09, 11.45s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  91%|█████████ | 256/281 [1:10:24<05:58, 14.34s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  91%|█████████▏| 257/281 [1:10:48<06:56, 17.35s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  93%|█████████▎| 260/281 [1:11:09<03:32, 10.13s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  93%|█████████▎| 261/281 [1:11:19<03:25, 10.27s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  93%|█████████▎| 262/281 [1:12:02<06:17, 19.88s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  94%|█████████▎| 263/281 [1:12:29<06:40, 22.26s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  94%|█████████▍| 264/281 [1:12:46<05:49, 20.53s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  94%|█████████▍| 265/281 [1:13:21<06:37, 24.82s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  95%|█████████▍| 266/281 [1:13:40<05:46, 23.07s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  95%|█████████▌| 268/281 [1:14:09<03:56, 18.20s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  96%|█████████▋| 271/281 [1:14:50<02:13, 13.33s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  97%|█████████▋| 272/281 [1:15:17<02:37, 17.55s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  97%|█████████▋| 273/281 [1:16:10<03:45, 28.17s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  98%|█████████▊| 274/281 [1:16:36<03:12, 27.53s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  98%|█████████▊| 275/281 [1:17:17<03:08, 31.46s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中:  98%|█████████▊| 276/281 [1:17:49<02:39, 31.83s/it]


[Fallback] 使用 fallback 策略，因為 RAG 回答無效：<<UNANSWERABLE>>


自動問答中: 100%|██████████| 281/281 [1:18:36<00:00, 16.78s/it]


已輸出至：output/retrieval_topk.json





# evaluation

In [13]:
!git clone https://github.com/neulab/BARTScore.git
!pip install transformers
!pip install rouge-score
!pip install bert-score

Cloning into 'BARTScore'...
remote: Enumerating objects: 220, done.[K
remote: Counting objects: 100% (26/26), done.[K
remote: Compressing objects: 100% (12/12), done.[K
remote: Total 220 (delta 18), reused 14 (delta 14), pack-reused 194 (from 1)[K
Receiving objects: 100% (220/220), 101.98 MiB | 11.91 MiB/s, done.
Resolving deltas: 100% (47/47), done.
Updating files: 100% (192/192), done.


In [15]:
import os
import json
import torch
from rouge_score import rouge_scorer
from bert_score import score
# 載入模組
import sys
sys.path.append("/content/BARTScore")
from bart_score import BARTScorer

EVAL_FILE = "output/retrieval_topk.json"

# === 初始化 BARTScorer ===
bart_scorer = BARTScorer(device='cuda:0' if torch.cuda.is_available() else 'cpu',
                          checkpoint='facebook/bart-large-cnn')

# === 字詞層級 F1 Score ===
def f1_score_fn(ref, pred):
    ref_tokens = set(ref.lower().split())
    pred_tokens = set(pred.lower().split())
    common = ref_tokens & pred_tokens
    if len(common) == 0:
        return 0.0
    precision = len(common) / len(pred_tokens)
    recall = len(common) / len(ref_tokens)
    f1 = 2 * precision * recall / (precision + recall)
    return f1 * 100

# === ROUGE 分數 ===
def rouge_score_fn(ref, pred):
    scorer = rouge_scorer.RougeScorer(['rouge1', 'rouge2', 'rougeL'], use_stemmer=True)
    scores = scorer.score(ref, pred)

    def extract(score_obj):
        return score_obj.precision * 100, score_obj.recall * 100, score_obj.fmeasure * 100

    r1_p, r1_r, r1_f = extract(scores['rouge1'])
    r2_p, r2_r, r2_f = extract(scores['rouge2'])
    rl_p, rl_r, rl_f = extract(scores['rougeL'])

    return (r1_p, r1_r, r1_f,
            r2_p, r2_r, r2_f,
            rl_p, rl_r, rl_f)

# === BERTScore ===
def bs_score(ref, pred):
    P, R, F1 = score([pred], [ref], lang="en", verbose=False)
    return P.mean().item() * 100, R.mean().item() * 100, F1.mean().item() * 100

# === BARTScore（對稱平均）===
def bart_score_wrapper(src, tgt):
    forward = bart_scorer.score([src], [tgt])[0]
    backward = bart_scorer.score([tgt], [src])[0]
    return ((forward + backward) / 2)

# === 主評估函式 ===
def evaluate(file_path, pred_key="answer", ref_key="reference",
             start_id=0, end_id=None, bs_true=True, filter_fallback=None):
    with open(file_path, "r", encoding="utf-8") as f:
        data = json.load(f)

    f1_total = bart_total = 0
    r1_p_total = r1_r_total = r1_f1_total = 0
    r2_p_total = r2_r_total = r2_f1_total = 0
    rl_p_total = rl_r_total = rl_f1_total = 0
    bs_p_total = bs_r_total = bs_f1_total = 0

    count = 0
    end_id = len(data) if end_id is None else min(end_id + 1, len(data))

    for i in range(start_id, end_id):
        item = data[i]
        if filter_fallback is not None and item.get("used_fallback") != filter_fallback:
            continue

        pred = item.get(pred_key, "").strip()
        ref = item.get(ref_key, "").strip()
        if not pred or not ref:
            continue

        f1_total += f1_score_fn(ref, pred)

        (r1p, r1r, r1f,
         r2p, r2r, r2f,
         rlp, rlr, rlf) = rouge_score_fn(ref, pred)

        r1_p_total += r1p
        r1_r_total += r1r
        r1_f1_total += r1f

        r2_p_total += r2p
        r2_r_total += r2r
        r2_f1_total += r2f

        rl_p_total += rlp
        rl_r_total += rlr
        rl_f1_total += rlf

        if bs_true:
            bsp, bsr, bsf = bs_score(ref, pred)
            bs_p_total += bsp
            bs_r_total += bsr
            bs_f1_total += bsf
            bart_total += bart_score_wrapper(ref, pred)

        count += 1

    fallback_label = {
        True: "使用 fallback",
        False: "未使用 fallback",
        None: "全部"
    }

    print(f"\n評估結果（{fallback_label[filter_fallback]}）共 {count} 筆：")
    if count == 0:
        print("沒有符合條件的資料。")
        return

    print(f"F1 Score:  {f1_total / count:.2f}")
    print(f"ROUGE-1:   P={r1_p_total/count:.2f}  R={r1_r_total/count:.2f}  F1={r1_f1_total/count:.2f}")
    print(f"ROUGE-2:   P={r2_p_total/count:.2f}  R={r2_r_total/count:.2f}  F1={r2_f1_total/count:.2f}")
    print(f"ROUGE-L:   P={rl_p_total/count:.2f}  R={rl_r_total/count:.2f}  F1={rl_f1_total/count:.2f}")
    if bs_true:
        print(f"BERTScore: P={bs_p_total/count:.2f}  R={bs_r_total/count:.2f}  F1={bs_f1_total/count:.2f}")
        print(f"BARTScore: {bart_total / count:.2f}")

# === 直接執行評估（針對固定檔案）===
if __name__ == "__main__":
    FILE = EVAL_FILE

    print("\n===== 不使用 fallback 的評估 =====")
    evaluate(file_path=FILE, filter_fallback=False)

    print("\n===== 使用 fallback 的評估 =====")
    evaluate(file_path=FILE, filter_fallback=True)

    print("\n===== 全部資料的總體評估 =====")
    evaluate(file_path=FILE, filter_fallback=None)


vocab.json:   0%|          | 0.00/899k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

config.json:   0%|          | 0.00/1.58k [00:00<?, ?B/s]

Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


model.safetensors:   0%|          | 0.00/1.63G [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/363 [00:00<?, ?B/s]


===== 不使用 fallback 的評估 =====


tokenizer_config.json:   0%|          | 0.00/25.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/482 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/899k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


model.safetensors:   0%|          | 0.00/1.42G [00:00<?, ?B/s]


評估結果（未使用 fallback）共 148 筆：
F1 Score:  21.48
ROUGE-1:   P=32.31  R=27.74  F1=27.17
ROUGE-2:   P=8.72  R=7.12  F1=7.08
ROUGE-L:   P=22.26  R=18.87  F1=18.44
BERTScore: P=86.09  R=85.63  F1=85.85
BARTScore: -3.78

===== 使用 fallback 的評估 =====

評估結果（使用 fallback）共 133 筆：
F1 Score:  21.26
ROUGE-1:   P=22.23  R=43.39  F1=27.46
ROUGE-2:   P=5.21  R=10.64  F1=6.56
ROUGE-L:   P=13.84  R=27.54  F1=17.17
BERTScore: P=83.83  R=85.70  F1=84.75
BARTScore: -3.82

===== 全部資料的總體評估 =====

評估結果（全部）共 281 筆：
F1 Score:  21.37
ROUGE-1:   P=27.54  R=35.15  F1=27.31
ROUGE-2:   P=7.06  R=8.78  F1=6.83
ROUGE-L:   P=18.28  R=22.97  F1=17.84
BERTScore: P=85.02  R=85.66  F1=85.33
BARTScore: -3.80
