## 0. Cuda Test

In [1]:
!pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

%pip install numpy

Looking in indexes: https://download.pytorch.org/whl/cu118
Note: you may need to restart the kernel to use updated packages.


In [2]:
import torch
print(torch.__version__)
print(torch.cuda.is_available())

import numpy
print(numpy.__version__)

2.7.0+cu118
True
2.3.1


## 1. Setup

### 1.1 Install packages

In [3]:
%pip install git+https://github.com/brandonstarxel/chunking_evaluation.git --quiet
%pip install hf_xet --quiet
%pip install bitsandbytes --quiet
%pip install --upgrade transformers --quiet
%pip install --upgrade chromadb --quiet

Note: you may need to restart the kernel to use updated packages.
Note: you may need to restart the kernel to use updated packages.
Note: you may need to restart the kernel to use updated packages.
Note: you may need to restart the kernel to use updated packages.
Note: you may need to restart the kernel to use updated packages.


### 1.2 Import Required Modules

In [4]:
import os
import sys

# 取得目前筆記本檔案的絕對路徑
notebook_path = os.path.abspath('chunking_exp.ipynb')

# 取得筆記本所在的目錄（即專案根目錄）
project_root = os.path.dirname(notebook_path)

# 將專案根目錄（包含你的本地 chunking_evaluation 資料夾）
# 插入到 sys.path 的最前面，確保優先載入本地版本
sys.path.insert(0, project_root)
print(f"已將專案根目錄 '{project_root}' 優先加入到 Python 模組搜尋路徑。")


from chunking_evaluation.chunking import FixedTokenChunker, RecursiveTokenChunker
from chunking_evaluation import GeneralEvaluation, SyntheticEvaluation
from chunking_evaluation.utils import bge_m3_token_count, get_bge_m3_embedding_function
from chunking_evaluation.evaluation_framework.general_evaluation_data.DatasetAnalyzer import DatasetAnalyzer
import pandas as pd
from IPython.display import display, clear_output
import http.client
import json


已將專案根目錄 'd:\ArtificialIntelligenceCustomerService\code\exp' 優先加入到 Python 模組搜尋路徑。


## 2. Create Chunkers

### 2.1 RecursiveTokenChunker & FixedTokenChunker

In [5]:
from langchain.text_splitter import RecursiveCharacterTextSplitter
chunkers = [
    # chunk_size = 512
    RecursiveCharacterTextSplitter(
        chunk_size=512,
        chunk_overlap=50,
        length_function=len,
        separators=["\n\n", "\n", " ", "", "。", "！", "？", "，", "."]
    ),
    RecursiveCharacterTextSplitter(
        chunk_size=1024,
        chunk_overlap=50,
        length_function=len,
        separators=["\n\n", "\n", " ", "", "。", "！", "？", "，", "."]
    ),
]


## 3. Prepare Corpora

In [6]:
'''
def download_text(book_id, file_name, directory):
    conn = http.client.HTTPSConnection("www.gutenberg.org")
    url = f"/files/{book_id}/{book_id}-0.txt"

    conn.request("GET", url)
    response = conn.getresponse()

    if response.status == 200:
        text = response.read().decode('utf-8')

        # Create directory if it does not exist
        os.makedirs(directory, exist_ok=True)

        # Save the text to the specified file within the directory
        file_path = os.path.join(directory, file_name)
        with open(file_path, "w", encoding="utf-8") as file:
            file.write(text)
        print(f"Book '{file_name}' downloaded and saved successfully in '{directory}'.")
    else:
        print(f"Failed to download the book. Status code: {response.status}")


# Define the directory to save the books
directory = "corpora"

def download_example_texts(download=False, directory="./corpora"):
    if download:
        books = {
            1661: "the_adventures_of_sherlock_holmes.txt",
            1342: "pride_and_prejudice.txt", 
            174: "the_picture_of_dorian_gray.txt"
        }
        print("開始下載範例文本...")

        for book_id, file_name in books.items():
            try:
                download_text(book_id, file_name, directory)
                print(f"✅ 成功下載: {file_name}")
            except Exception as e:
                print(f"❌ 下載失敗 {file_name}: {e}")
        
        print("範例文本下載完成！")
    else:
        print("跳過下載範例文本。")

download_example_texts(download=False)
'''

'\ndef download_text(book_id, file_name, directory):\n    conn = http.client.HTTPSConnection("www.gutenberg.org")\n    url = f"/files/{book_id}/{book_id}-0.txt"\n\n    conn.request("GET", url)\n    response = conn.getresponse()\n\n    if response.status == 200:\n        text = response.read().decode(\'utf-8\')\n\n        # Create directory if it does not exist\n        os.makedirs(directory, exist_ok=True)\n\n        # Save the text to the specified file within the directory\n        file_path = os.path.join(directory, file_name)\n        with open(file_path, "w", encoding="utf-8") as file:\n            file.write(text)\n        print(f"Book \'{file_name}\' downloaded and saved successfully in \'{directory}\'.")\n    else:\n        print(f"Failed to download the book. Status code: {response.status}")\n\n\n# Define the directory to save the books\ndirectory = "corpora"\n\ndef download_example_texts(download=False, directory="./corpora"):\n    if download:\n        books = {\n           

## 4. Initialize the Evaluation Environment

### 4.1 Setup Path

In [7]:
import os
import glob
import pandas as pd
from typing import List, Dict

# 確保你的 chunking_evaluation 模組已經載入
from chunking_evaluation import GeneralEvaluation, SyntheticEvaluation
from chunking_evaluation.evaluation_framework.general_evaluation_data.DatasetAnalyzer import DatasetAnalyzer

# 設定路徑
corpora_directory = "./chunking_evaluation/evaluation_framework/general_evaluation_data/corpora"
queries_csv_path = "./chunking_evaluation/evaluation_framework/general_evaluation_data/generated_queries_and_excerpts.csv"


### 4.2 Already have corpora & queries csv

In [8]:

# 檢查 CSV 檔案是否存在
if os.path.exists(queries_csv_path):
    print(f"✅ 偵測到評估資料集 CSV 檔案 '{queries_csv_path}' 已存在。")
    print("將使用 GeneralEvaluation 進行評估。")
    evaluation = GeneralEvaluation()
else:
    print(f"🚧 未偵測到評估資料集 CSV 檔案，將使用 SyntheticEvaluation 進行生成。")

✅ 偵測到評估資料集 CSV 檔案 './chunking_evaluation/evaluation_framework/general_evaluation_data/generated_queries_and_excerpts.csv' 已存在。
將使用 GeneralEvaluation 進行評估。


### 4.3 Generate queries if haven't

In [9]:
%pip install --upgrade ipywidgets --quiet
%pip install accelerate --quiet

Note: you may need to restart the kernel to use updated packages.
Note: you may need to restart the kernel to use updated packages.


In [10]:

# 檢查 CSV 檔案是否存在
if os.path.exists(queries_csv_path):
    print(f"✅ 偵測到評估資料集 CSV 檔案 '{queries_csv_path}' 已存在。")
    print("將使用 GeneralEvaluation 進行評估。")
else:
    print(f"🚧 未偵測到評估資料集 CSV 檔案，將使用 SyntheticEvaluation 進行生成。")

    # 進行資料取樣以生成評估資料集
    analyzer = DatasetAnalyzer(corpora_directory)
    analyzer.analyze_folder()
    analyzer.generate_report()
    sample = analyzer.get_stratified_sample(100)
    
    # 建立檔案路徑清單
    corpora_paths_list = [os.path.normpath(file_info['file_path']).replace('\\\\', '/') for file_info in sample]
    corpora_id_paths = {
        os.path.splitext(os.path.basename(path))[0]: path
        for path in corpora_paths_list
    }

    print(f"\n🎯 分層取樣完成，選擇了 {len(sample)} 個檔案。")
    print("將使用 SyntheticEvaluation 生成評估資料集並進行評估。")

    # 初始化 SyntheticEvaluation
    evaluation = SyntheticEvaluation(corpora_id_paths, queries_csv_path)

    # 生成評估資料集
    print(f"🚀 正在生成查詢與摘錄...")
    evaluation.generate_queries_and_excerpts(approximate_excerpts=True, num_rounds=1, queries_per_corpus=1)
    print(f"✔️ 查詢生成完成，已儲存至 '{queries_csv_path}'")
    evaluation.repair_csv_references()
    evaluation.validate_csv_integrity()

✅ 偵測到評估資料集 CSV 檔案 './chunking_evaluation/evaluation_framework/general_evaluation_data/generated_queries_and_excerpts.csv' 已存在。
將使用 GeneralEvaluation 進行評估。


In [11]:
# Apply filter to remove queries with poor excerpts
#evaluation.filter_poor_excerpts(threshold=0.36)

# Apply filter to remove duplicates
#evaluation.filter_duplicates(threshold=0.6)

### 4.4 Finished Initialization

In [12]:
print("\n🎉 評估環境初始化完成。")


🎉 評估環境初始化完成。


## 5. Run the evaluation

In [13]:
import torch
print(f"PyTorch 版本: {torch.__version__}")
print(f"CUDA 是否可用: {torch.cuda.is_available()}")
print(f"CUDA 裝置數量: {torch.cuda.device_count()}")
if torch.cuda.is_available():
    print(f"當前使用的 CUDA 裝置: {torch.cuda.current_device()}")
    print(f"CUDA 裝置名稱: {torch.cuda.get_device_name(0)}")

PyTorch 版本: 2.7.0+cu118
CUDA 是否可用: True
CUDA 裝置數量: 1
當前使用的 CUDA 裝置: 0
CUDA 裝置名稱: NVIDIA GeForce RTX 4070 Ti SUPER


In [14]:
import shutil
import pandas as pd
from IPython.display import display

# 刪除舊的 Chroma DB，以確保每次評估都是從頭開始
chroma_db_path = "./chunking_evaluation/evaluation_framework/general_evaluation_data/questions_db"
if os.path.exists(chroma_db_path):
    print(f"🔄 正在刪除舊的 Chroma DB: {chroma_db_path}")
    shutil.rmtree(chroma_db_path)

# ====== 將載入嵌入函式的程式碼移到迴圈外面 ======
print("🚀 準備載入嵌入模型，此過程僅執行一次...")
embedding_function = get_bge_m3_embedding_function()
print("✅ 嵌入模型載入完成！")
print("--------------------------------------------------")
# ======================================================

results = []

for chunker in chunkers:
    print(f"⚙️ 正在使用 {chunker.__class__.__name__} 進行評估...")

    # 執行評估時，直接使用已經載入好的 embedding_function
    result = evaluation.run(
        chunker,
        embedding_function,  # 這裡使用已經載入好的函式
        retrieve=5,
        db_to_save_chunks=chroma_db_path
    )

    # 清理結果並新增 chunker 資訊
    del result['corpora_scores']
    chunk_size = chunker._chunk_size if hasattr(chunker, '_chunk_size') else 0
    chunk_overlap = chunker._chunk_overlap if hasattr(chunker, '_chunk_overlap') else 0
    result['chunker'] = chunker.__class__.__name__ + f"_{chunk_size}_{chunk_overlap}"

    results.append(result)

    # 在每次迭代後，顯示當前 chunker 的結果
    current_df = pd.DataFrame([result])
    print("\n--- 當前 Chunking 策略結果 ---")
    display(current_df)
    print("----------------------------\n")

print("\n✅ 所有分塊器評估完成！")

# 顯示包含所有結果的總結 DataFrame
final_df = pd.DataFrame(results)
print("=== 最終總結報告 ===")
display(final_df)

🔄 正在刪除舊的 Chroma DB: ./chunking_evaluation/evaluation_framework/general_evaluation_data/questions_db
🚀 準備載入嵌入模型，此過程僅執行一次...
正在載入 BGE-M3 模型到裝置: cuda
✅ 嵌入模型載入完成！
--------------------------------------------------
⚙️ 正在使用 RecursiveCharacterTextSplitter 進行評估...
Created collection:  BGE_M3_EmbeddingFunction_RecursiveCharacterTextSplitter_512_50


✅ 正在處理語料庫檔案並切割:   0%|          | 0/90 [00:00<?, ?it/s]

➡️ 處理 HTML 檔案: 113_2_通識教育中心_能源科技與生活[206006]_翁俊仁.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 23032
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 '113_2_通識教育中心_能源科技與生活[206006]_翁俊仁.html' 已切割成 53 個區塊，並生成 45 個中繼資料。
➡️ 處理 HTML 檔案: 113_2_通識教育中心_實用情境韓文[106221]_尹遠菱.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 22847
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 '113_2_通識教育中心_實用情境韓文[106221]_尹遠菱.html' 已切割成 53 個區塊，並生成 89 個中繼資料。
➡️ 處理 HTML 檔案: 113_2_通識教育中心_生死學[106187]_蔡昆宏.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 22687
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此

✅ 正在處理語料庫檔案並切割:  16%|█▌        | 14/90 [00:00<00:01, 68.20it/s]

➡️ 處理 HTML 檔案: 113_2_國語文學系_史記(二)[122109]_張惠貞.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 18524
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 '113_2_國語文學系_史記(二)[122109]_張惠貞.html' 已切割成 42 個區塊，並生成 314 個中繼資料。
➡️ 處理 HTML 檔案: 113_2_國語文學系_詞曲選(二)[122091]_林慧真.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 18072
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 '113_2_國語文學系_詞曲選(二)[122091]_林慧真.html' 已切割成 40 個區塊，並生成 348 個中繼資料。
➡️ 處理 HTML 檔案: 113_2_國語文學系_中國文學史(二)[122079]_王琅.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 19303
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 '113_2_國語文學系_中國文學史(二)[122079]_王琅.html' 已切割成 43 個區塊，並生成 387 個中繼資料。
➡️ 處理 HTML 檔案: 113_2_教育學系_資料科學在教育上的應用[112173]_林娟如.html。使用 

✅ 正在處理語料庫檔案並切割:  34%|███▍      | 31/90 [00:00<00:00, 76.00it/s]

➡️ 處理 HTML 檔案: 113_2_特殊教育學系_領導才能教育[140096]_陳英豪.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 20279
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 '113_2_特殊教育學系_領導才能教育[140096]_陳英豪.html' 已切割成 46 個區塊，並生成 947 個中繼資料。
➡️ 處理 HTML 檔案: 113_2_特殊教育學系_專題研究(1)[140077]_林慶仁林千玉.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 18350
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 '113_2_特殊教育學系_專題研究(1)[140077]_林慶仁林千玉.html' 已切割成 40 個區塊，並生成 981 個中繼資料。
➡️ 處理 HTML 檔案: 113_2_視覺藝術與設計學系_電腦繪圖（二）[191074]_李香蓮.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 19163
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 '113_2_視覺藝術與設計學系_電腦繪圖（二）[191074]_李香蓮.html' 已切割成 43 個

✅ 正在處理語料庫檔案並切割:  44%|████▍     | 40/90 [00:00<00:00, 76.94it/s]

➡️ 處理 HTML 檔案: 113_2_生態暨環境資源學系_戶外生態調查安全與風險管理[156061]_許皓捷.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 16661
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 '113_2_生態暨環境資源學系_戶外生態調查安全與風險管理[156061]_許皓捷.html' 已切割成 37 個區塊，並生成 1597 個中繼資料。
➡️ 處理 HTML 檔案: 113_2_音樂學系_音樂教學法(二)[164401]_沈昕.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 14349
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 '113_2_音樂學系_音樂教學法(二)[164401]_沈昕.html' 已切割成 32 個區塊，並生成 1625 個中繼資料。
➡️ 處理 HTML 檔案: 113_2_音樂學系_聲樂作品研究(二)[164391]_朱芸宜.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 17002
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 '113_2_音樂學系_聲樂作品研究(二)[164391]_朱芸宜.html' 已切割成 38 個區塊，並生成 1658 個中繼資料。
➡️ 處理 HTML 檔案: 113_2_材料科學系_普通物理學(二)[167045]_蒲盈志.html。使用 BeautifulSoup 提取純文字...
提取後的

✅ 正在處理語料庫檔案並切割:  54%|█████▍    | 49/90 [00:00<00:00, 79.05it/s]

➡️ 處理 HTML 檔案: 113_2_綠色能源科技學系(進修學士班)_工程數學(二)[283008]_卜一宇.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 14800
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 '113_2_綠色能源科技學系(進修學士班)_工程數學(二)[283008]_卜一宇.html' 已切割成 32 個區塊，並生成 1911 個中繼資料。
➡️ 處理 HTML 檔案: 113_2_綠色能源科技學系(進修學士班)_電路學(二)[283019]_許正良.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 16470
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 '113_2_綠色能源科技學系(進修學士班)_電路學(二)[283019]_許正良.html' 已切割成 37 個區塊，並生成 1941 個中繼資料。
➡️ 處理 HTML 檔案: 113_2_諮商與輔導學系_專題研究(一)[128073]_陳志賢.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 18366
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 '113_2_諮商與輔導學系_專題研究(一)

✅ 正在處理語料庫檔案並切割:  74%|███████▍  | 67/90 [00:00<00:00, 80.59it/s]

➡️ 處理 HTML 檔案: 113_2_應用數學系_獨立研究[150044]_黃建中.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 15718
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 '113_2_應用數學系_獨立研究[150044]_黃建中.html' 已切割成 34 個區塊，並生成 2185 個中繼資料。
➡️ 處理 HTML 檔案: 113_2_經營與管理學系_經濟學(二)[125037]_阮俊陽.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 23171
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 '113_2_經營與管理學系_經濟學(二)[125037]_阮俊陽.html' 已切割成 55 個區塊，並生成 2234 個中繼資料。
➡️ 處理 HTML 檔案: 113_2_電機工程學系碩士班_生醫感測器信號處理晶片設計[182062]_黃俊岳.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 18892
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 '113_2_電機工程學系碩士班_生醫感測器信號處理晶片設計[182062]_黃俊岳.html' 已切割成 42 個區塊，並生成 2269 個中繼資料。
➡️ 處理 HTML 檔案: 113_2_音樂學系碩士班_音樂教育心理學[164374]_黃靜芳.html。使用 Bea

✅ 正在處理語料庫檔案並切割:  84%|████████▍ | 76/90 [00:00<00:00, 81.77it/s]

提取後的純文字大小（字元數）: 19701
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 '113_2_應用數學系碩士班_偏微分方程[150058]_黃彥彰.html' 已切割成 45 個區塊，並生成 2765 個中繼資料。
➡️ 處理 HTML 檔案: 113_2_教育學系課程與教學教學碩士班(假日)_媒體教育研究[112106]_蘇建元.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 15507
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 '113_2_教育學系課程與教學教學碩士班(假日)_媒體教育研究[112106]_蘇建元.html' 已切割成 35 個區塊，並生成 2795 個中繼資料。
➡️ 處理 HTML 檔案: 113_2_理工學院智慧製造碩士在職學位學程_物聯網系統控制[280004]_白富升.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 12824
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 '113_2_理工學院智慧製造碩士在職學位學程_物聯網系統控制[280004]_白富升.html' 已切割成 28 個區塊，並生成 2820 個中繼資料。
➡️ 處理 HTML 檔案: 113_2_經營與管理學系科技管理碩士在職專班(夜)_財務管理[225001

✅ 正在處理語料庫檔案並切割: 100%|██████████| 90/90 [00:01<00:00, 71.14it/s]



⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 '113_2_教育學系教育經營與管理碩士班_教育政策與批判研究[112122]_曾燦燈.html' 已切割成 41 個區塊，並生成 3026 個中繼資料。
➡️ 處理 HTML 檔案: 113_2_教育學系課程與教學碩士班_教學評量研究[112099]_徐立真.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 14915
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 '113_2_教育學系課程與教學碩士班_教學評量研究[112099]_徐立真.html' 已切割成 34 個區塊，並生成 3053 個中繼資料。
➡️ 處理 HTML 檔案: 113_2_經營與管理學系高階管理碩士在職專班(夜)_企業實務講座(四)[225006]_曾憲立.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 5953
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 '113_2_經營與管理學系高階管理碩士在職專班(夜)_企業實務講座(四)[225006]_曾憲立.html' 已切割成 13 個區塊，並生成 3063 個中繼資料。
➡️ 處理 HTML 檔案: 113_2_視覺藝術與設計學系碩士在職專班(夜)_影像藝術專題研究[291003]_范如菀.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 18213
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告

生成嵌入向量中: 100%|██████████| 1/1 [00:01<00:00,  1.87s/it]
生成嵌入向量中: 100%|██████████| 1/1 [00:01<00:00,  1.83s/it].18s/it]
生成嵌入向量中: 100%|██████████| 1/1 [00:01<00:00,  1.91s/it].17s/it]
生成嵌入向量中: 100%|██████████| 1/1 [00:01<00:00,  1.76s/it].16s/it]
生成嵌入向量中: 100%|██████████| 1/1 [00:01<00:00,  1.89s/it].12s/it]
生成嵌入向量中: 100%|██████████| 1/1 [00:01<00:00,  1.46s/it].13s/it]
生成嵌入向量中: 100%|██████████| 1/1 [00:00<00:00,  1.15it/s].00s/it]
✅ 處理中: 3228 個區塊: 100%|██████████| 7/7 [00:13<00:00,  1.92s/it]


Collection 'auto_questions' did not exist or could not be deleted: Collection [auto_questions] does not exists
New 'auto_questions' collection created.


生成嵌入向量中: 100%|██████████| 1/1 [00:00<00:00, 13.92it/s]


90 questions added to 'auto_questions' collection.

--- 當前 Chunking 策略結果 ---


Unnamed: 0,iou_mean,iou_std,recall_mean,recall_std,precision_omega_mean,precision_omega_std,precision_mean,precision_std,chunker
0,0.016013,0.047275,0.112441,0.258267,0.264952,0.247877,0.016897,0.048592,RecursiveCharacterTextSplitter_512_50


----------------------------

⚙️ 正在使用 RecursiveCharacterTextSplitter 進行評估...
Created collection:  BGE_M3_EmbeddingFunction_RecursiveCharacterTextSplitter_1024_50


✅ 正在處理語料庫檔案並切割:   0%|          | 0/90 [00:00<?, ?it/s]

➡️ 處理 HTML 檔案: 113_2_通識教育中心_能源科技與生活[206006]_翁俊仁.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 23032
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 '113_2_通識教育中心_能源科技與生活[206006]_翁俊仁.html' 已切割成 24 個區塊，並生成 20 個中繼資料。
➡️ 處理 HTML 檔案: 113_2_通識教育中心_實用情境韓文[106221]_尹遠菱.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 22847
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 '113_2_通識教育中心_實用情境韓文[106221]_尹遠菱.html' 已切割成 24 個區塊，並生成 42 個中繼資料。
➡️ 處理 HTML 檔案: 113_2_通識教育中心_生死學[106187]_蔡昆宏.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 22687
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 '113_2_通識教育中心_生死學[106187]_蔡昆宏.html' 已切割成 24 個區塊，並生成 62 個中繼資料。
➡️ 處理 HTML 檔案: 113_2_通識教育中心_儲能科技與生活[106203]_黃建中.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 23667
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 '113_2_通識教育中心_儲能科技與生活[106203]_黃建中.html' 已切割成 25 個區塊，並生成 85 個

✅ 正在處理語料庫檔案並切割:   9%|▉         | 8/90 [00:00<00:01, 77.23it/s]

➡️ 處理 HTML 檔案: 113_2_通識教育中心_音樂與人生[106134]_黃琡珺.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 24240
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 '113_2_通識教育中心_音樂與人生[106134]_黃琡珺.html' 已切割成 26 個區塊，並生成 110 個中繼資料。
➡️ 處理 HTML 檔案: 113_2_通識教育中心_環境與生態[106170]_吳貞宜.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 21985
✔️ 檔案 '113_2_通識教育中心_環境與生態[106170]_吳貞宜.html' 已切割成 23 個區塊，並生成 133 個中繼資料。
➡️ 處理 HTML 檔案: 113_2_國語文學系_史記(二)[122109]_張惠貞.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 18524
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 '113_2_國語文學系_史記(二)[122109]_張惠貞.html' 已切割成 19 個區塊，並生成 150 個中繼資料。
➡️ 處理 HTML 檔案: 113_2_國語文學系_詞曲選(二)[122091]_林慧真.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 18072
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 '113_2_國語文學系_詞曲選(二)[122091]_林慧真.html' 已切割成 19 個區塊，並生成 167 個中繼資料。
➡️ 處理 HTML 檔案: 113_2_國語文學系_中國文學史(二)[122079]_王琅.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 19303
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 

✅ 正在處理語料庫檔案並切割:  18%|█▊        | 16/90 [00:00<00:00, 78.04it/s]

➡️ 處理 HTML 檔案: 113_2_教育學系_教學原理[112137]_郭杏珠.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 20604
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 '113_2_教育學系_教學原理[112137]_郭杏珠.html' 已切割成 22 個區塊，並生成 236 個中繼資料。
➡️ 處理 HTML 檔案: 113_2_教育學系_教育哲學[112148]_許誌庭.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 17633
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 '113_2_教育學系_教育哲學[112148]_許誌庭.html' 已切割成 20 個區塊，並生成 255 個中繼資料。
➡️ 處理 HTML 檔案: 113_2_師資培育中心_資訊倫理與教學[107024]_黃品甄.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 23276
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 '113_2_師資培育中心_資訊倫理與教學[107024]_黃品甄.html' 已切割成 25 個區塊，並生成 279 個中繼資料。
➡️ 處理 HTML 檔案: 113_2_師資培育中心_適性教學[107021]_王光宗.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 22272
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 '113_2_師資培育中心_適性教學[107021]_王光宗.html' 已切割成 24 個區塊，並生成 301 個中繼資料。
➡️ 處理 HTML 檔案: 113_2_師資培育中心_閱讀教育[107005]_陳光明.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 19740
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區

✅ 正在處理語料庫檔案並切割:  27%|██▋       | 24/90 [00:00<00:00, 76.40it/s]

提取後的純文字大小（字元數）: 17382
✔️ 檔案 '113_2_英語學系_英語加強班(大學)[127097]_夏幼川.html' 已切割成 18 個區塊，並生成 411 個中繼資料。
➡️ 處理 HTML 檔案: 113_2_特殊教育學系_聽覺障礙[140064]_李芃娟.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 20369
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 '113_2_特殊教育學系_聽覺障礙[140064]_李芃娟.html' 已切割成 21 個區塊，並生成 429 個中繼資料。
➡️ 處理 HTML 檔案: 113_2_特殊教育學系_領導才能教育[140096]_陳英豪.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 20279
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 '113_2_特殊教育學系_領導才能教育[140096]_陳英豪.html' 已切割成 21 個區塊，並生成 448 個中繼資料。
➡️ 處理 HTML 檔案: 113_2_特殊教育學系_專題研究(1)[140077]_林慶仁林千玉.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 18350
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 '113_2_特殊教育學系_專題研究(1)[140077]_林慶仁林千玉.html' 已切割成 19 個區塊，並生成 465 個中繼資料。
➡️ 處理 HTML 檔案: 113_2_視覺藝術與設計學系_電腦繪圖（二）[191074]_李香蓮.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 19163
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 '113_

✅ 正在處理語料庫檔案並切割:  36%|███▌      | 32/90 [00:00<00:00, 77.55it/s]

➡️ 處理 HTML 檔案: 113_2_體育學系_運動行銷學[113091]_黃志佳.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 17040
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 '113_2_體育學系_運動行銷學[113091]_黃志佳.html' 已切割成 18 個區塊，並生成 549 個中繼資料。
➡️ 處理 HTML 檔案: 113_2_體育學系_桌球[113062]_張碩文.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 19579
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 '113_2_體育學系_桌球[113062]_張碩文.html' 已切割成 21 個區塊，並生成 568 個中繼資料。
➡️ 處理 HTML 檔案: 113_2_綠色能源科技學系_能源專題研究(二)[183061]_蔡孟哲.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 17007
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 '113_2_綠色能源科技學系_能源專題研究(二)[183061]_蔡孟哲.html' 已切割成 18 個區塊，並生成 584 個中繼資料。
➡️ 處理 HTML 檔案: 113_2_綠色能源科技學系_能源概論[183062]_劉世鈞.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 18888
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 '113_2_綠色能源科技學系_能源概論[183062]_劉世鈞.html' 已切割成 20 個區塊，並生成 600 個中繼資料。
➡️ 處理 HTML 檔案: 113_2_電機工程學系_畢業專題 (二)[182087]_陳居毓.html。使用 BeautifulSoup 提取純文字.

✅ 正在處理語料庫檔案並切割:  46%|████▌     | 41/90 [00:00<00:00, 79.33it/s]

➡️ 處理 HTML 檔案: 113_2_數位學習科技學系_創意思考與設計方法[155079]_莊宗嚴.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 19148
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 '113_2_數位學習科技學系_創意思考與設計方法[155079]_莊宗嚴.html' 已切割成 21 個區塊，並生成 716 個中繼資料。
➡️ 處理 HTML 檔案: 113_2_數位學習科技學系_學習理論[155063]_伍柏翰.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 17989
✔️ 檔案 '113_2_數位學習科技學系_學習理論[155063]_伍柏翰.html' 已切割成 19 個區塊，並生成 735 個中繼資料。
➡️ 處理 HTML 檔案: 113_2_生態暨環境資源學系_昆蟲學[156078]_黃文伯.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 20365
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 '113_2_生態暨環境資源學系_昆蟲學[156078]_黃文伯.html' 已切割成 22 個區塊，並生成 756 個中繼資料。
➡️ 處理 HTML 檔案: 113_2_生態暨環境資源學系_戶外生態調查安全與風險管理[156061]_許皓捷.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 16661
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 '113_2_生態暨環境資源學系_戶外生態調查安全與風險管理[156061]_許皓捷.html' 已切割成 18 個區塊，並生成 772 個中繼資料。
➡️ 處理 HTML 檔案: 113_2_音樂學系_音樂教學法(二)[164401]_沈昕.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 14349
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 '113_2_音樂學系_音樂教

✅ 正在處理語料庫檔案並切割:  56%|█████▌    | 50/90 [00:00<00:00, 80.13it/s]

➡️ 處理 HTML 檔案: 113_2_幼兒教育學系_幼兒園教材教法II[170046]_翟敏如.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 22302
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 '113_2_幼兒教育學系_幼兒園教材教法II[170046]_翟敏如.html' 已切割成 24 個區塊，並生成 873 個中繼資料。
➡️ 處理 HTML 檔案: 113_2_生物科技學系_免疫學[158054]_張翠玲.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 17521
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 '113_2_生物科技學系_免疫學[158054]_張翠玲.html' 已切割成 19 個區塊，並生成 890 個中繼資料。
➡️ 處理 HTML 檔案: 113_2_生物科技學系_酵素學[158065]_張德生.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 17941
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 '113_2_生物科技學系_酵素學[158065]_張德生.html' 已切割成 19 個區塊，並生成 908 個中繼資料。
➡️ 處理 HTML 檔案: 113_2_綠色能源科技學系(進修學士班)_工程數學(二)[283008]_卜一宇.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 14800
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 '113_2_綠色能源科技學系(進修學士班)_工程數學(二)[283008]_卜一宇.html' 已切割成 16 個區塊，並生成 922 個中繼資料。
➡️ 處理 HTML 檔案: 113_2_綠色能源科技學系(進修學士班)_電路學(二)[283019]_許正良

✅ 正在處理語料庫檔案並切割:  66%|██████▌   | 59/90 [00:00<00:00, 80.49it/s]

提取後的純文字大小（字元數）: 17826
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 '113_2_行政管理學系_人力資源管理[132050]_李芸蘋.html' 已切割成 19 個區塊，並生成 1007 個中繼資料。
➡️ 處理 HTML 檔案: 113_2_行政管理學系_人力資源與組織發展[132058]_林桐銘.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 18774
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 '113_2_行政管理學系_人力資源與組織發展[132058]_林桐銘.html' 已切割成 20 個區塊，並生成 1022 個中繼資料。
➡️ 處理 HTML 檔案: 113_2_英語學系(進修學士班)_語意學導論[227008]_康雅禎.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 17721
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 '113_2_英語學系(進修學士班)_語意學導論[227008]_康雅禎.html' 已切割成 19 個區塊，並生成 1038 個中繼資料。
➡️ 處理 HTML 檔案: 113_2_應用數學系_獨立研究[150044]_黃建中.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 15718
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 '113_2_應用數學系_獨立研究[150044]_黃建中.html' 已切割成 17 個區塊，並生成 1053 個中繼資料。
➡️ 處理 HTML 檔案: 113_2_經營與管理學系_經濟學(二)[125037]_阮俊陽.html。使

✅ 正在處理語料庫檔案並切割:  76%|███████▌  | 68/90 [00:00<00:00, 81.17it/s]

➡️ 處理 HTML 檔案: 113_2_綠色能源科技學系碩士班_書報討論(二)[183040]_丁顥.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 18391
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 '113_2_綠色能源科技學系碩士班_書報討論(二)[183040]_丁顥.html' 已切割成 19 個區塊，並生成 1168 個中繼資料。
➡️ 處理 HTML 檔案: 113_2_視覺藝術與設計學系視覺藝術碩士班_藝術創作與田野研究[191067]_洪明爵.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 18870
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 '113_2_視覺藝術與設計學系視覺藝術碩士班_藝術創作與田野研究[191067]_洪明爵.html' 已切割成 20 個區塊，並生成 1186 個中繼資料。
➡️ 處理 HTML 檔案: 113_2_數位學習科技學系碩士班_數位影像處理[155046]_林信志.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 9172
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 '113_2_數位學習科技學系碩士班_數位影像處理[155046]_林信志.html' 已切割成 10 個區塊，並生成 1194 個中繼資料。
➡️ 處理 HTML 檔案: 113_2_材料科學系碩士班_材料研究技術[167039]_莊陽德.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 18339
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 '113_2_材料科學系碩士班_材料研究技術[167039]_莊陽德.html' 已切割成 19 個區塊，並生成 1211 個中繼資料。
➡️ 處理 HTML 檔案: 113_2_體育學系碩士班_體育研究法[113057]_

✅ 正在處理語料庫檔案並切割:  86%|████████▌ | 77/90 [00:00<00:00, 82.36it/s]

➡️ 處理 HTML 檔案: 113_2_音樂學系碩士在職專班(夜)_臺灣音樂與文化[264303]_施金農.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 15727
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 '113_2_音樂學系碩士在職專班(夜)_臺灣音樂與文化[264303]_施金農.html' 已切割成 17 個區塊，並生成 1305 個中繼資料。
➡️ 處理 HTML 檔案: 113_2_幼兒教育學系碩士在職專班(夜)_幼兒社會與情緒教學研究[270006]_翟敏如.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 17475
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 '113_2_幼兒教育學系碩士在職專班(夜)_幼兒社會與情緒教學研究[270006]_翟敏如.html' 已切割成 19 個區塊，並生成 1321 個中繼資料。
➡️ 處理 HTML 檔案: 113_2_應用數學系碩士班_偏微分方程[150058]_黃彥彰.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 19701
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 '113_2_應用數學系碩士班_偏微分方程[150058]_黃彥彰.html' 已切割成 21 個區塊，並生成 1340 個中繼資料。
➡️ 處理 HTML 檔案: 113_2_教育學系課程與教學教學碩士班(假日)_媒體教育研究[112106]_蘇建元.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 15507
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 '113_2_教育學系課程與教學教學碩士

✅ 正在處理語料庫檔案並切割:  96%|█████████▌| 86/90 [00:01<00:00, 84.14it/s]

➡️ 處理 HTML 檔案: 113_2_教育學系教育經營與管理碩士班_教育政策與批判研究[112122]_曾燦燈.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 18237
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 '113_2_教育學系教育經營與管理碩士班_教育政策與批判研究[112122]_曾燦燈.html' 已切割成 19 個區塊，並生成 1461 個中繼資料。
➡️ 處理 HTML 檔案: 113_2_教育學系課程與教學碩士班_教學評量研究[112099]_徐立真.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 14915
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 '113_2_教育學系課程與教學碩士班_教學評量研究[112099]_徐立真.html' 已切割成 16 個區塊，並生成 1475 個中繼資料。
➡️ 處理 HTML 檔案: 113_2_經營與管理學系高階管理碩士在職專班(夜)_企業實務講座(四)[225006]_曾憲立.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 5953
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 '113_2_經營與管理學系高階管理碩士在職專班(夜)_企業實務講座(四)[225006]_曾憲立.html' 已切割成 6 個區塊，並生成 1480 個中繼資料。
➡️ 處理 HTML 檔案: 113_2_視覺藝術與設計學系碩士在職專班(夜)_影像藝術專題研究[291003]_范如菀.html。使用 BeautifulSoup 提取純文字...
提取後的純文字大小（字元數）: 18213
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 '113_2_視覺藝術與設計學系碩士在職專班(夜)

✅ 正在處理語料庫檔案並切割: 100%|██████████| 90/90 [00:01<00:00, 81.15it/s]



⚠️ 警告: 找不到精確匹配的區塊。此區塊將被跳過。
✔️ 檔案 '113_2_教育學系教育行政碩士在職專班(夜)_組織創新與變革管理研究[212004]_張正平.html' 已切割成 19 個區塊，並生成 1557 個中繼資料。


生成嵌入向量中: 100%|██████████| 1/1 [00:03<00:00,  3.99s/it]
生成嵌入向量中: 100%|██████████| 1/1 [00:03<00:00,  3.20s/it].41s/it]
生成嵌入向量中: 100%|██████████| 1/1 [00:03<00:00,  3.81s/it].97s/it]
生成嵌入向量中: 100%|██████████| 1/1 [00:00<00:00,  3.92it/s].05s/it]
✅ 處理中: 1557 個區塊: 100%|██████████| 4/4 [00:12<00:00,  3.16s/it]


Existing 'auto_questions' collection deleted.
New 'auto_questions' collection created.


生成嵌入向量中: 100%|██████████| 1/1 [00:00<00:00, 13.81it/s]


90 questions added to 'auto_questions' collection.

--- 當前 Chunking 策略結果 ---


Unnamed: 0,iou_mean,iou_std,recall_mean,recall_std,precision_omega_mean,precision_omega_std,precision_mean,precision_std,chunker
0,0.024774,0.029886,0.460127,0.454012,0.175532,0.102083,0.024992,0.030204,RecursiveCharacterTextSplitter_1024_50


----------------------------


✅ 所有分塊器評估完成！
=== 最終總結報告 ===


Unnamed: 0,iou_mean,iou_std,recall_mean,recall_std,precision_omega_mean,precision_omega_std,precision_mean,precision_std,chunker
0,0.016013,0.047275,0.112441,0.258267,0.264952,0.247877,0.016897,0.048592,RecursiveCharacterTextSplitter_512_50
1,0.024774,0.029886,0.460127,0.454012,0.175532,0.102083,0.024992,0.030204,RecursiveCharacterTextSplitter_1024_50
