### 環境與套件準備

此初始階段包含數個步驟，旨在設定執行環境並安裝必要的 Python 套件。

1.  **NVIDIA GPU 檢查**:
    * 執行 `!nvidia-smi` 指令來確認 NVIDIA GPU 的可用性與狀態，這對於後續需要 GPU 加速的運算（如模型推論、FAISS 索引）至關重要。
2.  **CUDA 版本確認**:
    * 透過 `!cat /usr/local/cuda/version.txt` 和 `!ls -l /usr/local | grep cuda` 查看系統中安裝的 CUDA 版本。
    * 使用 `torch.version.cuda` 和 `torch.backends.cudnn.version()` 經由 PyTorch 函式庫來確認 CUDA 和 cuDNN 的版本，確保與後續安裝的套件相容。
3.  **安裝核心套件**:
    * `!pip install faiss-gpu-cu12 --quiet`: 安裝 FAISS 的 GPU 版本 (針對 CUDA 12.x)，FAISS 是由 Facebook AI 開發的高效相似性搜索函式庫，用於處理向量嵌入。`--quiet` 參數表示以靜默模式安裝，減少輸出訊息。
    * `!pip install langchain-community --quiet`: 安裝 Langchain Community 版本的相關套件。Langchain 是一個用於開發由語言模型驅動的應用程式的框架，它提供了許多模組化的工具來串接不同的元件。

In [1]:
!nvidia-smi

Mon May 26 02:58:14 2025       
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 560.35.03              Driver Version: 560.35.03      CUDA Version: 12.6     |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|   0  Tesla T4                       Off |   00000000:00:04.0 Off |                    0 |
| N/A   48C    P8             10W /   70W |       1MiB /  15360MiB |      0%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+
|   1  Tesla T4                       Off |   00

In [2]:
!ls -l /usr/local/

total 72
drwxr-xr-x 1 1000 1000 4096 May  8 12:31 bin
drwxr-xr-x 3 root root 4096 Apr  4 13:51 colab
lrwxrwxrwx 1 root root   22 Jul 10  2024 cuda -> /etc/alternatives/cuda
lrwxrwxrwx 1 root root   25 Jul 10  2024 cuda-12 -> /etc/alternatives/cuda-12
drwxr-xr-x 1 root root 4096 Jul 10  2024 cuda-12.5
-rw-r--r-- 1 root root 2626 Apr  4 13:38 dist_metrics.pxd
drwxr-xr-x 3 root root 4096 May  8 12:26 doc
drwxr-xr-x 1 1000 1000 4096 Apr  4 13:45 etc
drwxr-xr-x 2 root root 4096 Jun 27  2024 games
drwxr-xr-x 2 root root 4096 May  8 12:26 images
drwxr-xr-x 1 1000 1000 4096 Apr  4 13:45 include
drwxr-xr-x 1 1000 1000 4096 May  8 12:28 lib
drwxr-xr-x 3 1000 1000 4096 Mar 10 13:23 libexec
-rw-r--r-- 1 1000 1000 1321 Mar 10 13:23 LICENSE.md
lrwxrwxrwx 1 root root    9 Jun 27  2024 man -> share/man
drwxr-xr-x 3 root root 4096 May 26 02:57 nvidia
drwxr-xr-x 1 root root 4096 Apr  4 13:45 opt
drwxr-xr-x 2 root root 4096 Jun 27  2024 sbin
drwxr-xr-x 1 1000 1000 4096 Apr  4 13:45 share
drwxr-xr-x 2 roo

In [3]:
!cat /usr/local/cuda/version.txt

cat: /usr/local/cuda/version.txt: No such file or directory


In [4]:
!ls -l /usr/local | grep cuda

lrwxrwxrwx 1 root root   22 Jul 10  2024 cuda -> /etc/alternatives/cuda
lrwxrwxrwx 1 root root   25 Jul 10  2024 cuda-12 -> /etc/alternatives/cuda-12
drwxr-xr-x 1 root root 4096 Jul 10  2024 cuda-12.5


In [5]:
import torch
print('CUDA:',torch.version.cuda)

cudnn = torch.backends.cudnn.version()
cudnn_major = cudnn // 1000
cudnn = cudnn % 1000
cudnn_minor = cudnn // 100
cudnn_patch = cudnn % 100
print( 'cuDNN:', '.'.join([str(cudnn_major),str(cudnn_minor),str(cudnn_patch)]) )

CUDA: 12.4
cuDNN: 90.3.0


In [6]:
!pip install faiss-gpu-cu12 --quiet # CUDA 12.x, Python 3.8+
!pip install langchain-community --quiet

[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m48.0/48.0 MB[0m [31m36.6 MB/s[0m eta [36m0:00:00[0m:00:01[0m00:01[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.5/2.5 MB[0m [31m31.2 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.0/1.0 MB[0m [31m53.6 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m438.3/438.3 kB[0m [31m29.9 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m44.4/44.4 kB[0m [31m2.9 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m65.5/65.5 kB[0m [31m5.7 MB/s[0m eta [36m0:00:00[0m
[?25h[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
datasets 3.6.0 requires fsspec[http]<=2025.3.0,>=2023.1.0, but you 

### 文本切分 (Chunking)

這個階段的目標是將輸入的文本資料（來自指定目錄下的 `.txt` 檔案）讀取並分割成較小的、可管理的文本區塊 (chunks)。這樣做的目的是為了讓後續的嵌入模型能夠更有效地處理文本，並且在進行相似度搜索時，能夠定位到更精確的資訊片段。

主要步驟如下：
1.  **設定參數**:
    * `FILES_DIRECTORY`: 指定包含來源 `.txt` 檔案的目錄路徑。
    * `CHUNK_SIZE`: 設定每個文本區塊的目標大小（以字元數計算）。
    * `CHUNK_OVERLAP`: 設定連續文本區塊之間的重疊字元數。重疊有助於保持文本的連貫性，避免資訊在切分邊界被切割斷裂。
    * `LENGTH_FUNCTION`: 指定計算文本長度的函式 (在此使用 `len`)。
2.  **初始化文本分割器**:
    * 使用 `langchain.text_splitter.RecursiveCharacterTextSplitter` 初始化一個文本分割器物件。此分割器會嘗試依據預設的分隔符號（如換行符、空格等）遞迴地分割文本，直到達到指定的 `CHUNK_SIZE`。
3.  **遍歷與處理檔案**:
    * 使用 `os.listdir` 列出指定目錄下的所有檔案和子目錄。
    * 對於每個項目，檢查其是否為 `.txt` 結尾的檔案。
    * 若是文本檔案，則以 `utf-8` 編碼讀取其內容。
    * 使用先前初始化的 `text_splitter` 將檔案內容分割成多個文本區塊。
    * 將處理好的文本區塊及其來源檔案名稱分別儲存到 `all_processed_chunks` 和 `all_source_file_names` 列表中。
4.  **結果檢視**:
    * 印出總共生成的文本區塊數量。
    * 如果生成了文本區塊，則顯示前幾個區塊的內容及其來源檔案，作為處理結果的範例。
5.  **變數指派**:
    * 將 `all_processed_chunks` 和 `all_source_file_names` 的內容指派給 `all_chunks` 和 `all_file_names`，以供後續儲存格使用。

In [7]:
import os
from langchain.text_splitter import RecursiveCharacterTextSplitter

FILES_DIRECTORY = '/kaggle/input/company/' # 指定包含 .txt 文件的目錄路徑
CHUNK_SIZE = 1000      # 每個文本區塊的目標大小 (字元數)
CHUNK_OVERLAP = 200    # 連續區塊之間的重疊字元數
LENGTH_FUNCTION = len  # 用於計算文本長度的函式
DISPLAY_SAMPLE_COUNT = 5 # 處理完成後顯示的區塊範例數量

print(f"Initializing text processing for directory: {FILES_DIRECTORY}")

print("Initializing RecursiveCharacterTextSplitter...")
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=CHUNK_SIZE,
    chunk_overlap=CHUNK_OVERLAP,
    length_function=LENGTH_FUNCTION,
    is_separator_regex=False, # 如果分隔符是正則表達式，則設為 True
)

all_processed_chunks = []
all_source_file_names = []

print(f"\nStarting to process files in: {FILES_DIRECTORY}...")

try:
    file_list = os.listdir(FILES_DIRECTORY)
    print(f"Files and directories found: {file_list if file_list else 'None'}")
except FileNotFoundError:
    print(f"❌ ERROR: Directory not found at '{FILES_DIRECTORY}'. Please verify the path.")
    file_list = []

for item_name in file_list:
    file_path = os.path.join(FILES_DIRECTORY, item_name)
    
    if item_name.endswith(".txt") and os.path.isfile(file_path):
        print(f"\nProcessing text file: {item_name} (Path: {file_path})")
        
        try:
            with open(file_path, 'r', encoding='utf-8') as file:
                text_content = file.read()
            print(f"  Successfully loaded content from {item_name} (Length: {len(text_content)} chars).")

            print(f"  Splitting document '{item_name}' into chunks...")
            current_file_chunks = text_splitter.split_text(text_content)
            
            all_processed_chunks.extend(current_file_chunks)
            all_source_file_names.extend([item_name] * len(current_file_chunks))
            
            print(f"  Document '{item_name}' split into {len(current_file_chunks)} chunks.")
            print(f"  Total chunks collected so far: {len(all_processed_chunks)}")
            
        except Exception as e:
            print(f"  ❌ ERROR processing file {item_name}: {e}")
            
    elif os.path.isdir(file_path):
        print(f"  Skipping directory: {item_name}")
    else:
        print(f"  Skipping non-txt file or unrecognized item: {item_name}")

print("\n---")
print(f"✅ All files in '{FILES_DIRECTORY}' processed.")
print(f"Total text chunks generated: {len(all_processed_chunks)}")
print(f"Total source file name entries: {len(all_source_file_names)}")

if all_processed_chunks:
    print(f"\n--- Displaying first {min(DISPLAY_SAMPLE_COUNT, len(all_processed_chunks))} generated chunks ---")
    for i in range(min(DISPLAY_SAMPLE_COUNT, len(all_processed_chunks))):
        print(f"\nSample Chunk {i+1} (from file: {all_source_file_names[i]}):")
        print(all_processed_chunks[i])
        print("---")
else:
    print("\nNo text chunks were generated. Please check input files and directory.")

print("\nText loading and chunking process for multiple files complete.")

# 確保後續儲存格可以使用原始筆記本期望的變數名稱
all_chunks = all_processed_chunks
all_file_names = all_source_file_names
print(f"\nVariables 'all_chunks' ({len(all_chunks)} items) and 'all_file_names' ({len(all_file_names)} items) are now available for subsequent cells.")

Initializing text processing for directory: /kaggle/input/company/
Initializing RecursiveCharacterTextSplitter...

Starting to process files in: /kaggle/input/company/...
Files and directories found: ['(MediaTek) .txt', '(ASE Technology Holding).txt', '(GUC).txt', '(TSMC).txt', '(ASMedia).txt', '(Winbond).txt', '(KYEC).txt', '(Realtek).txt', '(UMC).txt', '(Novatek).txt', '(Nanya Technology).txt']

Processing text file: (MediaTek) .txt (Path: /kaggle/input/company/(MediaTek) .txt)
  Successfully loaded content from (MediaTek) .txt (Length: 2914 chars).
  Splitting document '(MediaTek) .txt' into chunks...
  Document '(MediaTek) .txt' split into 4 chunks.
  Total chunks collected so far: 4

Processing text file: (ASE Technology Holding).txt (Path: /kaggle/input/company/(ASE Technology Holding).txt)
  Successfully loaded content from (ASE Technology Holding).txt (Length: 1635 chars).
  Splitting document '(ASE Technology Holding).txt' into chunks...
  Document '(ASE Technology Holding).tx

### 文本嵌入 (Embedding)

在文本被切分成較小的區塊後，下一個關鍵步驟是將這些文本區塊轉換成數值向量，這個過程稱為「嵌入」(Embedding)。嵌入向量能夠在多維空間中表示文本的語義意義，使得語義上相似的文本在向量空間中也更為接近。

此階段的流程：
1.  **載入預訓練模型**:
    * 從 `sentence_transformers` 函式庫載入一個預訓練的句子轉換器模型。筆記本中指定使用 `infgrad/stella-large-zh-v2` 模型，這是一個針對繁體中文進行優化的模型，能將中文文本轉換為高品質的嵌入向量。
2.  **生成嵌入向量**:
    * 使用載入的 `embedding_model_stella` 對前一階段產生的所有文本區塊 (`all_chunks`) 進行編碼。
    * `encode()` 方法會為每個文本區塊生成一個固定維度的數值向量（嵌入）。
    * 設定 `show_progress_bar=True` 以在編碼過程中顯示進度。
3.  **結果驗證與檢視**:
    * 印出成功生成嵌入向量的訊息，以及嵌入向量矩陣的形狀 (shape)，通常是 (文本區塊數量, 嵌入向量維度)。
    * 如果成功生成，則展示第一個文本區塊對應的嵌入向量作為範例。

In [8]:
from sentence_transformers import SentenceTransformer

print("Loading sentence-transformers model: infgrad/stella-large-zh-v2...")
model_name_stella = 'infgrad/stella-large-zh-v2' # 用於嵌入的句子轉換器模型ID
embedding_model_stella = SentenceTransformer(model_name_stella) # 已初始化的句子轉換器模型
print(f"Model {model_name_stella} loaded successfully.")

print("Generating embeddings for all chunks using stella-large-zh-v2...")
all_chunk_embeddings = embedding_model_stella.encode(
    all_chunks, # 來自前一階段的文本區塊列表
    show_progress_bar=True # 編碼時顯示進度條
)

print(f"Embeddings generated successfully. Shape of embeddings: {all_chunk_embeddings.shape}")

if 'all_chunks' in locals() and len(all_chunks) > 0 and hasattr(all_chunk_embeddings, 'shape') and all_chunk_embeddings.shape[0] > 0:
    print("Example of the first chunk's embedding:")
    print(all_chunk_embeddings[0])
else:
    print("No chunks were provided or embeddings could not be generated to display an example.")

print("Text embedding process with infgrad/stella-large-zh-v2 complete.")

2025-05-26 02:58:43.647525: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:477] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
E0000 00:00:1748228323.836095      35 cuda_dnn.cc:8310] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
E0000 00:00:1748228323.889375      35 cuda_blas.cc:1418] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered


Loading sentence-transformers model: infgrad/stella-large-zh-v2...


config.json:   0%|          | 0.00/882 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/652M [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/652M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/315 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/110k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/439k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/125 [00:00<?, ?B/s]

Model infgrad/stella-large-zh-v2 loaded successfully.
Generating embeddings for all chunks using stella-large-zh-v2...


Batches:   0%|          | 0/2 [00:00<?, ?it/s]

Embeddings generated successfully. Shape of embeddings: (43, 1024)
Example of the first chunk's embedding:
[-0.35826454 -0.52658534 -1.737512   ... -1.9845805   1.4106016
  0.08923372]
Text embedding process with infgrad/stella-large-zh-v2 complete.


### 向量索引 (Vector Indexing)

獲得文本區塊的嵌入向量後，為了能夠快速地根據查詢向量找到最相似的文本區塊向量，我們需要建立一個向量索引。FAISS (Facebook AI Similarity Search) 是一個高效能的函式庫，專門用於大規模向量的相似性搜索和聚類。

此階段的步驟：
1.  **導入函式庫與檢查嵌入向量**:
    * 導入 `faiss` 和 `numpy` 函式庫。
    * 檢查 `all_chunk_embeddings` 是否存在且不為 None。如果不存在（例如，前一步驟執行失敗），則會創建一個隨機的虛擬數據用於後續測試，並給出提示。
    * 確認嵌入向量的數據類型。FAISS 通常期望輸入為 `float32` 型別的向量，如果不是，則進行轉換。
    * 檢查嵌入向量陣列的維度是否為二維 (即 `(數量, 維度)` 格式)，以及是否為空。
2.  **獲取嵌入維度**:
    * 從 `all_chunk_embeddings_float32` 的形狀中獲取嵌入向量的維度 (dimension)。
3.  **建立 FAISS 索引**:
    * 使用 `faiss.IndexFlatL2(embedding_dimension)` 建立一個 FAISS 索引。`IndexFlatL2` 是一種基本的索引類型，它執行窮舉的 L2 距離（歐幾里得距離）搜索。對於中小型數據集，它既準確又高效。
    * 檢查索引是否已「訓練」(is_trained)。`IndexFlatL2` 不需要額外的訓練步驟，所以 `is_trained` 會是 `True`。
4.  **加入向量至索引**:
    * 使用 `index.add(all_chunk_embeddings_float32)` 將所有文本區塊的嵌入向量加入到先前建立的 FAISS 索引中。
    * 印出索引中向量的總數 (`index.ntotal`)，確認所有向量都已成功加入。

In [9]:
import faiss
import numpy as np

print("FAISS library imported.")

if 'all_chunk_embeddings' not in locals() or all_chunk_embeddings is None:
    print("錯誤：找不到 'all_chunk_embeddings' 或其值為 None。請確保嵌入向量已在前一步驟中產生並在此會話中可用。")
    all_chunk_embeddings = np.random.rand(10, 768).astype(np.float32) # 範例：10 個嵌入向量，每個 768 維
    print("正在使用虛擬 'all_chunk_embeddings' 數據進行測試。")
else:
    print(f"找到 'all_chunk_embeddings'. 形狀 (Shape): {all_chunk_embeddings.shape}, 資料類型 (Dtype): {all_chunk_embeddings.dtype}")

    if all_chunk_embeddings.dtype != np.float32:
        print("正在將嵌入向量轉換為 float32 型別...")
        all_chunk_embeddings_float32 = all_chunk_embeddings.astype(np.float32) # 轉換為 float32 型別的嵌入向量
    else:
        all_chunk_embeddings_float32 = all_chunk_embeddings # 若已是 float32 則直接使用

    if all_chunk_embeddings_float32.ndim != 2:
        print(f"錯誤：'all_chunk_embeddings_float32' 不是一個二維陣列。它的形狀是 {all_chunk_embeddings_float32.shape}.")
        print("FAISS 需要二維的嵌入向量陣列 (數量, 維度)。")
        print("請檢查前一個嵌入步驟，確保輸出是正確的。")
    elif all_chunk_embeddings_float32.shape[0] == 0:
        print("錯誤：'all_chunk_embeddings_float32' 是空的 (0 個嵌入向量)。無法建立 FAISS 索引。")
    else:
        embedding_dimension = all_chunk_embeddings_float32.shape[1] # 嵌入向量的維度
        print(f"嵌入向量維度: {embedding_dimension}")

        print("正在建立 FAISS 索引 (IndexFlatL2)...")
        index = faiss.IndexFlatL2(embedding_dimension) # FAISS L2 平面索引
        print(f"FAISS 索引已建立。是否已訓練 (Is trained): {index.is_trained}")

        print("正在將嵌入向量加入 FAISS 索引...")
        index.add(all_chunk_embeddings_float32)
        print(f"嵌入向量已加入索引。索引中向量總數: {index.ntotal}")

print("FAISS 索引過程完成 (或因錯誤而終止)。")

FAISS library imported.
找到 'all_chunk_embeddings'. 形狀 (Shape): (43, 1024), 資料類型 (Dtype): float32
嵌入向量維度: 1024
正在建立 FAISS 索引 (IndexFlatL2)...
FAISS 索引已建立。是否已訓練 (Is trained): True
正在將嵌入向量加入 FAISS 索引...
嵌入向量已加入索引。索引中向量總數: 43
FAISS 索引過程完成 (或因錯誤而終止)。


### 查詢處理 (Query Processing)

在建立好文本嵌入的向量索引後，下一步是處理使用者的查詢。與處理原始文本數據類似，使用者提出的查詢語句也需要被轉換成嵌入向量，才能在向量空間中與文本區塊的嵌入進行比較。

此階段的流程：
1.  **定義使用者查詢**:
    * 設定一個字串變數 `user_query` 來儲存使用者輸入的查詢內容。例如："台積電2025年第一季的營收表現如何？"
2.  **嵌入使用者查詢**:
    * 檢查先前載入的 `embedding_model_stella` 是否可用。
    * 如果模型可用，則使用該模型的 `encode()` 方法將 `user_query` 轉換為一個查詢嵌入向量 (`query_embedding`)。這個過程與先前嵌入文本區塊的過程相同，確保查詢和文檔的向量處於同一個語義空間。
3.  **調整嵌入向量形狀與型別**:
    * FAISS 索引進行搜索時，期望輸入的查詢向量是一個二維陣列，即使只有一個查詢，也應該是 `(1, 維度)` 的形狀。因此，使用 `reshape(1, -1)` 來調整查詢嵌入向量的形狀。
    * 同樣地，確保查詢嵌入向量的數據類型為 `numpy.float32`，如果不是則進行轉換。轉換後的向量儲存於 `query_embedding_final`。
4.  **結果檢視**:
    * 印出查詢嵌入成功轉換的訊息。
    * 顯示最終查詢嵌入向量的形狀以及其前10個維度的值，作為驗證。
    * 如果嵌入模型未載入，則會印出錯誤訊息。

In [10]:
import numpy as np

user_query = "台積電2025年第一季的營收表現如何？" # 使用者輸入的查詢語句
print(f"User query: {user_query}")

if 'embedding_model_stella' in locals() and embedding_model_stella is not None:
    print("Encoding user query using the loaded sentence-transformer model...")
    query_embedding = embedding_model_stella.encode(user_query) # 查詢語句的嵌入向量
    
    query_embedding_reshaped = query_embedding.reshape(1, -1) # 重塑為 FAISS 所需的 (1, 維度) 嵌入向量
    
    if query_embedding_reshaped.dtype != np.float32:
        print("Converting query embedding to float32...")
        query_embedding_final = query_embedding_reshaped.astype(np.float32) # 轉換為 float32 型別的最終查詢嵌入
    else:
        query_embedding_final = query_embedding_reshaped # 若已是 float32 則直接使用
        
    print("Query encoded successfully.")
    print(f"Query embedding shape: {query_embedding_final.shape}")
    print("Query embedding (first 10 dimensions):")
    print(query_embedding_final[0, :10])
else:
    print("Error: 'embedding_model_stella' not found. Please ensure the embedding model is loaded.")
    # query_embedding_final = None # 或以適當方式處理錯誤 (此為錯誤處理的備註)

print("Query processing complete.")

User query: 台積電2025年第一季的營收表現如何？
Encoding user query using the loaded sentence-transformer model...


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Query encoded successfully.
Query embedding shape: (1, 1024)
Query embedding (first 10 dimensions):
[-1.0753199   1.001349   -1.4803534   0.32557517  0.49438864 -0.48533317
  0.5334926  -0.66565585  1.1401933   0.07865802]
Query processing complete.


### 相似度搜索 (Similarity Search)

有了使用者查詢的嵌入向量以及包含所有文檔區塊嵌入的 FAISS 索引後，就可以執行相似度搜索了。目標是從索引中找出與使用者查詢最相關（即向量空間中距離最近）的 K 個文本區塊。

此階段的步驟：
1.  **設定搜索參數**:
    * `k`: 指定要檢索的最近鄰居的數量（即最相似的文本區塊數量）。在此範例中設定為 5。
2.  **執行搜索前檢查**:
    * 檢查 FAISS 索引 (`index`) 是否已成功建立且可用。
    * 檢查使用者查詢的最終嵌入向量 (`query_embedding_final`) 是否已準備好。
    * 檢查 FAISS 索引中是否包含向量 (`index.ntotal == 0`)，如果索引為空，則無法進行搜索。
3.  **執行 FAISS 搜索**:
    * 如果所有檢查都通過，則調用 `index.search(query_embedding_final, k)` 方法。
    * 此方法會返回兩個結果：
        * `D`: 一個二維陣列，包含查詢向量與 `k` 個最近鄰居之間的距離（L2 距離）。
        * `I`: 一個二維陣列，包含 `k` 个最近鄰居在原始 `all_chunks` 列表（即加入索引時的順序）中的索引值。
4.  **展示搜索結果**:
    * 印出搜索到的前 `k` 個結果的距離 (`D`) 和索引 (`I`)。
    * 遍歷搜索結果，對於每個結果：
        * 獲取其在 `all_chunks` 中的索引 (`chunk_index`) 和與查詢的相似度分數（距離 `distance`）。
        * 如果索引有效，則從 `all_chunks` 中提取對應的文本區塊內容 (`retrieved_chunk`)。
        * 同時，如果 `all_file_names` 可用，則顯示該區塊的來源檔案名稱。
        * 將排名、索引、相似度分數、來源檔案和區塊內容格式化輸出。
    * 如果 `all_chunks` 列表不可用或搜索結果為空，則印出相應提示。

In [11]:
import numpy as np

k = 5 # 要檢索的最近鄰居數量

if 'index' not in locals() or index is None:
    print("Error: FAISS 'index' not found. Please ensure the index was created in a previous step.")
elif 'query_embedding_final' not in locals() or query_embedding_final is None:
    print("Error: 'query_embedding_final' not found. Please ensure the user query was processed and embedded.")
elif index.ntotal == 0:
    print("Error: The FAISS index is empty. No vectors to search.")
else:
    print(f"Searching for the top {k} most similar chunks in the FAISS index...")
    D, I = index.search(query_embedding_final, k) # D 為距離列表, I 為索引列表
    
    print("\nSearch complete.")
    print(f"Distances of the top {k} results: {D}")
    print(f"Indices of the top {k} results in 'all_chunks': {I}")
    
    print("\n--- Top Relevant Chunks ---")
    if 'all_chunks' in locals() and all_chunks is not None and 'I' in locals() and I is not None and len(I[0]) > 0 :
        for i in range(k):
            if i < len(I[0]):
                chunk_index = I[0][i] # 檢索到的區塊在 all_chunks 中的索引
                distance = D[0][i] # 檢索到的區塊與查詢的距離
                if chunk_index < len(all_chunks):
                    retrieved_chunk = all_chunks[chunk_index] # 根據索引獲取的實際文本區塊
                    print(f"\nRank {i+1}:")
                    print(f"Index in all_chunks: {chunk_index}")
                    print(f"Similarity Score (Distance): {distance:.4f}")
                    if 'all_file_names' in locals() and all_file_names is not None and chunk_index < len(all_file_names):
                        print(f"Source File: {all_file_names[chunk_index]}")
                    print("Chunk Content:")
                    print(retrieved_chunk)
                    print("--------------------")
                else:
                    print(f"\nRank {i+1}: Index {chunk_index} is out of bounds for 'all_chunks'.")
            else:
                print(f"\nCould not retrieve Rank {i+1} result (not enough search results).")
    else:
        print("\n'all_chunks' list not found or search results 'I' are missing/empty. Cannot display chunk content.")

print("Similarity search process complete.")

Searching for the top 5 most similar chunks in the FAISS index...

Search complete.
Distances of the top 5 results: [[348.8439  381.25537 406.23102 439.98383 468.9683 ]]
Indices of the top 5 results in 'all_chunks': [[12 11 13 31  1]]

--- Top Relevant Chunks ---

Rank 1:
Index in all_chunks: 12
Similarity Score (Distance): 348.8439
Source File: (TSMC).txt
Chunk Content:
一、 最近期財報表現 (2025年第一季)

台積電最近公布的財報為2025年第一季（截至2025年3月31日），其主要財務數據表現強勁：

營收：約為255.3億美元（年增約35.3%），以新台幣計價約為8,392.5億元。
毛利率：達到58.8%。
營業利益率：為48.5%。
每股盈餘 (EPS)：約為新台幣13.94元（年增約60.4%）。
從製程技術來看，3奈米製程佔晶圓總營收的22%，5奈米製程佔37%，7奈米製程佔15%。包含7奈米及更先進製程的營收佔晶圓總營收的73%。公司指出，第一季的業績雖然受到智慧型手機季節性因素的影響，但AI相關需求的持續成長部分抵銷了此影響。

二、 市場分析與公司未來展望

市場分析師普遍肯定AI相關的高效能運算（HPC）需求將持續作為台積電營運成長的核心動力，並對其技術領先地位（特別是3奈米、5奈米及即將量產的2奈米製程）給予正面評價。

台積電管理層在2025年4月的法人說明會上，對未來營運釋出了以下展望：

2025年第二季財務預測：
營收預計介於284億美元至292億美元之間。
毛利率預計介於57%至59%之間。
營業利益率預計介於47%至49%之間。
2025年全年展望：
公司重申2025年美元營收將實現「近中雙位數」（約24-26%）的年成長。
AI需求預期持續強勁，其他應用市場則預期溫和復甦。
全年資本支出預算維持在380億至420億美元，以支持客戶成長與技術發展。
分析師與公

In [12]:
from kaggle_secrets import UserSecretsClient
from huggingface_hub import login

try:
    user_secrets = UserSecretsClient()
    hf_token = user_secrets.get_secret("HF_TOKEN") # "HF_TOKEN" 是您在 Secrets 中設定的名稱
    login(token=hf_token)
    print("Hugging Face Hub login successful using Kaggle Secrets.")
except Exception as e:
    print(f"Hugging Face Hub login failed using Kaggle Secrets: {e}")
    print("Please ensure you have added your Hugging Face token as a secret named 'HF_TOKEN' in your Kaggle Notebook.")

Hugging Face Hub login successful using Kaggle Secrets.


In [13]:
# !pip install transformers accelerate -q

In [14]:
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
from transformers import pipeline
from langchain_community.llms import HuggingFacePipeline
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain

print("Libraries imported successfully.")

model_id_original = "taide/Llama3-TAIDE-LX-8B-Chat-Alpha1" # 原始模型的 Hugging Face ID
model_id_for_loading = model_id_original # 預設使用原始模型ID，如果找不到GPTQ版本

print(f"Attempting to load model: {model_id_for_loading}")
print("Note: If this is not a specifically GPTQ-quantized model ID,")
print("this loading method might not apply quantization as intended without 'bitsandbytes'.")

print(f"Loading tokenizer for {model_id_original}...")
try:
    tokenizer = AutoTokenizer.from_pretrained(model_id_original) # 載入的 Hugging Face Tokenizer 物件
    print("Tokenizer loaded successfully.")
except Exception as e:
    print(f"Error loading tokenizer: {e}")
    tokenizer = None # Tokenizer 載入失敗，設為 None

if tokenizer is not None:
    print(f"Loading model {model_id_for_loading} (this may take some time and RAM)...")
    try:
        llm_model = AutoModelForCausalLM.from_pretrained( # 載入的 Hugging Face LLM 模型物件
            model_id_for_loading,
            device_map="auto", # 自動分配模型到可用設備 (CPU/GPU)
            torch_dtype=torch.float16 # GPTQ 通常使用 float16 或 bfloat16
        )
        print("LLM model loaded successfully.")
        print(f"Model device map: {llm_model.hf_device_map if hasattr(llm_model, 'hf_device_map') else 'N/A'}")

    except Exception as e:
        print(f"Error loading LLM model: {e}")
        print("Possible reasons include: model ID not found, insufficient RAM/GPU memory,")
        print("or the model is not in a compatible format for direct loading without specific quantization libraries.")
        print(f"If '{model_id_for_loading}' is a GPTQ model, ensure 'optimum' and 'auto-gptq' are installed and you've restarted the runtime.")
        llm_model = None # 模型載入失敗，設為 None
else:
    print("Skipping model loading due to tokenizer loading failure.")
    llm_model = None # Tokenizer 載入失敗導致模型無法載入，設為 None

print("\nLLM and Tokenizer loading process complete (or terminated due to errors).")

Libraries imported successfully.
Attempting to load model: taide/Llama3-TAIDE-LX-8B-Chat-Alpha1
Note: If this is not a specifically GPTQ-quantized model ID,
this loading method might not apply quantization as intended without 'bitsandbytes'.
Loading tokenizer for taide/Llama3-TAIDE-LX-8B-Chat-Alpha1...


tokenizer_config.json:   0%|          | 0.00/51.3k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.08M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/449 [00:00<?, ?B/s]

Tokenizer loaded successfully.
Loading model taide/Llama3-TAIDE-LX-8B-Chat-Alpha1 (this may take some time and RAM)...


config.json:   0%|          | 0.00/650 [00:00<?, ?B/s]

model.safetensors.index.json:   0%|          | 0.00/23.9k [00:00<?, ?B/s]

Fetching 4 files:   0%|          | 0/4 [00:00<?, ?it/s]

model-00003-of-00004.safetensors:   0%|          | 0.00/4.92G [00:00<?, ?B/s]

model-00004-of-00004.safetensors:   0%|          | 0.00/1.17G [00:00<?, ?B/s]

model-00001-of-00004.safetensors:   0%|          | 0.00/4.98G [00:00<?, ?B/s]

model-00002-of-00004.safetensors:   0%|          | 0.00/5.00G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/143 [00:00<?, ?B/s]

LLM model loaded successfully.
Model device map: {'model.embed_tokens': 0, 'model.layers.0': 0, 'model.layers.1': 0, 'model.layers.2': 0, 'model.layers.3': 0, 'model.layers.4': 0, 'model.layers.5': 0, 'model.layers.6': 0, 'model.layers.7': 0, 'model.layers.8': 0, 'model.layers.9': 0, 'model.layers.10': 0, 'model.layers.11': 0, 'model.layers.12': 0, 'model.layers.13': 0, 'model.layers.14': 1, 'model.layers.15': 1, 'model.layers.16': 1, 'model.layers.17': 1, 'model.layers.18': 1, 'model.layers.19': 1, 'model.layers.20': 1, 'model.layers.21': 1, 'model.layers.22': 1, 'model.layers.23': 1, 'model.layers.24': 1, 'model.layers.25': 1, 'model.layers.26': 1, 'model.layers.27': 1, 'model.layers.28': 1, 'model.layers.29': 1, 'model.layers.30': 1, 'model.layers.31': 1, 'model.norm': 1, 'model.rotary_emb': 1, 'lm_head': 1}

LLM and Tokenizer loading process complete (or terminated due to errors).


### LLM查詢與上下文整合 (LLM Query with Context Integration)
大型語言模型 (LLM) 根據提供的上下文來回答使用者的問題。
主要流程：
1.  **接收輸入**：包括使用者問題、檢索到的上下文、已載入的LLM模型及Tokenizer。
2.  **建立管線**：設定一個 `transformers` 的文本生成管線，使用指定的模型和Tokenizer。
3.  **提示工程**：透過 `PromptTemplate` 指導LLM依據上下文回答，若無答案則明說，並要求以繁體中文作答。
4.  **執行與獲取答案**：建立並執行 `LLMChain`，傳入問題與上下文，最後提取並返回LLM生成的答案。

In [15]:
def query_llm_with_context(user_question: str, retrieved_context_str: str, llm_model_loaded, tokenizer_loaded):
    print(f"LLM 將回答的問題: {user_question}")

    if llm_model_loaded is None or tokenizer_loaded is None:
        print("錯誤: LLM 模型或 Tokenizer 未載入。")
        return "錯誤：模型或 Tokenizer 未載入。"
    if not retrieved_context_str or retrieved_context_str.isspace():
        print("警告: 提供的上下文為空。模型將主要依賴其內部知識。")

    try:
        text_generation_pipeline = pipeline(
            task="text-generation",
            model=llm_model_loaded,
            tokenizer=tokenizer_loaded,
            torch_dtype=llm_model_loaded.dtype,
            device_map="auto",
            max_new_tokens=512,
        )
        llm_hf = HuggingFacePipeline(pipeline=text_generation_pipeline)

        prompt_template_with_context_str = """請根據以下提供的上下文資料來回答問題。如果你在上下文中找不到答案，請說你找不到相關資訊，不要試圖編造答案。

上下文：
{context}

問題：{question}

答案（請使用繁體中文回答）："""
        
        prompt_with_context = PromptTemplate(
            template=prompt_template_with_context_str,
            input_variables=["context", "question"]
        )
        llm_chain_with_context = LLMChain(llm=llm_hf, prompt=prompt_with_context)
        
        chain_input = {"question": user_question, "context": retrieved_context_str}
        chain_output = llm_chain_with_context.invoke(chain_input)
        final_answer = chain_output.get("text", "無法從鏈的輸出中找到答案。")
        
        print("\n--- 模型基於上下文生成的答案 ---")
        print(final_answer)
        print("-----------------------------------")
        return final_answer

    except Exception as e:
        print(f"在設定或執行 LLM 管線時發生錯誤: {e}")
        return f"執行時發生錯誤: {e}"


### 完整 RAG 查詢流程 (Rigorous RAG Query Process)
執行一個完整的「檢索增強生成」(RAG)流程，結合資訊檢索與語言模型生成答案。
主要流程：
1.  **接收輸入**：包括使用者問題、嵌入模型、FAISS索引、所有文本區塊、LLM模型及Tokenizer。
2.  **上下文檢索 (Retrieval)**：
    * **問題嵌入**：將使用者問題轉換為嵌入向量。
    * **相似性搜索**：使用FAISS索引找出與問題嵌入最相關的文本區塊。
    * **上下文整合**：將檢索到的相關文本區塊合併成單一的上下文資訊字串。
3.  **答案生成 (Generation)**：
    * 呼叫 `query_llm_with_context` 函式，將原始問題和整合後的上下文傳遞給LLM以生成答案。
4.  **返回結果**：回傳LLM生成的最終答案以及檢索過程中使用的上下文區塊列表。

In [16]:
def perform_rigorous_rag_query(question_for_llm: str, 
                               embedding_model, 
                               faiss_index, 
                               all_document_chunks, 
                               llm_true_model, 
                               llm_tokenizer, 
                               k_results=3):

    print(f"\n========== 開始 RAG 查詢 ==========")
    print(f"步驟 1: 定義要問 LLM 的問題: \"{question_for_llm}\"")

    print(f"\n步驟 2: 為 \"{question_for_llm}\" 檢索上下文...")
    if embedding_model is None:
        print("錯誤: 嵌入模型未提供。")
        return "錯誤: 嵌入模型未提供。"
    if faiss_index is None:
        print("錯誤: FAISS 索引未提供。")
        return "錯誤: FAISS 索引未提供。"
    if not all_document_chunks:
        print("錯誤: 文檔區塊列表為空。")
        return "錯誤: 文檔區塊列表為空。"

    try:

        print("  正在嵌入問題...")
        query_embedding = embedding_model.encode(question_for_llm)
        query_embedding_reshaped = query_embedding.reshape(1, -1)
        if query_embedding_reshaped.dtype != np.float32:
            query_embedding_final = query_embedding_reshaped.astype(np.float32)
        else:
            query_embedding_final = query_embedding_reshaped
        print(f"  問題嵌入完成。形狀: {query_embedding_final.shape}")


        print(f"  正在 FAISS 索引中搜索相似區塊 (k={k_results})...")
        if faiss_index.ntotal == 0:
            print("錯誤: FAISS 索引是空的，無法搜索。")
            return "錯誤: FAISS 索引是空的。"
        
        distances, indices = faiss_index.search(query_embedding_final, k_results)
        print(f"  搜索完成。找到索引: {indices}")


        if len(indices[0]) == 0 or indices[0][0] == -1:
             print("  未能檢索到任何相關上下文。")
             relevant_context_str = "在此資料庫中找不到與問題相關的特定上下文。"
        else:
            context_chunks_for_question = [
                all_document_chunks[idx] for idx in indices[0] if idx < len(all_document_chunks) and idx != -1
            ]
            if not context_chunks_for_question:
                print("  未能檢索到任何有效的上下文區塊。")
                relevant_context_str = "在此資料庫中找不到與問題相關的特定上下文。"
            else:
                print(f"  成功提取 {len(context_chunks_for_question)} 個上下文區塊。")
                # relevant_context_str = "\n\n---\n\n".join(context_chunks_for_question) # 原來的合併方式
                relevant_context_str = " ".join(chunk.replace("\n", " ") for chunk in context_chunks_for_question)


    except Exception as e:
        print(f"  檢索上下文時發生錯誤: {e}")
        relevant_context_str = f"檢索上下文時出錯 ({e})。"

    print(f"\n步驟 3: 使用檢索到的上下文查詢 LLM...")
    final_llm_answer = query_llm_with_context(
        user_question=question_for_llm,
        retrieved_context_str=relevant_context_str,
        llm_model_loaded=llm_true_model,
        tokenizer_loaded=llm_tokenizer
    )
    
    # 新的返回，增加 context_chunks_for_question
    print(f"========== RAG 查詢結束 ==========")
    if 'context_chunks_for_question' not in locals():
        # 處理未能檢索到任何上下文區塊的情況
        context_chunks_for_question = []
    return final_llm_answer, context_chunks_for_question


In [17]:
from datasets import Dataset

questions_for_eval = []
answers_for_eval = []
contexts_for_eval = []


list_of_questions_to_evaluate = [
    "台積電2026年第一季的營收表現如何？",
    "公司遠傳的同期的財報表現差異為何？",
    "聯發科在 AI 晶片市場的最新進展是什麼？其主要競爭對手有哪些？",
]

# list_of_questions_to_evaluate = [
#     "台積電2025年第一季的營收表現如何？",
#     "TSMC、創意電子(GUC)、UMC的同期的財報表現差異為何？",
#     "聯發科在 AI 晶片市場的最新進展是什麼？其主要競爭對手有哪些？",
# ]

if not ('embedding_model_stella' in locals() and
        'index' in locals() and
        'all_chunks' in locals() and
        'llm_model' in locals() and
        'tokenizer' in locals() and
        callable(perform_rigorous_rag_query)):
    print("錯誤：一個或多個必要的變數或函數未在 Notebook 中定義或初始化。")
    print("請確保您已成功執行 Notebook 的前面部分。")
    dataset = None
else:
    print(f"準備開始為 {len(list_of_questions_to_evaluate)} 個問題收集評估數據...\n")

    for i, current_question in enumerate(list_of_questions_to_evaluate):
        print(f"正在處理問題 {i+1}/{len(list_of_questions_to_evaluate)}: '{current_question}'")


        generated_answer, retrieved_contexts_list = perform_rigorous_rag_query(
            question_for_llm=current_question,
            embedding_model=embedding_model_stella,
            faiss_index=index,
            all_document_chunks=all_chunks,
            llm_true_model=llm_model,
            llm_tokenizer=tokenizer,
            k_results=3 
        )
        
        print(f"  問題 '{current_question}' 的 RAG 查詢完成。")
        if i > 0:
            print(f"    生成答案: {generated_answer}")
            print(f"    檢索到的上下文數量: {len(retrieved_contexts_list)}")
            continue
            
        questions_for_eval.append(current_question)
        answers_for_eval.append(generated_answer)
        contexts_for_eval.append(retrieved_contexts_list)
        print("-" * 30)

    print("\n所有問題的數據收集完畢！")

    data_for_ragas = {
        'question': questions_for_eval,
        'answer': answers_for_eval,
        'contexts': contexts_for_eval
    }

    if 'Dataset' in globals():
        dataset = Dataset.from_dict(data_for_ragas)
        print("\n已使用 Notebook 中的變數成功創建包含多個問答對的 RAGAS 評估數據集:")
        print(dataset)
    else:
        print("\n錯誤: `datasets.Dataset` 未導入。請確保已執行 `from datasets import Dataset`。")
        dataset = None 

準備開始為 3 個問題收集評估數據...

正在處理問題 1/3: '台積電2026年第一季的營收表現如何？'

步驟 1: 定義要問 LLM 的問題: "台積電2026年第一季的營收表現如何？"

步驟 2: 為 "台積電2026年第一季的營收表現如何？" 檢索上下文...
  正在嵌入問題...


Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Device set to use cuda:0


  問題嵌入完成。形狀: (1, 1024)
  正在 FAISS 索引中搜索相似區塊 (k=3)...
  搜索完成。找到索引: [[12 11 13]]
  成功提取 3 個上下文區塊。

步驟 3: 使用檢索到的上下文查詢 LLM...
LLM 將回答的問題: 台積電2026年第一季的營收表現如何？


  llm_hf = HuggingFacePipeline(pipeline=text_generation_pipeline)
  llm_chain_with_context = LLMChain(llm=llm_hf, prompt=prompt_with_context)



--- 模型基於上下文生成的答案 ---
請根據以下提供的上下文資料來回答問題。如果你在上下文中找不到答案，請說你找不到相關資訊，不要試圖編造答案。

上下文：
一、 最近期財報表現 (2025年第一季)  台積電最近公布的財報為2025年第一季（截至2025年3月31日），其主要財務數據表現強勁：  營收：約為255.3億美元（年增約35.3%），以新台幣計價約為8,392.5億元。 毛利率：達到58.8%。 營業利益率：為48.5%。 每股盈餘 (EPS)：約為新台幣13.94元（年增約60.4%）。 從製程技術來看，3奈米製程佔晶圓總營收的22%，5奈米製程佔37%，7奈米製程佔15%。包含7奈米及更先進製程的營收佔晶圓總營收的73%。公司指出，第一季的業績雖然受到智慧型手機季節性因素的影響，但AI相關需求的持續成長部分抵銷了此影響。  二、 市場分析與公司未來展望  市場分析師普遍肯定AI相關的高效能運算（HPC）需求將持續作為台積電營運成長的核心動力，並對其技術領先地位（特別是3奈米、5奈米及即將量產的2奈米製程）給予正面評價。  台積電管理層在2025年4月的法人說明會上，對未來營運釋出了以下展望：  2025年第二季財務預測： 營收預計介於284億美元至292億美元之間。 毛利率預計介於57%至59%之間。 營業利益率預計介於47%至49%之間。 2025年全年展望： 公司重申2025年美元營收將實現「近中雙位數」（約24-26%）的年成長。 AI需求預期持續強勁，其他應用市場則預期溫和復甦。 全年資本支出預算維持在380億至420億美元，以支持客戶成長與技術發展。 分析師與公司均注意到地緣政治（如美中貿易關係、潛在關稅）及全球宏觀經濟的不確定性是主要的外部風險，但公司目前觀察客戶行為未因潛在關稅政策而改變。海外晶圓廠的擴建進度、成本控制及其對毛利率的短期影響（預期2025年可能稀釋毛利率約2-3個百分點）也是市場關注的焦點。  三、 影響營運的主要正面與負面因素  綜合來看，影響台積電近期財務表現及未來展望的因素如下：  主要正面因素：  AI需求強勁：AI晶片對先進製程及先進封裝的需求是核心成長引擎。 技術領先：3奈米和5奈米製程的市場份額，以及2奈米製程的研發進度，鞏固了競爭優勢。 HPC平台成長：除AI外，其他高效能運算應用亦帶動需求。 汽車

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Device set to use cuda:0


  問題嵌入完成。形狀: (1, 1024)
  正在 FAISS 索引中搜索相似區塊 (k=3)...
  搜索完成。找到索引: [[18 37 28]]
  成功提取 3 個上下文區塊。

步驟 3: 使用檢索到的上下文查詢 LLM...
LLM 將回答的問題: 公司遠傳的同期的財報表現差異為何？

--- 模型基於上下文生成的答案 ---
請根據以下提供的上下文資料來回答問題。如果你在上下文中找不到答案，請說你找不到相關資訊，不要試圖編造答案。

上下文：
三、 影響營運的主要正面與負面因素  綜合來看，影響祥碩近期財務表現及未來展望的因素如下：  主要正面因素：  與主要客戶（AMD）的緊密合作：AMD在CPU市場市佔率的提升，直接帶動祥碩晶片組及高速介面控制晶片的需求。 技術領先優勢：在USB4、PCIe Gen5/Gen6等高速傳輸介面技術上保持領先，受惠於新技術標準的升級週期。 AI與HPC需求帶動：數據中心、AI伺服器等高效能運算應用對高速傳輸介面需求強勁。 新產品與新市場：USB4 v2產品的開發、車用市場的佈局以及Techpoint的併購，為未來成長增添動能。 穩健的財務結構：持續維持高毛利率（約50%以上）、低負債比及充裕的現金部位。 特定市場競爭格局有利：如在中國市場特定產品線的競爭相對有限。 主要負面因素與挑戰：  半導體產業的週期性波動：整體產業景氣循環仍可能對公司營運帶來影響。 技術快速迭代的研發壓力：為維持技術領先，需持續投入高額研發費用。 全球供應鏈風險：需有效管理晶圓產能取得及供應商關係。 市場競爭：雖然在特定領域具領先優勢，但整體IC設計產業競爭依然存在，需專注技術差異化以避免價格戰。 對主要客戶的依賴性：主要客戶的市場表現與採購策略對祥碩營運有顯著影響。 毛利率波動：雖維持高檔，但仍可能受產品組合、市場競爭等因素影響而波動。 整體而言，祥碩憑藉其在高速傳輸技術的領導地位及與關鍵客戶的深度合作，在AI與HPC趨勢的帶動下，2025年營運前景看好。市場將持續關注其新產品的市場滲透速度、主要客戶的拉貨動能以及整體產業的復甦情況。 三、 影響營運的主要正面與負面因素  綜合來看，影響聯詠近期財務表現及未來展望的因素如下：  主要正面因素：  OLED滲透率提升：OLED面板在智慧型手機、穿戴裝置、平板、筆電及高階電視的應用持續擴大，帶

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

Device set to use cuda:0


  問題嵌入完成。形狀: (1, 1024)
  正在 FAISS 索引中搜索相似區塊 (k=3)...
  搜索完成。找到索引: [[ 2  1 35]]
  成功提取 3 個上下文區塊。

步驟 3: 使用檢索到的上下文查詢 LLM...
LLM 將回答的問題: 聯發科在 AI 晶片市場的最新進展是什麼？其主要競爭對手有哪些？

--- 模型基於上下文生成的答案 ---
請根據以下提供的上下文資料來回答問題。如果你在上下文中找不到答案，請說你找不到相關資訊，不要試圖編造答案。

上下文：
二、 市場分析與公司未來展望  市場分析師普遍看好聯發科在手機市場，特別是旗艦級SoC（系統單晶片）的競爭力，並預期AI在終端裝置的滲透將為其帶來新的成長機會。此外，公司在Wi-Fi 7、車用電子、電源管理IC（PMIC）等領域的拓展也受到關注。  聯發科管理層在2025年4月底的法人說明會上，對未來營運釋出了以下展望：  2025年第二季財務預測： 營收預計介於新台幣 1420 億元至 1508 億元之間（預期季增約5%至11%）。 毛利率預計介於 47.5% 至 49.5% 之間（中位數為48.5%）。 2025年全年展望： 公司預期2025年全年美元營收將實現中雙位數（mid-teens，約14-16%）的年成長。 手機業務預計將有顯著成長，主要由旗艦和高階市場的市佔率提升及規格升級帶動。 智慧裝置平台業務（包括電視晶片、Wi-Fi、ASIC、車用等）預期也將持續成長。 AI將是重要成長催化劑，無論是手機SoC整合的AI處理單元，或是針對邊緣運算裝置的AI晶片。 分析師認為，聯發科的天璣系列處理器在效能與功耗上已具備與主要競爭對手抗衡的實力，有助於其在高階市場持續擴大份額。  三、 影響營運的主要正面與負面因素  綜合來看，影響聯發科近期財務表現及未來展望的因素如下：  主要正面因素：  旗艦手機晶片強勁：天璣系列（如天璣9400及後續產品）在效能、AI運算能力及功耗上的競爭力，帶動高階手機市場的市佔率提升和平均售價(ASP)上揚。 AI技術整合與邊緣AI商機：AI在手機、IoT裝置、汽車等邊緣運算平台的應用，為聯發科的晶片帶來新的需求與價值。 多元化產品組合：在智慧裝置平台業務，如Wi-Fi 7晶片、電視SoC、ASIC（客製化晶片）、車用電子、電源管理IC等領域的持續

In [18]:
!pip install ragas datasets langchain-google-genai langchain_huggingface --quiet

[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m190.9/190.9 kB[0m [31m5.2 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m44.3/44.3 kB[0m [31m3.8 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m45.5/45.5 kB[0m [31m4.1 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m193.6/193.6 kB[0m [31m14.5 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.4/1.4 MB[0m [31m35.2 MB/s[0m eta [36m0:00:00[0m00:01[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m63.4/63.4 kB[0m [31m5.3 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m363.4/363.4 MB[0m [31m4.1 MB/s[0m eta [36m0:00:00[0m0:00:01[0m00:01[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m664.8/664.8 MB[0m [31m1.9 MB/s[0m eta [36m0:00:00[0m0:

In [19]:
import os
from kaggle_secrets import UserSecretsClient

try:
    user_secrets = UserSecretsClient()
    google_api_key = user_secrets.get_secret("GOOGLE_API_KEY") # 假設您在 Kaggle Secrets 中儲存的名稱是 "GOOGLE_API_KEY"
    os.environ["GOOGLE_API_KEY"] = google_api_key
    print("成功從 Kaggle Secrets 讀取並設定 GOOGLE_API_KEY。")
except Exception as e:
    print(f"從 Kaggle Secrets 讀取 'GOOGLE_API_KEY' 失敗: {e}")
    # 根據您的錯誤處理策略，可能需要 exit()

成功從 Kaggle Secrets 讀取並設定 GOOGLE_API_KEY。


In [20]:
from datasets import Dataset
from ragas import evaluate
from ragas.metrics import (
    faithfulness,
    answer_relevancy,
    context_precision,
)
# from langchain_openai import ChatOpenAI # 原本的 OpenAI LLM
from langchain_google_genai import ChatGoogleGenerativeAI # <<< 導入 Gemini LLM
from langchain_huggingface import HuggingFaceEmbeddings


# LLM 配置 (改用 Gemini)
# ragas_llm_gpt4o = ChatOpenAI(model="gpt-4o", temperature=0) # 原本的
try:
    ragas_llm_gemini = ChatGoogleGenerativeAI(
        model="gemini-2.5-flash-preview-05-20", # 或者您想使用的特定 Gemini 模型，例如 "gemini-1.5-pro-latest"
        temperature=0,
        # convert_system_message_to_human=True # 有些舊版本可能需要，視情況調整
    )
    print(f"已配置 RAGAS 使用 LLM: Gemini ({ragas_llm_gemini.model})") # 確認模型名稱
except Exception as e:
    print(f"配置 ChatGoogleGenerativeAI 失敗: {e}")
    # 設定一個備用或拋出錯誤
    ragas_llm_gemini = None


try:
    model_name_stella = 'infgrad/stella-large-zh-v2'
    # 您可能需要確保 Kaggle 環境能下載並使用這個模型，且有足夠的 RAM
    # 在 Kaggle Notebook 設定中開啟網路，並確保有足夠的磁碟空間
    ragas_embeddings = HuggingFaceEmbeddings(
        model_name=model_name_stella,
        # model_kwargs={'device': 'cuda'}, # 如果有 GPU 且 Langchain 版本支持
        # encode_kwargs={'normalize_embeddings': True} # 根據模型推薦
    )
    print(f"已配置 RAGAS 使用 Embeddings: {model_name_stella}")
except Exception as e:
    print(f"配置 HuggingFace Embeddings ({model_name_stella}) 失敗: {e}")

print("評估數據集 (`dataset`) 準備完成:")
print(dataset)
print(f"共 {len(dataset)} 個評估樣本。\n")

# 步驟 4: 執行 RAGAS 評估
if os.getenv("GOOGLE_API_KEY") and ragas_llm_gemini is not None: # 確保 API Key 和 LLM 都已設定
    print(f"開始使用 Gemini 進行 RAGAS 評估 (基於 `dataset` 變數)...")
    try:
        result = evaluate(
            dataset,
            metrics=[
                faithfulness,
                answer_relevancy,
            ],
            llm=ragas_llm_gemini, # <<< 在此處傳入 Gemini LLM 實例
            embeddings=ragas_embeddings, # 嵌入模型可以保持不變，或根據需求調整
            raise_exceptions=True
        )

        print("\\nGemini 評估完成！")
        # ... (後續結果處理不變) ...

    except Exception as e:
        print(f"\\n執行 RAGAS 評估時發生錯誤: {e}")
else:
    print("由於 GOOGLE_API_KEY 未設定或 Gemini LLM 未成功初始化，無法執行 RAGAS 評估。")

已配置 RAGAS 使用 LLM: Gemini (models/gemini-2.5-flash-preview-05-20)
已配置 RAGAS 使用 Embeddings: infgrad/stella-large-zh-v2
評估數據集 (`dataset`) 準備完成:
Dataset({
    features: ['question', 'answer', 'contexts'],
    num_rows: 1
})
共 1 個評估樣本。

開始使用 Gemini 進行 RAGAS 評估 (基於 `dataset` 變數)...


Evaluating:   0%|          | 0/2 [00:00<?, ?it/s]

\nGemini 評估完成！


In [21]:
result

{'faithfulness': 0.3704, 'answer_relevancy': 1.0000}

In [22]:
import pickle
with open('all_chunks.pkl', 'wb') as f:
    pickle.dump(all_chunks, f)

with open('all_file_names.pkl', 'wb') as f:
    pickle.dump(all_file_names, f)

faiss.write_index(index, "my_company_index.faiss")