## 匯入資料

`loader.load()`：
將來自各種格式 (CSV, PDF, HTML, Markdown, JSON) 的資料轉換維為標準化的 Document 物件。

`loader.load_and_split()`：
載入文件後立即將文件分割成更小的塊 (chunk)，接著返回 document 物件。  
此方法會自動執行載入和分割，若未指定 text_splitter，會預設使用 RecursiveCharactorTextSplitter 分割。
``` python
text_splitter = RecursiveCharacterTextSplitter(chunk_size=100, chunk_overlap=200)
custom_chunks = loader.load_and_split(text_splitter=text_splitter)
```

In [1]:
from langchain_community.document_loaders import PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter

# 載入 PDF 文件
loader = PyPDFLoader('./../data/PDF_file.pdf')
docs = loader.load()

print(docs)

[Document(metadata={'producer': 'AFPL Ghostscript 8.13', 'creator': 'PrimoPDF http://www.primopdf.com', 'creationdate': 'D:20090501171152', 'moddate': 'D:20090501171152', 'title': '(Microsoft Word - LE PETIT PRINCE\\244\\244\\244\\345\\252\\251.doc)', 'author': 'user', 'source': './../data/PDF_file.pdf', 'total_pages': 54, 'page': 0, 'page_label': '1'}, page_content='1 \n                         LE PETIT PRINCE \n                             小 王 子 \n                       [ 法] 聖﹒德克旭貝里 \n（此劇本由簡體中文版轉錄而來） \n*************************************************** ****************** \n \n                        獻給列翁﹒維爾特 \n \n    我請孩子們原諒我把這本書獻給了一個大人。我有一個很重要的理由：這個 \n大人是我在世界上最好的朋友。我還有另一個理由：這個大人他什么都能懂，甚 \n至給孩子們寫的書他也能懂。我的第三個理由是：這個大人住在法國，他在那里 \n挨餓、受凍。他很需要安慰。如果這些理由還不夠的話，那么我愿意把這本書獻 \n給兒童時代的這個大人。所有的大人都曾經是孩子。 （可惜，只有很少的一些大 \n人記得這一點。）因此，我就把獻詞改為： \n \n                  獻給還是小男孩時的列翁﹒維爾特 \n \n*************************************************** ****************** \n \n                         LE PETIT PRINCE \n

In [2]:
# 未指定 text_splitter
docs2 = loader.load_and_split()
print(docs2)

[Document(metadata={'producer': 'AFPL Ghostscript 8.13', 'creator': 'PrimoPDF http://www.primopdf.com', 'creationdate': 'D:20090501171152', 'moddate': 'D:20090501171152', 'title': '(Microsoft Word - LE PETIT PRINCE\\244\\244\\244\\345\\252\\251.doc)', 'author': 'user', 'source': './../data/PDF_file.pdf', 'total_pages': 54, 'page': 0, 'page_label': '1'}, page_content='1 \n                         LE PETIT PRINCE \n                             小 王 子 \n                       [ 法] 聖﹒德克旭貝里 \n（此劇本由簡體中文版轉錄而來） \n*************************************************** ****************** \n \n                        獻給列翁﹒維爾特 \n \n    我請孩子們原諒我把這本書獻給了一個大人。我有一個很重要的理由：這個 \n大人是我在世界上最好的朋友。我還有另一個理由：這個大人他什么都能懂，甚 \n至給孩子們寫的書他也能懂。我的第三個理由是：這個大人住在法國，他在那里 \n挨餓、受凍。他很需要安慰。如果這些理由還不夠的話，那么我愿意把這本書獻 \n給兒童時代的這個大人。所有的大人都曾經是孩子。 （可惜，只有很少的一些大 \n人記得這一點。）因此，我就把獻詞改為： \n \n                  獻給還是小男孩時的列翁﹒維爾特 \n \n*************************************************** ****************** \n \n                         LE PETIT PRINCE \n

In [3]:
# 指定 text_splitter
text_splitter = RecursiveCharacterTextSplitter(chunk_size=50, chunk_overlap=0)
custom_chunks = loader.load_and_split(text_splitter=text_splitter)
print(custom_chunks)

[Document(metadata={'producer': 'AFPL Ghostscript 8.13', 'creator': 'PrimoPDF http://www.primopdf.com', 'creationdate': 'D:20090501171152', 'moddate': 'D:20090501171152', 'title': '(Microsoft Word - LE PETIT PRINCE\\244\\244\\244\\345\\252\\251.doc)', 'author': 'user', 'source': './../data/PDF_file.pdf', 'total_pages': 54, 'page': 0, 'page_label': '1'}, page_content='1 \n                         LE PETIT PRINCE'), Document(metadata={'producer': 'AFPL Ghostscript 8.13', 'creator': 'PrimoPDF http://www.primopdf.com', 'creationdate': 'D:20090501171152', 'moddate': 'D:20090501171152', 'title': '(Microsoft Word - LE PETIT PRINCE\\244\\244\\244\\345\\252\\251.doc)', 'author': 'user', 'source': './../data/PDF_file.pdf', 'total_pages': 54, 'page': 0, 'page_label': '1'}, page_content='小 王 子'), Document(metadata={'producer': 'AFPL Ghostscript 8.13', 'creator': 'PrimoPDF http://www.primopdf.com', 'creationdate': 'D:20090501171152', 'moddate': 'D:20090501171152', 'title': '(Microsoft Word - LE PET

In [4]:
print(len(docs))
print(len(docs2))
print(len(custom_chunks))

54
54
988


## 文本分塊  
將收集的 document 分割成較小的段落，分割可以提高檢索的準確性，尤其是此用語意分割時。  

Langchain 提供多種分割方法：
* 基於長度的分割：`CharacterTextSplitter` 會根據指定的字元或 token 數量限制分割文本。  
* 基於文本結構的分割：`RecursiveCharacterTextSplitter` 利用文本的自然層次結構 （如，'\n\n', '\n', ' ', ''）以維持語意的連貫性。
* 基於文件結構的分割：針對具有擁有固有結構的文件（如，Markdown、HTML、JSON 等...）分割後可以保留文件的邏輯組織。
* 基於語義的分割：直接分析文本內容以找到語義上的顯著變化作為分隔點，從而創建語義更連貫的塊。

註：對於大多數處理自然語言文本的應用，`RecursiveCharacterTextSplitter` 往往是更推薦和更強大的選擇，因為它能更好地處理多樣化的文本結構並保持語義完整性。

In [18]:
from langchain.text_splitter import CharacterTextSplitter

document_content = """
# 台灣的夜市文化

## 緒論
台灣夜市是台灣獨特的文化現象，融合了美食、購物與娛樂。

### 夜市的歷史
夜市的起源可以追溯到清朝時期，當時市集是人們交流與貿易的重要場所。

## 美食區
夜市中最吸引人的莫過於各式各樣的台灣小吃。

### 推薦小吃
* 滷肉飯：台灣國民美食。
* 珍珠奶茶：風靡全球的飲品。
* 臭豆腐：雖然氣味獨特，但味道令人難忘。
"""

print("--- 基於長度的分割 (CharacterTextSplitter) 範例 ---")
char_splitter = CharacterTextSplitter(
    separator="\n\n",  # 以雙換行符號作為主要分隔符
    chunk_size=150,    # 每個分塊的最大字元數
    chunk_overlap=20,  # 分塊間的重疊字元數
    length_function=len # 計算長度的函數 (這裡使用字元數)
)
chunks = char_splitter.split_text(document_content)

for i, chunk in enumerate(chunks):
    print(f"分塊 {i+1} (長度: {len(chunk)}):")
    print(chunk)
    print("---")

--- 基於長度的分割 (CharacterTextSplitter) 範例 ---
分塊 1 (長度: 119):
# 台灣的夜市文化

## 緒論
台灣夜市是台灣獨特的文化現象，融合了美食、購物與娛樂。

### 夜市的歷史
夜市的起源可以追溯到清朝時期，當時市集是人們交流與貿易的重要場所。

## 美食區
夜市中最吸引人的莫過於各式各樣的台灣小吃。
---
分塊 2 (長度: 60):
### 推薦小吃
* 滷肉飯：台灣國民美食。
* 珍珠奶茶：風靡全球的飲品。
* 臭豆腐：雖然氣味獨特，但味道令人難忘。
---


In [20]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

document_content = """
# 台灣的夜市文化

## 緒論
台灣夜市是台灣獨特的文化現象，融合了美食、購物與娛樂。

### 夜市的歷史
夜市的起源可以追溯到清朝時期，當時市集是人們交流與貿易的重要場所。

## 美食區
夜市中最吸引人的莫過於各式各樣的台灣小吃。

### 推薦小吃
* 滷肉飯：台灣國民美食。
* 珍珠奶茶：風靡全球的飲品。
* 臭豆腐：雖然氣味獨特，但味道令人難忘。
"""

print("\n--- 基於文本結構的分割 (RecursiveCharacterTextSplitter) 範例 ---")
recursive_splitter = RecursiveCharacterTextSplitter(
    separators=["\n\n", "\n", " ", ""], # 嘗試依序使用這些分隔符
    chunk_size=100,
    chunk_overlap=20,
    length_function=len
)
chunks = recursive_splitter.split_text(document_content)

for i, chunk in enumerate(chunks):
    print(f"分塊 {i+1} (長度: {len(chunk)}):")
    print(chunk)
    print("---")


--- 基於文本結構的分割 (RecursiveCharacterTextSplitter) 範例 ---
分塊 1 (長度: 89):
# 台灣的夜市文化

## 緒論
台灣夜市是台灣獨特的文化現象，融合了美食、購物與娛樂。

### 夜市的歷史
夜市的起源可以追溯到清朝時期，當時市集是人們交流與貿易的重要場所。
---
分塊 2 (長度: 90):
## 美食區
夜市中最吸引人的莫過於各式各樣的台灣小吃。

### 推薦小吃
* 滷肉飯：台灣國民美食。
* 珍珠奶茶：風靡全球的飲品。
* 臭豆腐：雖然氣味獨特，但味道令人難忘。
---


In [21]:
from langchain.text_splitter import MarkdownTextSplitter

markdown_content = """
# 台灣的夜市文化

## 緒論
台灣夜市是台灣獨特的文化現象，融合了美食、購物與娛樂。

### 夜市的歷史
夜市的起源可以追溯到清朝時期，當時市集是人們交流與貿易的重要場所。

## 美食區
夜市中最吸引人的莫過於各式各樣的台灣小吃。

### 推薦小吃
* 滷肉飯：台灣國民美食。
* 珍珠奶茶：風靡全球的飲品。
* 臭豆腐：雖然氣味獨特，但味道令人難忘。
"""

print("\n--- 基於文件結構的分割 (MarkdownTextSplitter) 範例 ---")
markdown_splitter = MarkdownTextSplitter(
    chunk_size=100, # 每個分塊的最大字元數
    chunk_overlap=0 # 不重疊
)
chunks = markdown_splitter.split_text(markdown_content)

for i, chunk in enumerate(chunks):
    print(f"分塊 {i+1} (長度: {len(chunk)}):")
    print(chunk)
    print("---")


--- 基於文件結構的分割 (MarkdownTextSplitter) 範例 ---
分塊 1 (長度: 89):
# 台灣的夜市文化

## 緒論
台灣夜市是台灣獨特的文化現象，融合了美食、購物與娛樂。

### 夜市的歷史
夜市的起源可以追溯到清朝時期，當時市集是人們交流與貿易的重要場所。
---
分塊 2 (長度: 90):
## 美食區
夜市中最吸引人的莫過於各式各樣的台灣小吃。

### 推薦小吃
* 滷肉飯：台灣國民美食。
* 珍珠奶茶：風靡全球的飲品。
* 臭豆腐：雖然氣味獨特，但味道令人難忘。
---


In [24]:
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_ollama import OllamaEmbeddings # 假設使用 OpenAI 的 Embedding
from sklearn.cluster import MiniBatchKMeans # 範例聚類演算法
import numpy as np

# 假設你已經設定了 OpenAI API 金鑰
# os.environ["OPENAI_API_KEY"] = "YOUR_API_KEY"

document_content = """
# 台灣的夜市文化

## 緒論
台灣夜市是台灣獨特的文化現象，融合了美食、購物與娛樂。

### 夜市的歷史
夜市的起源可以追溯到清朝時期，當時市集是人們交流與貿易的重要場所。

## 美食區
夜市中最吸引人的莫過於各式各樣的台灣小吃。

### 推薦小吃
* 滷肉飯：台灣國民美食。
* 珍珠奶茶：風靡全球的飲品。
* 臭豆腐：雖然氣味獨特，但味道令人難忘。
"""

print("\n--- 基於語義的分割 (概念性範例) ---")

# 步驟 1: 將文本分割成較小的、更易於 Embedding 的句子或段落
# 使用 RecursiveCharacterTextSplitter 來做初步切割，保留語義單元
base_splitter = RecursiveCharacterTextSplitter(
    separators=["\n\n", "\n"],
    chunk_size=50, # 較小的分塊，以便語義分析
    chunk_overlap=0
)
sentences = base_splitter.split_text(document_content)
print("初步分割的語句或小段落:")
for s in sentences:
    print(f"- {s}")
print("---")

# 步驟 2: 為每個句子/段落生成 Embedding
# embeddings_model = OpenAIEmbeddings() # 實際應用時需初始化
# sentence_embeddings = embeddings_model.embed_documents(sentences)

# 為了示範，我們這裡使用模擬的 Embedding
# 假設前3個句子語義相似，後3個句子語義相似，但兩組間差異大
sentence_embeddings = [
    np.random.rand(10).tolist() for _ in range(3)
] + [
    (np.random.rand(10) + 5).tolist() for _ in range(3)
] # 模擬兩個不同的語義群組

# 步驟 3: 對 Embedding 進行聚類或變化點檢測
# 這裡使用 K-Means 進行聚類，找出語義上的分界點
# kmeans = MiniBatchKMeans(n_clusters=2, random_state=0, n_init=10) # 假設我們知道有2個主要語義群組
# kmeans.fit(sentence_embeddings)
# labels = kmeans.labels_ # 每個句子所屬的聚類標籤

# 為了示範，我們直接設定標籤來模擬聚類結果
labels = [0, 0, 0, 1, 1, 1]
print(f"每個句子的模擬聚類標籤: {labels}")
print("---")

# 步驟 4: 根據語義變化點重新組合分塊
semantic_chunks = []
current_chunk = ""
if sentences:
    current_chunk += sentences[0]
    for i in range(1, len(sentences)):
        if labels[i] != labels[i-1]: # 如果語義類別發生變化
            semantic_chunks.append(current_chunk.strip())
            current_chunk = sentences[i]
        else:
            current_chunk += "\n" + sentences[i]
    semantic_chunks.append(current_chunk.strip()) # 添加最後一個分塊

for i, chunk in enumerate(semantic_chunks):
    print(f"語義分塊 {i+1}:\n{chunk}\n---")


--- 基於語義的分割 (概念性範例) ---
初步分割的語句或小段落:
- # 台灣的夜市文化

## 緒論
台灣夜市是台灣獨特的文化現象，融合了美食、購物與娛樂。
- ### 夜市的歷史
夜市的起源可以追溯到清朝時期，當時市集是人們交流與貿易的重要場所。
- ## 美食區
夜市中最吸引人的莫過於各式各樣的台灣小吃。
- ### 推薦小吃
* 滷肉飯：台灣國民美食。
* 珍珠奶茶：風靡全球的飲品。
- * 臭豆腐：雖然氣味獨特，但味道令人難忘。
---
每個句子的模擬聚類標籤: [0, 0, 0, 1, 1, 1]
---
語義分塊 1:
# 台灣的夜市文化

## 緒論
台灣夜市是台灣獨特的文化現象，融合了美食、購物與娛樂。
### 夜市的歷史
夜市的起源可以追溯到清朝時期，當時市集是人們交流與貿易的重要場所。
## 美食區
夜市中最吸引人的莫過於各式各樣的台灣小吃。
---
語義分塊 2:
### 推薦小吃
* 滷肉飯：台灣國民美食。
* 珍珠奶茶：風靡全球的飲品。
* 臭豆腐：雖然氣味獨特，但味道令人難忘。
---


## 生成嵌入並建立向量儲存庫
* **嵌入生成**：documents 被轉換成數值向量（嵌入）。
* **向量儲存庫建構**：計算出的嵌入連同其對應的文本塊和任何的中繼資料（ex. 來源、作者、日期）會儲存在向量資料庫中（ex. FAISS、[Chroma](https://python.langchain.com/api_reference/community/graph_vectorstores/langchain_community.graph_vectorstores.base.GraphVectorStore.html#langchain_community.graph_vectorstores.base.GraphVectorStore.asimilarity_search_with_score)、Qdrant...）。向量資料庫經過最佳化，在在高維空間中執行快速相似性搜尋，形成 RAG 系統的搜尋引擎。

## 配置檢索管道
Langchain 的檢索模組可以指定使用的向量資料庫，並定義檢索設定（ex.每個查詢要獲取多少相關塊）

In [5]:
from langchain_ollama import OllamaEmbeddings

embeddings = OllamaEmbeddings(
    base_url='http://dandelion-ollama-1:11434', 
    model="nomic-embed-text"
)


In [34]:
from langchain_chroma import Chroma

# 將資料庫儲存在記憶體
vectorstore = Chroma.from_documents(custom_chunks, embeddings)

retriever_Chroma = vectorstore.as_retriever(search_kwargs={"k": 5}) # 檢索最相關的 3 個文件

In [35]:
from langchain_chroma import Chroma

# 將資料庫永久儲存在磁碟
vectorstore_db = Chroma.from_documents(
    custom_chunks, 
    embedding=embeddings, 
    persist_directory = "./Chroma_db",
    collection_name="little_prince_chroma"
)

# 如果之後想從磁碟載入，可以這樣做：
# vectorstore = Chroma(persist_directory=persist_directory, embedding_function=embeddings_model)

retriever_Chroma_db = vectorstore_db.as_retriever(search_kwargs={"k": 5}) # 檢索最相關的 3 個文件

In [21]:
retriever_Chroma_db_score = vectorstore_db.asimilarity_search_with_score(search_kwargs={"k": 3}) # 檢索最相關的 3 個文件


In [19]:
from langchain_community.vectorstores import FAISS

retriever_FAISS = FAISS.from_documents(custom_chunks, embeddings).as_retriever()

## 將檢索到的上下文傳給語言模型
從向量儲存庫中檢索到的最相關塊連同使用者的原始查詢 prompt 一起傳給 LLM。


In [8]:
# 建立 ChatOllama 實例
from langchain_ollama import ChatOllama

Chatllm = ChatOllama(
    base_url='http://dandelion-ollama-1:11434', 
    model="llama3.1:8b",
    temperature=0.0,
    num_predict=51200
)

### 建立提示模板

`PromptTemplate`  
LangChain 中最基礎、最通用的提示模板，主要用於建構單一字串形式的提示，通常是給予傳統的 Completion 模型（例如，一個接收文本輸入並生成文本輸出的模型）使用。

<!-- 格式：通常包含一個簡單的模板字串，其中帶有佔位符，這些佔位符會被傳入的變數值填充。 -->

``` python
from langchain import PromptTemplate

template = "請將以下英文句子翻譯成中文：\n{english_sentence}"
prompt = PromptTemplate(
    input_variables=["english_sentence"],
    template=template,
)

# 使用範例
print(prompt.format(english_sentence="Hello, how are you?"))
``` 

`ChatPromptTemplate`  
專為聊天模型 (Chat Models) 設計，這些模型通常接收一個訊息列表作為輸入，而不是單一的字串。這些訊息通常有明確的角色（例如 system、human、ai），這使得模型能夠更好地理解對話的上下文和意圖。

<!-- 格式：由一系列訊息組成，每個訊息都有一個 type (或 role) 和 content。 -->

``` python
from langchain_core.prompts import ChatPromptTemplate

chat_template = ChatPromptTemplate.from_messages(
    [
        ("system", "你是一個樂於助人的 AI 助手。"),
        ("human", "你好，我的名字是 {name}！"),
        ("ai", "很高興見到你，{name}！我能怎麼幫助你？"),
        ("human", "{user_input}"),
    ]
)

# 使用範例
print(chat_template.format_messages(name="小明", user_input="你能幫我規劃一個旅行嗎？"))
```

#### 其他 LangChain 提示相關模組

除了這兩個核心的提示模板之外，LangChain 還提供了一些其他有用的提示模組，以應對更複雜的需求：

* `MessagePromptTemplate` 及其子類：
    * `SystemMessagePromptTemplate`：用於定義系統訊息。
    * `HumanMessagePromptTemplate`：用於定義人類用戶的訊息。
    * `AIMessagePromptTemplate`：用於定義 AI 的回應訊息。
    * `FunctionMessagePromptTemplate`：用於定義來自工具或函數調用的訊息。
    * `ToolMessagePromptTemplate`：用於定義工具的輸出訊息。
    * 這些通常與 ChatPromptTemplate.from_messages 結合使用，以更明確地構造聊天訊息。

* `FewShotPromptTemplate`：
    * 用於少量樣本學習 (Few-shot Learning)。它允許你在提示中包含一些輸入-輸出範例，幫助 LLM 更好地理解任務並產生更精確的答案。
    * 它內部可以使用 `PromptTemplate` 或 `ChatPromptTemplate`。

* `PromptValue`：
    * 這是一個更底層的類，表示已經格式化好的提示值。當你調用 `prompt.format()` 或 `chat_prompt.format_messages()` 時，它們會返回 `PromptValue` 的實例。

* `StringPromptValue` 和 `ChatPromptValue`：
    * `PromptValue` 的具體實現，分別對應 `PromptTemplate` 和 `ChatPromptTemplate` 的輸出。

* `ConditionalPromptSelector`：
    * 允許你根據某些條件動態選擇使用不同的提示模板。例如，如果模型是 gpt-4 就用一個詳細的提示，如果是 gpt-3.5-turbo 就用一個簡潔的提示。

總的來說，如果你在建構聊天機器人或需要給予模型特定角色和行為，`ChatPromptTemplate` 是較好的選項。而對於簡單、非對話式的任務，選擇`PromptTemplate` 就足夠。

In [9]:
from langchain_core.prompts import ChatPromptTemplate
prompt = ChatPromptTemplate.from_messages([
    ("system", "您是一位精通《小王子》的專業讀者。請根據提供的「上下文」資料，以清晰、精確、客觀且深入的語氣回答關於《小王子》內容的各種問題。您的回答必須完全基於上下文，如果上下文未提及相關資訊，請明確表示「根據《小王子》的內容，此資訊未被提及」或「上下文未提供足夠的資訊來回答此問題」。請避免加入個人臆測或超出上下文的知識。上下文：{context}"),
    ("human", "{input}"),
])


`create_stuff_documents_chain`: 這是一個 LangChain 的實用函數，它的主要作用是建立一個「文件處理鏈」。這個鏈會將從檢索器獲得的多個文件（documents）「填充 (stuff)」到一個單一的提示中，然後將這個包含上下文的提示傳遞給語言模型。

`create_retrieval_chain`: 這個函數將檢索 (Retrieval) 和生成 (Generation) 兩個階段連結起來，形成一個完整的 RAG 工作流。

`retriever_Chroma_db` 是檢索器，會在 ChromaDB 中搜尋並返回與問題最相關的原始文件（或文件片段）。這些檢索到的文件隨後會被傳遞給 `llm_chain`。

`llm_chain` 會將這些文件作為上下文與使用者問題一起提供給 `Chatllm`。

總結：`rag_chain` 是與 RAG 系統互動的主要接口。問它問題後，它會先去查找相關資料，然後用這些資料來幫助 LLM 回答問題。

以下比較了不同 database 的結果。

In [16]:
from langchain.chains import create_retrieval_chain
from langchain.chains.combine_documents import create_stuff_documents_chain

llm_chain = create_stuff_documents_chain(Chatllm, prompt)
rag_chain = create_retrieval_chain(retriever_Chroma_db, llm_chain)

response1 = rag_chain.invoke({"input": "小王子為什麼離開他的星球？"})
print("回答:", response1["answer"])
print("\n---- 參考文件內容 ----\n", response1["context"])

回答: 根據《小王子》的內容，小王子離開他的星球是因為他愛上了太陽花。

---- 參考文件內容 ----
 [Document(id='b3f38f53-aa2a-4700-8106-371ba3edd85f', metadata={'producer': 'AFPL Ghostscript 8.13', 'total_pages': 54, 'source': './../data/PDF_file.pdf', 'creator': 'PrimoPDF http://www.primopdf.com', 'author': 'user', 'page_label': '21', 'title': '(Microsoft Word - LE PETIT PRINCE\\244\\244\\244\\345\\252\\251.doc)', 'creationdate': 'D:20090501171152', 'moddate': 'D:20090501171152', 'page': 20}, page_content='小王子所訪問的下一個星球上住著一個酒鬼。訪問時間非常短，可是它卻使 \n小王子非常憂傷。'), Document(id='3bc84afe-d402-4400-9b67-a5457538a700', metadata={'creationdate': 'D:20090501171152', 'author': 'user', 'title': '(Microsoft Word - LE PETIT PRINCE\\244\\244\\244\\345\\252\\251.doc)', 'moddate': 'D:20090501171152', 'source': './../data/PDF_file.pdf', 'producer': 'AFPL Ghostscript 8.13', 'total_pages': 54, 'page': 16, 'page_label': '17', 'creator': 'PrimoPDF http://www.primopdf.com'}, page_content='可是小王子感到很奇怪。這么小的行星，國王他對什么進行統治呢？'), Document(id='39f4b50d-abe5-4b5b-8f

In [38]:
from langchain.chains import create_retrieval_chain
from langchain.chains.combine_documents import create_stuff_documents_chain

llm_chain = create_stuff_documents_chain(Chatllm, prompt)
rag_chain = create_retrieval_chain(retriever_Chroma_db_score, llm_chain)

# response1 = await rag_chain.ainvoke({"input": "小王子為什麼離開他的星球？"})
response1 = rag_chain.invoke({"input": "小王子為什麼離開他的星球？"})
print("回答:", response1["answer"])
print("\n---- 參考文件內容 ----\n", response1["context"])

AttributeError: 'coroutine' object has no attribute 'with_config'

In [17]:
from langchain.chains import create_retrieval_chain
from langchain.chains.combine_documents import create_stuff_documents_chain

llm_chain = create_stuff_documents_chain(Chatllm, prompt)
rag_chain = create_retrieval_chain(retriever_Chroma, llm_chain)

response1 = rag_chain.invoke({"input": "小王子為什麼離開他的星球？"})
print("回答:", response1["answer"])
print("\n---- 參考文件內容 ----\n", response1["context"])

回答: 根據《小王子》的內容，小王子離開他的星球是因為他愛上了太陽花。

---- 參考文件內容 ----
 [Document(id='ddf7c628-90c6-44ae-9d39-99c16d707500', metadata={'source': './../data/PDF_file.pdf', 'creationdate': 'D:20090501171152', 'moddate': 'D:20090501171152', 'total_pages': 54, 'title': '(Microsoft Word - LE PETIT PRINCE\\244\\244\\244\\345\\252\\251.doc)', 'author': 'user', 'page_label': '21', 'page': 20, 'producer': 'AFPL Ghostscript 8.13', 'creator': 'PrimoPDF http://www.primopdf.com'}, page_content='小王子所訪問的下一個星球上住著一個酒鬼。訪問時間非常短，可是它卻使 \n小王子非常憂傷。'), Document(id='5cf65ec5-a2fe-442e-a6ea-268227ebcd8a', metadata={'title': '(Microsoft Word - LE PETIT PRINCE\\244\\244\\244\\345\\252\\251.doc)', 'page': 16, 'total_pages': 54, 'source': './../data/PDF_file.pdf', 'author': 'user', 'page_label': '17', 'moddate': 'D:20090501171152', 'producer': 'AFPL Ghostscript 8.13', 'creationdate': 'D:20090501171152', 'creator': 'PrimoPDF http://www.primopdf.com'}, page_content='可是小王子感到很奇怪。這么小的行星，國王他對什么進行統治呢？'), Document(id='57928378-462f-4a61-9b

In [20]:
from langchain.chains import create_retrieval_chain
from langchain.chains.combine_documents import create_stuff_documents_chain

llm_chain = create_stuff_documents_chain(Chatllm, prompt)
rag_chain = create_retrieval_chain(retriever_FAISS, llm_chain)

response = rag_chain.invoke({"input": "小王子為什麼離開他的星球？"})
print("回答:", response["answer"])
print("\n---- 參考文件內容 ----\n", response["context"])

回答: 根據《小王子》的內容，小王子離開他的星球是因為他愛上了玫瑰公主。

---- 參考文件內容 ----
 [Document(id='018a3a08-971e-490b-ab9e-162719f9f172', metadata={'producer': 'AFPL Ghostscript 8.13', 'creator': 'PrimoPDF http://www.primopdf.com', 'creationdate': 'D:20090501171152', 'moddate': 'D:20090501171152', 'title': '(Microsoft Word - LE PETIT PRINCE\\244\\244\\244\\345\\252\\251.doc)', 'author': 'user', 'source': './../data/PDF_file.pdf', 'total_pages': 54, 'page': 20, 'page_label': '21'}, page_content='小王子所訪問的下一個星球上住著一個酒鬼。訪問時間非常短，可是它卻使 \n小王子非常憂傷。'), Document(id='9e3a7b7f-6b5c-48df-9b4d-a4ff8b813b85', metadata={'producer': 'AFPL Ghostscript 8.13', 'creator': 'PrimoPDF http://www.primopdf.com', 'creationdate': 'D:20090501171152', 'moddate': 'D:20090501171152', 'title': '(Microsoft Word - LE PETIT PRINCE\\244\\244\\244\\345\\252\\251.doc)', 'author': 'user', 'source': './../data/PDF_file.pdf', 'total_pages': 54, 'page': 16, 'page_label': '17'}, page_content='可是小王子感到很奇怪。這么小的行星，國王他對什么進行統治呢？'), Document(id='86a449a4-0cb9-4aea-a

## 加入 Reranker 
Reranker，應該被放在 retriever_Chroma_db (檢索器) 之後，但在將文件傳給 llm_chain (文件處理鏈) 之前。

### Reranker 的位置和作用
Reranker 的主要目的是在檢索器找到了一批候選文件之後，對這些文件的相關性進行二次評估和排序，以確保傳遞給語言模型的上下文是最精確和最有用的。

**示意圖：**
```
使用者查詢
↓
檢索器 (Retriever) (例如 retriever_Chroma_db)
(找出前 N 個相關文件)
↓
Reranker (重排器)
(對這 N 個文件進行更精細的排序，挑選出前 K 個最相關的文件，通常 K < N)
↓
文件處理鏈 (Document Combination Chain) (例如 llm_chain)
(將這 K 個文件和使用者問題組合成提示)
↓
大型語言模型 (LLM) (例如 Chatllm)
(生成最終答案)
↓
最終答案
```

利用 LangChain LCEL 的管道 (|) 特性，將 Reranker 插入到 retriever 和 llm_chain 之間。

In [26]:
!curl -X POST http://dandelion-ollama-1:11434/api/pull -H "Content-Type: application/json" -d '{    "name": "xitao/bge-reranker-v2-m3"}' 

{"status":"pulling manifest"}
{"status":"pulling 9f6c8adb8875","digest":"sha256:9f6c8adb8875612c7794e506df39f4674a727ffaedfdb76a81663ece55077074","total":1159774816}
{"status":"pulling 9f6c8adb8875","digest":"sha256:9f6c8adb8875612c7794e506df39f4674a727ffaedfdb76a81663ece55077074","total":1159774816}
{"status":"pulling 9f6c8adb8875","digest":"sha256:9f6c8adb8875612c7794e506df39f4674a727ffaedfdb76a81663ece55077074","total":1159774816}
{"status":"pulling 9f6c8adb8875","digest":"sha256:9f6c8adb8875612c7794e506df39f4674a727ffaedfdb76a81663ece55077074","total":1159774816}
{"status":"pulling 9f6c8adb8875","digest":"sha256:9f6c8adb8875612c7794e506df39f4674a727ffaedfdb76a81663ece55077074","total":1159774816}
{"status":"pulling 9f6c8adb8875","digest":"sha256:9f6c8adb8875612c7794e506df39f4674a727ffaedfdb76a81663ece55077074","total":1159774816}
{"status":"pulling 9f6c8adb8875","digest":"sha256:9f6c8adb8875612c7794e506df39f4674a727ffaedfdb76a81663ece55077074","total":1159774816}
{"status":"pulling

In [33]:
# --- 自定義 Ollama Reranker 函數 ---
def ollama_rerank_documents(
    documents: List[Document],
    query: str,
    ollama_base_url: str = 'http://dandelion-ollama-1:11434', # 根據你的 Ollama 服務地址調整
    rerank_model_name: str = 'xitao/bge-reranker-v2-m3:latest',
    top_n: int = 3
) -> List[Document]:
    """
    使用 Ollama 部署的 Reranker 模型對文檔進行重排。

    Args:
        documents: 待重排的 LangChain Document 對象列表。
        query: 用戶的查詢字符串。
        ollama_base_url: Ollama API 的基礎 URL。
        rerank_model_name: 在 Ollama 中部署的重排器模型名稱。
        top_n: 重排後返回的文件數量。

    Returns:
        經過重排和截斷後的 LangChain Document 對象列表。
    """
    if not documents:
        return []

    # 將 LangChain Document 轉換為 Ollama Rerank API 所需的格式
    # Ollama API 期望 documents 是一個字典列表，每個字典有 'text' 鍵
    ollama_docs = [{"text": doc.page_content} for doc in documents]

    headers = {'Content-Type': 'application/json'}
    data = {
        "model": rerank_model_name,
        "query": query,
        "documents": ollama_docs
    }

    try:
        response = requests.post(
            f"{ollama_base_url}/api/rerank",
            headers=headers,
            data=json.dumps(data)
        )
        response.raise_for_status() # 如果響應狀態碼不是 200，則拋出異常
        result = response.json()
        
        # 解析 Ollama 的響應，並將分數與原始文檔匹配
        reranked_results = result.get('reranks', [])
        
        # 將分數與原始的 LangChain Document 重新關聯，並按分數排序
        # 注意: Ollama API 返回的 reranks 已經是排序好的
        # 我們需要根據返回的 index 找到原始文檔
        
        # 創建一個帶有原始索引的文檔列表
        indexed_documents = [(i, doc) for i, doc in enumerate(documents)]
        
        # 根據 reranked_results 中的 index 重新排序
        sorted_documents = []
        for r in reranked_results:
            original_index = r['index']
            # 從 indexed_documents 找到對應的原始 Document
            # 注意: 如果 reranked_results 的 index 不在原始 documents 範圍內，可能會出錯
            if 0 <= original_index < len(documents):
                 # 這裡也可以選擇把 score 加到 document 的 metadata 裡
                sorted_documents.append(documents[original_index])
        
        # 返回前 top_n 個文件
        return sorted_documents[:top_n]

    except requests.exceptions.RequestException as e:
        print(f"Error calling Ollama Rerank API: {e}")
        return documents # 如果出錯，回退到返回原始文件，不做重排


In [32]:

from langchain_core.runnables import RunnablePassthrough
import requests
import json


# --- 核心 RAG 鏈的修改 ---
rag_chain = (
    # 1. 檢索器獲取初步文件
    {"context": retriever_Chroma_db, "input": RunnablePassthrough()}
    # 2. 將檢索到的文件傳遞給自定義的 Ollama Reranker 函數
    | RunnablePassthrough.assign(
        context=lambda x: ollama_rerank_documents(
            documents=x["context"],
            query=x["input"],
            top_n=3 # 重排後取前 3 個文件
        )
    )
    # 3. 將重排後的上下文和原始輸入傳給 LLM 鏈
    | llm_chain
)

# 執行查詢
response1 = rag_chain.invoke("小王子為什麼離開他的星球？")

print("\n--- 最終回答 ---")
print("回答:", response1["answer"])

print("\n--- 參考文件內容 (經過 Ollama Reranker 重排後) ---")
if "context" in response1:
    for i, doc in enumerate(response1["context"]):
        print(f"文件 {i+1} (來源: {doc.metadata.get('source', '未知')}):")
        print(f"內容: {doc.page_content[:200]}...") # 打印部分內容
        print("-" * 20)
else:
    print("未找到參考文件。")

Error calling Ollama Rerank API: 405 Client Error: Method Not Allowed for url: http://dandelion-ollama-1:11434/api/tags

--- 最終回答 ---


TypeError: string indices must be integers

# ContextualCompressionRetriever

In [43]:
from langchain_ollama import OllamaLLM
from langchain.retrievers import ContextualCompressionRetriever
from langchain.retrievers.document_compressors import LLMChainExtractor

compressor_llm = OllamaLLM(
    base_url='http://dandelion-ollama-1:11434', # 請確保這是你 Ollama 服務的正確地址
    model="llama3.1:8b",
    temperature=0
)

compressor = LLMChainExtractor.from_llm(compressor_llm, prompt)

compression_retriever = ContextualCompressionRetriever(
    base_compressor=compressor,
    base_retriever=retriever_Chroma_db
)

compression_rag_chain = create_retrieval_chain(compression_retriever, llm_chain)

In [49]:
prompt

ChatPromptTemplate(input_variables=['context', 'input'], input_types={}, partial_variables={}, messages=[SystemMessagePromptTemplate(prompt=PromptTemplate(input_variables=['context'], input_types={}, partial_variables={}, template='您是一位精通《小王子》的專業讀者。請根據提供的「上下文」資料，以清晰、精確、客觀且深入的語氣回答關於《小王子》內容的各種問題。您的回答必須完全基於上下文，如果上下文未提及相關資訊，請明確表示「根據《小王子》的內容，此資訊未被提及」或「上下文未提供足夠的資訊來回答此問題」。請避免加入個人臆測或超出上下文的知識。上下文：{context}'), additional_kwargs={}), HumanMessagePromptTemplate(prompt=PromptTemplate(input_variables=['input'], input_types={}, partial_variables={}, template='{input}'), additional_kwargs={})])

In [47]:
response_pr = rag_chain.invoke("小王子為什麼離開他的星球？")

Error calling Ollama Rerank API: 404 Client Error: Not Found for url: http://dandelion-ollama-1:11434/api/rerank


In [45]:
response_prince

'根據《小王子》的內容，小王子離開他的星球是因為他愛上了太陽花。'

In [48]:
response_pr

'根據《小王子》的內容，小王子離開他的星球是因為他愛上了太陽花。'

In [51]:
!curl http://dandelion-ollama-1:11434/api/tags

{"models":[{"name":"xitao/bge-reranker-v2-m3:latest","model":"xitao/bge-reranker-v2-m3:latest","modified_at":"2025-07-24T11:00:37.776575975Z","size":1159775810,"digest":"c76d8249edc3fa7ce97ebc2e2303456b29b8341449e202871fe5f39aa163c4ab","details":{"parent_model":"","format":"gguf","family":"bert","families":["bert"],"parameter_size":"567.75M","quantization_level":"F16"}},{"name":"bge-m3:567m","model":"bge-m3:567m","modified_at":"2025-07-17T07:16:03.543988257Z","size":1157672605,"digest":"7907646426070047a77226ac3e684fbbe8410524f7b4a74d02837e43f2146bab","details":{"parent_model":"","format":"gguf","family":"bert","families":["bert"],"parameter_size":"566.70M","quantization_level":"F16"}},{"name":"snowflake-arctic-embed:137m","model":"snowflake-arctic-embed:137m","modified_at":"2025-07-17T04:12:15.728694689Z","size":274189495,"digest":"12616299a158799353f29e8697de067e7079f0a75abeb6a946bda70e1173a86c","details":{"parent_model":"","format":"gguf","family":"nomic-bert","families":["nomic-ber

e## 設定記憶體

## 強化專家 QA 助理的建議步驟

1. 精選高品質的知識庫 (Retriever)
* 資料來源：確保您的 Chroma 向量資料庫（或其他檢索器）包含了高度專業且權威的資料。這可能是學術論文、專業報告、行業標準、內部知識庫等。資料的質量直接決定了助理的「專家」程度。
* 分塊策略 (Chunking Strategy)：針對專業資料，可能需要更細緻的分塊策略，例如，按照段落、章節、或特定資訊單元來分塊，以確保檢索時能獲取到最精確的上下文。
  
2. 提示工程 (Prompt Engineering)
   * 設定專業身份
3. 加入文檔重排 (Document Reranking)
   * 引入一個重排器（例如，使用 Cohere Rerank 或 Cross-Encoder 模型）可以再次評估並排序這些文件，將最相關的文檔推到頂部，提供給 LLM 最精準的上下文。
4. 合適的 LLM 模型 (OllamaLLM / ChatOllama)
5. 嚴格的評估與迭代
   * 透過實際的專業問題集進行嚴格評估。
   * 評估指標應包括：答案的正確性、完整性、專業性、簡潔性以及無害性。

In [59]:

# from langchain_ollama import OllamaLLM
from langchain_core.prompts import ChatPromptTemplate
from langchain.chains import RetrievalQA
from langchain.chains import create_retrieval_chain
from langchain.chains.combine_documents import create_stuff_documents_chain


prompt = ChatPromptTemplate.from_messages([
    ("system", "Use the given context to answer the question. If you don't know the answer, say you don't know. Context: {context}"),
    ("human", "{input}"),
])
question_answer_chain = create_stuff_documents_chain(Chatllm, prompt)
rag_chain = create_retrieval_chain(retriever_FAISS, question_answer_chain)

response = rag_chain.invoke({"input": "小王子的性格如何？"})
print(response["answer"])


我不知道。


## 強化專家 QA 助理的建議步驟

1. 精選高品質的知識庫 (Retriever)
* 資料來源：確保您的 Chroma 向量資料庫（或其他檢索器）包含了高度專業且權威的資料。這可能是學術論文、專業報告、行業標準、內部知識庫等。資料的質量直接決定了助理的「專家」程度。
* 分塊策略 (Chunking Strategy)：針對專業資料，可能需要更細緻的分塊策略，例如，按照段落、章節、或特定資訊單元來分塊，以確保檢索時能獲取到最精確的上下文。
  
2. 提示工程 (Prompt Engineering)
   * 設定專業身份
3. 加入文檔重排 (Document Reranking)
   * 引入一個重排器（例如，使用 Cohere Rerank 或 Cross-Encoder 模型）可以再次評估並排序這些文件，將最相關的文檔推到頂部，提供給 LLM 最精準的上下文。
4. 合適的 LLM 模型 (OllamaLLM / ChatOllama)
5. 嚴格的評估與迭代
   * 透過實際的專業問題集進行嚴格評估。
   * 評估指標應包括：答案的正確性、完整性、專業性、簡潔性以及無害性。

In [None]:
# Setup the Retriever
from langchain_ollama import OllamaLLM
from langchain.chains import RetrievalQA

ollama_llm = OllamaLLM(
    base_url='http://dandelion-ollama-1:11434', 
    model="llama3.1:8b",
    temperature=0.0,
    num_predict=512
)

# 建立 RetrievalQA Chain
qa_chain = RetrievalQA.from_chain_type(
    llm=ollama_llm,
    retriever=retriever_Chroma_db.as_retriever(),
)

# 提問
query = "小王子的性格如何？"
result = qa_chain.invoke(query)
# print('提問:', query)
print("\n回答: ")
print(result)

## 驗證是否成功存入


In [None]:
persist_directory = "./Chroma_db"
# ½T«O¦b from_documents ©I¥s®É«ü©w collection_name¡A¥H«K¤§«á¥i¥H³z¹L¦WºÙÀò¨ú
collection_name = "test"

# vectorstore = Chroma.from_documents(
#     custom_chunks,
#     embeddings,
#     collection_name=collection_name,
#     persist_directory=persist_directory # ¦pªG¬O«ù¤[¤Æ¦sÀx
# )

# Àò¨ú Chroma «È¤áºÝ¨ÃÀË¬d¶°¦X­p¼Æ
# ¦pªG§A¬O±q«ù¤[¤Æ¥Ø¿ý¥[¸ü¡A»Ý­n¦A¦¸«ü©w¥Ø¿ý©M¶°¦X¦WºÙ
# loaded_vectorstore = Chroma(
#     persist_directory=persist_directory, # ¦pªG¬O«ù¤[¤Æ¦sÀx
#     embedding_function=embeddings,
#     collection_name=collection_name
# )

collection = vectorstore_2.get().get("ids") # 獲取所有 ID 以計算數量
if collection is not None:
    count = len(collection)
    print(f"Chroma 集合 '{collection_name}' 中有 {count} 個文件。")
    if count > 0:
        print("文件已成功存入 Chroma。")
    else:
        print("Chroma 集合中沒有文件。")
else:
    print("無法獲取 Chroma 集合訊息。")


In [None]:
query = "最常出現的字？"
results = vectorstore.similarity_search(query)

In [None]:
query = "最常出現的字？"
results = vectorstore_2.similarity_search(query)

In [65]:
# from langchain_community.vectorstores import Chroma
# from langchain_community.embeddings import OpenAIEmbeddings
# from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.storage import InMemoryStore
from langchain.retrievers import ParentDocumentRetriever

# ¥Î©ó³Ð«Ø¤÷¤å¥óªº¤å¥»¤À³Î¾¹
parent_splitter = RecursiveCharacterTextSplitter(chunk_size=2000)
# ¥Î©ó³Ð«Ø¤l¤å¥óªº¤å¥»¤À³Î¾¹
child_splitter = RecursiveCharacterTextSplitter(chunk_size=400)

# ¥Î©ó¯Á¤Þ¤l¶ôªº¦V¶qÀx¦s®w
vectorstore = Chroma.from_documents(custom_chunks, collection_name="split_parents", embedding_function=embeddings)
# ¥Î©ó¤÷¤å¥óªºÀx¦s¼h
store = InMemoryStore()

retriever = ParentDocumentRetriever(
    vectorstore=vectorstore,
    docstore=store,
    child_splitter=child_splitter,
    parent_splitter=parent_splitter # ¦pªG»Ý­n¤À³Î¤÷¤å¥ó
)
# ²K¥[¤å¥ó¨ìÀË¯Á¾¹
# retriever.add_documents(docs)
# ÀË¯Á
retrieved_docs = retriever.invoke("小王子的性格如何？")


TypeError: langchain_chroma.vectorstores.Chroma() got multiple values for keyword argument 'embedding_function'

In [63]:
retrieved_docs

[]