# 第 7 章 用 RAG 讓模型增加額外知識

In [1]:
import os
import json
import numpy as np

from rich import print as pprint

from langchain_chroma import Chroma
from langchain.indexes import VectorstoreIndexCreator
from langchain_openai import OpenAIEmbeddings, ChatOpenAI
from langchain_core.output_parsers import StrOutputParser
from langchain.tools.retriever import create_retriever_tool
from langchain.chains.summarize import load_summarize_chain
from langchain.agents import AgentExecutor, create_openai_tools_agent
from langchain_core.runnables.history import  RunnableWithMessageHistory
from langchain_core.runnables import RunnableParallel, RunnablePassthrough
from langchain_core.prompts import ChatPromptTemplate, MessagesPlaceholder
from langchain_community.document_loaders import PyPDFLoader, WebBaseLoader
from langchain_community.chat_message_histories import SQLChatMessageHistory
from langchain_text_splitters import HTMLHeaderTextSplitter, RecursiveJsonSplitter
from langchain_text_splitters import MarkdownHeaderTextSplitter, CharacterTextSplitter, RecursiveCharacterTextSplitter, TokenTextSplitter

USER_AGENT environment variable not set, consider setting it to identify your requests.


In [2]:
os.environ['OPENAI_API_KEY'] = "sk-None-vowLahS2p4mOq6FP56VCT3BlbkFJTY1umKuhsfu61iHTNVDc"
os.environ["GOOGLE_API_KEY"] = "AIzaSyCGtKgSU_XxaFGFbPCEt3H4uTmP3tOrAFg"

In [3]:
chat_model = ChatOpenAI(model='gpt-3.5-turbo', api_key=os.environ['OPENAI_API_KEY'], cache=False)

## 7-1 什麼是 RAG?
![diagram](./Ch7/RAG.png)
所謂的RAG (Retrieval-Augmented Generation)是指以檢索文件取得的資料擴展生成能力的做法。也就是讓模型在回答特定私人知識或公司知識相關的問題時，能從既有資料庫尋找答案。不過實務上不可能把整個資料庫送進去prompt中，因此一般而言會先製作memory (資料庫)。具體的方法如下：
1. 載入大量資料
2. 分割這些資料
3. 將這些分割後的資料embedding成一個一個一個向量
4. 儲存到資料庫之中。
資料庫有時候也會用knowledge graph來儲存知識。

在使用時，user的問題會先經過retriver，藉由一些方法(例如將問題embedding跟資料庫裡的東西計算cosine similarity)，找出最相似的數個結果，加入prompt中餵給LLM，讓其統整併輸出答案。

這一節中我們以建構一個汽車駕照考題的問答機器人為目標進行RAG的實作。

### 1. RAG 第一步：資料匯入
利用`PyPDFLoader`物件讀取PDF檔案。extract_images 設定 True 可以解析帶有圖片的 PDF。

In [4]:
loader = PyPDFLoader(file_path='https://ppt.cc/f9nc5x') # 汽車駕照筆試題庫
docs = loader.load()
pprint(docs[0])

在以前，我們常常用word2vec或BERT等模型為文字做embedding。不過OpenAI其實有自家的embedding model `text-embedding-3-large`。以此來對剛剛的文件進行embedding

In [5]:
embeddings_model=OpenAIEmbeddings(model='text-embedding-3-large')
index = VectorstoreIndexCreator(embedding=embeddings_model).from_loaders([loader])



In [6]:
query = "酒後開車且酒精濃度超過規定標準應罰款多少?"
response = index.query(llm=chat_model, question=query)
print(response)

酒後開車且酒精濃度超過規定標準的罰款金額是新臺幣30,000元至120,000元，并且當場移置保管該汽車及吊扣其駕駛執照。


### 2. RAG 第二步：資料分割
調用`page_content`屬性觀察文本內容

In [7]:
test_doc = docs[1].page_content[:200]
test_doc

'汽車法規是非題   \n第2頁/共36頁    \n題號 答案 題   目  分類\n編號  \n001  ○  尊重生命是駕駛道德最重要的一點，我們開車時要處處顧 及行人，尤\n其應該注意讓老弱婦孺身心障礙者優先通行。   10 \n002  X  遵守交通法規與秩序，只算是優良駕駛人，與駕駛道德無關。   10 \n003  ○  汽油著火時，應用滅火器、泥沙或用水浸濕棉被、衣服覆蓋撲滅。   07 \n00'

#### (1) 分割器的介紹
分割資料的方法有`CharacterTextSplitter`和`RecursiveCharacterTextSplitter`兩種物件可以選擇。`CharacterTextSplitter`會依照指定的字串分割文件，預設是以`\n\n`進行分割。`RecursiveCharacterTextSplitter`則是會依照設定的字串（可以有多個）依優先順序做分割。例如可以以`\n\n`為最優先（代表段落），再以逗號進行分割。這些物件分割後會回傳一個list，裡面是一個一個一個字串，稱為chunk。

先以`CharacterTextSplitter`為例，可以訂每個chunk的大小為10，並設定`chunk_overlap=2`使前一個chunk的最後兩個字元和下一個chunk的前兩個字元相同，增進模型對上下文的理解。

In [8]:
text_splitter = CharacterTextSplitter(separator='', chunk_size=10, chunk_overlap=2)
chunks = text_splitter.split_text(test_doc)

In [9]:
pprint(chunks)

至於`RecursiveCharacterTextSplitter`，在此例中因為駕照考試都是是非題，可以規定用O和X來做分割。分割字串優先於`chunk_size`，因此每個chunk可能更大

In [10]:
text_splitter = RecursiveCharacterTextSplitter(separators=['○','X'], chunk_size=10, chunk_overlap=3)
chunks = text_splitter.split_text(test_doc)

In [11]:
pprint(chunks)

也可以使用`TokenTextSplitter`物件，它是以GPT做出的分割器。不過，由於是以token為單位，會斷在奇怪的地方導致中文無法顯示，因此不建議使用。

In [12]:
text_splitter = TokenTextSplitter(model_name='gpt-4-turbo', chunk_size=10, chunk_overlap=2)
chunks = text_splitter.split_text(test_doc)
pprint(chunks)

#### (2) 以`RecursiveCharacterTextSplitter`物件處理整份題庫

In [13]:
text_splitter = RecursiveCharacterTextSplitter(separators=[' \n'], chunk_size=10, chunk_overlap=2)
chunks = text_splitter.split_documents(docs)
pprint(chunks[15:20])

## 7-2 Embedding 向量化

### 1. RAG 第三步：文字轉向量
使用剛剛的`OpenAIEmbeddings`物件進行embedding。它會將每個字串轉為向量。注意到`OpenAIEmbeddings`的input最多可為8192個token，而output向量維度最多分別為1536 (`text-embedding-3-small`)和3072 (`text-embedding-3-large`)。這也是預設值。但是要注意的是，只有在預設的output維度下這些向量才會被normalize，如果不是預設長度，必須手動將其normalize

In [14]:
embeddings_doc = [
    "我也會要其他人以後絕對不要再演奏那首歌的",
    "我們可以稍微談談嗎？",
    "我真的很珍惜CRYCHIC",
    "所以春日影擅自被人拿去演奏我也和小祥一樣難受",
    "希望妳能了解我的心情"
]
embeddings = embeddings_model.embed_documents(embeddings_doc)
len(embeddings[0])

3072

將問題也轉化為向量，並與`embeddings`中的諸向量計算cosine similarity

In [15]:
def cosine_similarity(a, b):
    return np.dot(a, b)

In [16]:
query = "哪首曲子被演奏了導致誰很難過"
embedded_query = embeddings_model.embed_query(query)

In [17]:
for doc_res, doc in zip(embeddings, embeddings_doc):
    similarity = cosine_similarity(embedded_query,doc_res)
    print(f'"{doc}" 與問題的相似度：{similarity}')

"我也會要其他人以後絕對不要再演奏那首歌的" 與問題的相似度：0.49861876862898147
"我們可以稍微談談嗎？" 與問題的相似度：0.19692883059235064
"我真的很珍惜CRYCHIC" 與問題的相似度：0.19033552818365082
"所以春日影擅自被人拿去演奏我也和小祥一樣難受" 與問題的相似度：0.505623092216064
"希望妳能了解我的心情" 與問題的相似度：0.283844177296534


### 2. RAG 第四步：儲存到向量資料庫 Chroma
RAG所使用的資料庫以向量的方式儲存文件。我們可以用`Chroma`來建立之。`collection_metadata`物件中，可以指定如何計算相似度，預設是`l2` (計算$L_2$ norm的平方)。也有`ip`的方法，代表1扣掉內積，而`cosine`為1扣掉cosine similarity。

In [18]:
Chroma.from_documents(documents=chunks,
                      embedding=embeddings_model,
                      persist_directory='./Ch7/db',
                      collection_metadata={"hnsw:space": "cosine"})

<langchain_chroma.vectorstores.Chroma at 0x1a864d4da90>

In [19]:
db = Chroma(persist_directory='./Ch7/db',
            embedding_function=embeddings_model)

檢索的方法有三種：
1. `search`方法，參數`k`代表依據`search_type`來看最相關的$k$筆資料
2. `max_marginal_relevance_search`方法，此方法則是會篩選掉內容差不多的資料
3. `similarity_search_by_vector`方法：傳回與查詢值相似的資料

In [20]:
pprint(db.search('紅燈右轉', k=2, search_type='similarity'))

In [21]:
pprint(db.max_marginal_relevance_search("紅燈右轉",k=2))

In [22]:
pprint(db.similarity_search_with_relevance_scores('紅燈右轉',k=2))

In [23]:
embedded_query = embeddings_model.embed_query("紅燈右轉")
pprint(db.similarity_search_by_vector(embedded_query ,k=2))

## 7-3 檢索對話流程鏈

#### 1. 建立檢索器給LLM使用
對資料庫物件使用`as_retriever`方法看看。檢索器的`search_type`可以設定`similarity`，`mmr`，`similarity_score_threshold`。

In [24]:
retriever = db.as_retriever(search_type="similarity", search_kwargs={"k": 6})

In [25]:
retrieved_docs = retriever.invoke("紅燈右轉")
print(f'傳回 {len(retrieved_docs)} 筆資料')

傳回 6 筆資料


建立prompt的模板，並以資料庫的檢索結果與使用者的提問做為參數。

In [26]:
str_parser = StrOutputParser()
template = (
    "請根據以下內容加上自身判斷回答問題:\n"
    "{context}\n"
    "問題: {question}"
    )
prompt = ChatPromptTemplate.from_template(template)

將chain串起來

In [27]:
chain = (
    {"context": retriever, "question": RunnablePassthrough()}
    | prompt
    | chat_model
    | str_parser
)

可以發現模型已經能就搜索結果回答問題。至於能不能答對又是另一個問題了。

In [28]:
print(chain.invoke("汽車駕駛人若喝酒後，會使反應遲延，視力變差。請問是否正確"))

根據提供的資料，多次提到飲酒後會使視覺能力變差，運動反射神經遲鈍，肇事率增加，因此汽車駕駛人若喝酒後，會使反應遲延，視力變差的說法是正確的。


In [29]:
for chunk in chain.stream("汽車駕駛人若喝酒後，會使反應遲延，視力增加。請問是否正確"): # 顯示文字接龍過程
    print(chunk, end="", flush=True)

根據提供的文件內容，顯示汽車駕駛人若喝酒後會使反應遲延，視力增加的描述是不正確的。喝酒後會使視力、聽覺以及判斷能力遲鈍，並不會增加視力。因此，這個描述是錯誤的。

### 2. 傳回關聯資料
現在的ChatGPT已經有能力回傳參考資料。我們也可以將資料庫中相關的資料回傳供使用者參考。我們定義一個函式`chat`做到這件事情。

In [30]:
rag_chain_from_docs = prompt | chat_model | StrOutputParser()

In [31]:
rag_chain_with_source = RunnableParallel({"context": retriever, "question": RunnablePassthrough()}).assign(answer=rag_chain_from_docs)

In [32]:
def chat(query):
    output = {}
    curr_key = None
    for chunk in rag_chain_with_source.stream(query):
        for key in chunk:
            if key not in output:
                output[key] = chunk[key]
            else:
                output[key] += chunk[key]
            if key != curr_key:
                print(f"\n\n{key}: {chunk[key]}", end="", flush=True)
            else:
                print(chunk[key], end="", flush=True)
            curr_key = key

In [33]:
chat("汽車駕駛人若喝酒後，會使反應遲延，視力變差。是否正確")



question: 汽車駕駛人若喝酒後，會使反應遲延，視力變差。是否正確

context: [Document(metadata={'page': 22, 'source': 'https://ppt.cc/f9nc5x'}, page_content=' \n410  X  汽車駕駛人若喝酒後，會使反應遲延，視力增加。   08'), Document(metadata={'page': 22, 'source': 'https://ppt.cc/f9nc5x'}, page_content=' \n410  X  汽車駕駛人若喝酒後，會使反應遲延，視力增加。   08'), Document(metadata={'page': 22, 'source': 'https://ppt.cc/f9nc5x'}, page_content=' \n410  X  汽車駕駛人若喝酒後，會使反應遲延，視力增加。   08'), Document(metadata={'page': 22, 'source': 'https://ppt.cc/f9nc5x'}, page_content=' \n409  ○  飲酒後，會使視覺能力變差，運動反射神經遲鈍，肇事率增加。   08'), Document(metadata={'page': 22, 'source': 'https://ppt.cc/f9nc5x'}, page_content=' \n409  ○  飲酒後，會使視覺能力變差，運動反射神經遲鈍，肇事率增加。   08'), Document(metadata={'page': 22, 'source': 'https://ppt.cc/f9nc5x'}, page_content=' \n409  ○  飲酒後，會使視覺能力變差，運動反射神經遲鈍，肇事率增加。   08')]

answer: 根據提供的資料，其中有三個文件指出飲酒後會使反應遲延，視力變差；而有三個文件則指出飲酒後會使視覺能力變差，運動反射神經遲鈍，肇事率增加。綜合來看，飲酒後確實會對駕駛人的反應速度和視覺能力產生負面影響，增加交通事故的風險。因此，汽車駕駛人若喝酒後，會使反應遲延，視力變差的說法是正確的。

In [34]:
chat("紅燈可以右轉。是否正確")



question: 紅燈可以右轉。是否正確

context: [Document(metadata={'page': 11, 'source': 'https://ppt.cc/f9nc5x'}, page_content=' \n200  ○  汽車在迴車前，應暫停並顯示左轉燈光或手勢，看清確無來往車輛，\n並注意行人通過，始得迴轉。   02'), Document(metadata={'page': 11, 'source': 'https://ppt.cc/f9nc5x'}, page_content=' \n200  ○  汽車在迴車前，應暫停並顯示左轉燈光或手勢，看清確無來往車輛，\n並注意行人通過，始得迴轉。   02'), Document(metadata={'page': 11, 'source': 'https://ppt.cc/f9nc5x'}, page_content=' \n200  ○  汽車在迴車前，應暫停並顯示左轉燈光或手勢，看清確無來往車輛，\n並注意行人通過，始得迴轉。   02'), Document(metadata={'page': 7, 'source': 'https://ppt.cc/f9nc5x'}, page_content=' \n137  ○  汽車右轉彎時，應先顯示前後右邊方向燈，或由駕駛人作左臂向上手\n掌向右微曲之手勢。   02'), Document(metadata={'page': 7, 'source': 'https://ppt.cc/f9nc5x'}, page_content=' \n137  ○  汽車右轉彎時，應先顯示前後右邊方向燈，或由駕駛人作左臂向上手\n掌向右微曲之手勢。   02'), Document(metadata={'page': 7, 'source': 'https://ppt.cc/f9nc5x'}, page_content=' \n137  ○  汽車右轉彎時，應先顯示前後右邊方向燈，或由駕駛人作左臂向上手\n掌向右微曲之手勢。   02')]

answer: 根據提供的文件內容，汽車右轉彎時應先顯示前後右邊方向燈或手勢，並注意行人和來往車輛，始得右轉。因此，紅燈時並不可以右轉，所以這個說法是不正確的。

### 3. 建立資料庫檢索工具供模型使用
#### (1) 建立檢索器功能
仿照前幾章的方法，建立工具給模型使用，並將模型包裝成agent

In [35]:
retriever = db.as_retriever(search_type="similarity", search_kwargs={"k": 6})

In [36]:
tool = create_retriever_tool(retriever=retriever,
                             name="retriever_by_car_regulations",
                             description="搜尋並返回汽車法規是非題內容")
tools = [tool]

In [37]:
prompt = ChatPromptTemplate.from_messages([('system','你是一位善用工具的好助理, 請自己判斷上下文來回答問題, 不要盲目地使用工具'),
                                           MessagesPlaceholder(variable_name="chat_history"),
                                           ('human','{input}'),
                                           MessagesPlaceholder(variable_name="agent_scratchpad")])

In [38]:
agent = create_openai_tools_agent(chat_model, tools, prompt)
agent_executor = AgentExecutor(agent=agent, tools=tools)

#### (2) 建立對話資料庫

In [39]:
db_file = "./Ch7/retriever.db"
local_db_path = os.path.join(os.getcwd(), db_file)
memory = SQLChatMessageHistory(session_id="test_id",
                               connection_string=f'sqlite:///{local_db_path}')

  warn_deprecated(


In [40]:
def window_messages(chain_input):
    if len(memory.messages) > 6:
        cur_messages = memory.messages
        memory.clear()
        for message in cur_messages[-6:]:
            memory.add_message(message)
    return

def add_history(agent_executor):
    agent_with_chat_history = RunnableWithMessageHistory(agent_executor,
                                                         lambda session_id: memory,
                                                         input_messages_key="input",
                                                         history_messages_key="chat_history")
    memory_chain = RunnablePassthrough.assign(messages=window_messages) | agent_with_chat_history
    return memory_chain

In [41]:
memory_chain = add_history(agent_executor)

#### (3) 開始對話
可能是由於langchain內部的問題，如果使用`memory_chain.stream`會有bug，導致模型無法檢索資料庫。因此先以`invoke`方法實作

In [42]:
while True:
    msg = input("我說：")
    if not msg.strip():
        break
    try:
        result = memory_chain.invoke({"input": msg}, config={"configurable": {"session_id": "test_id"}})
        if 'output' in result:
            print(f"AI 回覆：{result['output']}")
        print('\n')
    except ValueError as e:
        print(f"Error: {e}")

我說： 紅燈可以右轉嗎?


AI 回覆：根據汽車法規，當紅燈時不可以右轉。




我說： 高速公路超速的罰款是多少


AI 回覆：在高速公路超速的情況下，罰款為新臺幣 3,000 到 6,000元。




我說： 


## 7-4 總結文件的流程鏈
使用`WebBaseLoader`引入網頁

In [43]:
loader = WebBaseLoader("https://zh.wikipedia.org/wiki/MyGO!!!!!")
langchain_docs = loader.load()

In [44]:
text_splitter = RecursiveCharacterTextSplitter(chunk_size=200, chunk_overlap=10)
langchain_splits = text_splitter.split_documents(langchain_docs)

使用`load_summarize_chain`方法建立總結文件的流程鏈。此物件有多種不同的總結文件的方式，以下一一介紹：
### 1. Stuff法
將所有的文件一次餵給模型做摘要。優點是效果最好，缺點是可能超過token數限制。使用方法是設定`chain_type="stuff"`

In [45]:
language_prompt = '使用繁體中文和台灣用詞'
prompt = ChatPromptTemplate.from_messages([("system", "{language}總結以下內容：\n\n{text}")])\
                           .partial(language=language_prompt)

In [46]:
chain = load_summarize_chain(llm=chat_model, prompt=prompt, chain_type="stuff")
print(chain.invoke(langchain_splits)['output_text'])

MyGO!!!!!是一支日本女子摇滚乐队，作为日本跨媒体制作《BanG Dream!》的一部分。成员包括五名声优：主唱羊宫妃那、吉他手立石凛、主音吉他手青木阳菜、贝斯手小日向美香和鼓手林鼓子，分别扮演故事中的角色。

MyGO!!!!!于2022年4月27日正式成立，概念是“同步‘现实’和‘虚拟’的乐队”。直到2023年4月9日举办第4场演唱会时，才首次公布声优的身份。

电视动画《BanG Dream! It's MyGO!!!!!》于2023年6月29日首播。手游《BanG Dream! 少女乐团派对》收录了多首MyGO!!!!!的歌曲，而MyGO!!!!!本身也于2023年9月16日加入游戏。

MyGO!!!!!的音乐作品包括多张单曲CD和专辑CD，演唱会也相继举办。电视动画的故事概要围绕着主要角色的音乐成长和团队的故事展开，描绘了他们在音乐道路上的成长与挑战。整个故事充满了青春、友情和音乐的元素。


### 2. MapReduce法
這個方法會將個別文件先做摘要以後再做整合（稱為reduce），再以整合後的文字做一次摘要（稱為map）。這兩個動作分別以不同的prompt完成。設定`chain_type="map_reduce"`並給定map和reduce的prompt。優點是可以在沒有過多專有名詞或數據的文字總結文章，缺點是模型缺乏上下文的理解（因為是分別餵給模型的），花費時間較長，且因為多次摘要，比較花錢。

In [47]:
reduce_prompt = ChatPromptTemplate.from_messages(
    [("system", "{language}, 以下是文件內容：\n"
                "{text}\n"
                "將這些內容進行總結且保持核心內容")]
).partial(language=language_prompt)

map_prompt = ChatPromptTemplate.from_messages(
    [("system", "{language}, 以下是一組文件串列：\n"
                "{text}\n"
                "根據此文件串列, 請作摘要並確保核心內容")]
).partial(language=language_prompt)

In [48]:
chain = load_summarize_chain(llm=chat_model,
                             combine_prompt=reduce_prompt,
                             map_prompt=map_prompt,
                             chain_type="map_reduce")
print(chain.invoke(langchain_splits)['output_text'])

這份文件串列主要涵蓋了日本樂團MyGO!!!!!的相關資訊，包括樂團成員、音樂作品、演出活動、電視動畫《BanG Dream! It's MyGO!!!!!》等內容。樂團以活躍於演唱會舞台聞名，成員之間展現了友誼、挑戰和成長的故事，呈現出音樂世界中的熱情與感動。此外，文件串列還包含了關於其他樂隊和音樂家的故事劇情，展現了音樂界中各種動人和感人的故事。整體而言，這份文件提供了關於音樂、演出和樂團消息等多樣資訊，讓人值得一讀。


### 3. Refine法
此方法會先對第一個文件做摘要，接著將輸出與第二份文件結合，再做一次摘要。如此繼續，直到所有文件被處理完畢。優點是較為全面，但缺點是這方法最花時間也最花錢。設定`chain_type="refine"`來完成這件事情

In [49]:
prompt = ChatPromptTemplate.from_messages(
    [("system", "{language}, 以下是文件的開頭內容：\n"
                "{text}\n"
                "將這些內容進行總結且保持核心內容")]
).partial(language=language_prompt)

refine_prompt = ChatPromptTemplate.from_messages(
    [("system", "{language}, 你的工作是撰寫綜合摘要\n"
                "這是目前的摘要成果：{existing_answer}\n"
                "藉由底下的額外內容"
                "（若需要的話）請再補強摘要內容：\n"
                "------------\n"
                "{text}\n"
                "------------\n"
                "如果這些額外內容沒有用，請返回原始摘要。")
    ]
).partial(language=language_prompt)

In [50]:
chain = load_summarize_chain(chat_model,
                             question_prompt=prompt,
                             refine_prompt=refine_prompt,
                             chain_type="refine")
print(chain.invoke(langchain_splits)['output_text'])

根據提供的额外資訊和原始摘要，《未來之神》劇集的製作團隊非常重視角色和劇情的重要性，尤其將新樂隊MyGO!!!!!的加入視為劇情探討的關鍵元素。MyGO!!!!! 通過不同單曲和現場演出持續為劇集帶來活力、魅力和音樂上的驚喜，預示劇情將有更豐富的發展和新元素引入，提升對粉絲和觀眾的吸引力。最新單曲「端程山」和「碧天伴走」將探討成員個人故事，豐富劇情的深度和情感，為觀眾帶來更豐富的觀賞體驗。MyGO!!!!! 的音樂地位穩固，預示他們將持續為劇集帶來驚喜和精彩表現。MyGO!!!!! 的首張專輯「迷跡波」即將發行，收錄劇集中的重要曲目，為觀眾帶來更多音樂上的驚喜和樂趣。MyGO!!!!!以"寄り添う覚悟" 和五個拳頭的姿態迎接每一天，展現他們對音樂和表演的承諾和態度。此外，MyGO!!!!!將於2024年舉辦"彷徨する渇望"巡迴演出，展現他們對音樂事業的持續努力和表演活動的精彩未來。在合同演出「Divide/Unite」和第六次LIVE演出「見つけた景色、たずさえて」中，MyGO!!!!!將繼續展現他們的音樂魅力和舞台表現，為粉絲和觀眾帶來更多驚喜和感動。另外，MyGO!!!!!將參與新動畫《Ave Mujica》的製作，預示著他們在音樂領域的活躍和多元合作，為未來演出和音樂創作帶來更多期待和可能性。劇場版續篇新作《Ave Mujica》預計明年1月開播，進一步擴大MyGO!!!!!的影響力和知名度。製作人員對MyGO!!!!!的期待和支持也凸顯了這個樂隊在劇集中的重要性和影響力，而MyGO!!!!!對未來的承諾和表現將持續吸引更多粉絲和觀眾。劇集《未來之神》將於06/29開播，每週四21:35後各大平台陸續更新，讓觀眾期待更多MyGO!!!!!的精彩表現。動畫新番《未來之神》已在香港YouTube頻道上線，展現劇集的初始魅力和故事情節。MyGO!!!!!的音樂作品將於2024年5月13日在B站限時播出，進一步擴大了這個樂隊的影響力和知名度。透過MyGO!!!!!在社群媒體上的活動和合作，以及他們與《Ave Mujica》等新作的參與，MyGO!!!!!將積極擴大他們的影響力和音樂事業，為粉絲和觀眾帶來更多精彩和驚喜。藤都子、千石悠野是前成員，遠藤祐里香和明坂聰美也是成員之一。MyGO!!!!!的成功表現和未來展望顯示出他們在音樂界中的重要地位，並預示著他們將持續帶來

## 7-5 其他的分割器

### 1. `json`檔案切割器`RecursiveJsonSplitter`

In [51]:
# Define the path to the JSON file
file_path = './Ch7/soyo.json'

# Open and read the JSON file
with open(file_path, 'r', encoding='utf-8') as file:
    json_example = json.load(file)

設定最大的chunk大小為30。並設定`convert_lists=True`使json格式中的串列轉為以索引為key的字典。

In [52]:
splitter = RecursiveJsonSplitter(max_chunk_size=30)
docs = splitter.create_documents(texts=[json_example], convert_lists=True)
pprint(docs[:5])

### 2. markdown分割器

In [53]:
md = '''
# 時間管理的藝術

時間管理是一項關鍵技能，可以幫助個人有效地利用時間，提高生產力和效率。
本文件旨在提供一些基本的時間管理技巧，幫助讀者更好地規劃和利用自己的時間。

## 為什麼時間管理如此重要？

在快節奏的現代生活中，時間成為了一種寶貴的資源。
良好的時間管理不僅可以幫助我們完成更多的工作，還可以提高生活質量，
給予我們更多時間去追求個人興趣和與家人、朋友相處的時光。

## 基本時間管理技巧

### 設定目標

- **確定優先順序**：了解哪些任務最重要，哪些可以稍後處理。
- **SMART目標**：設定具體（Specific）、可衡量（Measurable）、
可達成（Achievable）、相關（Relevant）、時間限定（Time-bound）的目標。

### 規劃你的時間

- **每日計劃**：每天制定一個實際可行的待辦事項清單。
- **時間塊劃分**：將一天分成幾個時間塊，每個時間塊分配特定的任務。

### 避免拖延

- **使用番茄工作法**：專注工作25分鐘，然後休息5分鐘。
- **設定獎勵**：完成任務後給自己一些小獎勵。

## 工具和應用

- **Google Calendar**：用於時間規劃和會議安排。
- **Trello**：一個項目管理工具，有助於跟蹤任務和進度。
- **Pomodoro Timer**：一個簡單的線上番茄鐘工具。

## 結語

有效的時間管理要求持之以恆的努力和自我反思。透過實踐上述技巧，
您將能夠更有效地利用您的時間，達成個人和專業目標，同時享有更豐富的個人生活。
'''

利用`#`的數量不同來做切割。參數`strip_headers`如果是`False`則會保留標題，反之則將標題移除。預設為`True`

In [54]:
headers_to_split_on = [("#", "Header 1"),
                       ("##", "Header 2"),
                       ("###", "Header 3")]

markdown_splitter = MarkdownHeaderTextSplitter(headers_to_split_on=headers_to_split_on, strip_headers=False)
md_header_splits = markdown_splitter.split_text(md)
pprint(md_header_splits)

可以再使用`RecursiveCharacterTextSplitter`物件進一步切割

In [55]:
chunk_size = 50
chunk_overlap = 10

text_splitter = RecursiveCharacterTextSplitter(chunk_size=chunk_size, chunk_overlap=chunk_overlap)
splits = text_splitter.split_documents(md_header_splits)
pprint(splits[:2])

### 3. html

In [56]:
url = "https://zh.wikipedia.org/wiki/MyGO!!!!!"

headers_to_split_on = [("h1", "Header 1"),
                       ("h2", "Header 2"),
                       ("h3", "Header 3"),
                       ("h4", "Header 4")]

html_splitter = HTMLHeaderTextSplitter(headers_to_split_on=headers_to_split_on)
html_header_splits = html_splitter.split_text_from_url(url)
pprint(html_header_splits)

由於每個段落都很長，可再用`RecursiveCharacterTextSplitter`分割一次

In [57]:
chunk_size = 500
chunk_overlap = 30
text_splitter = RecursiveCharacterTextSplitter(chunk_size=chunk_size, chunk_overlap=chunk_overlap)

splits = text_splitter.split_documents(html_header_splits)
pprint(splits[5:8])

### 4. 程式碼分割器

In [58]:
from langchain_text_splitters import Language

`Language`物件支援許多種程式語言

In [59]:
[e.value for e in Language]

['cpp',
 'go',
 'java',
 'kotlin',
 'js',
 'ts',
 'php',
 'proto',
 'python',
 'rst',
 'ruby',
 'rust',
 'scala',
 'swift',
 'markdown',
 'latex',
 'html',
 'sol',
 'csharp',
 'cobol',
 'c',
 'lua',
 'perl',
 'haskell',
 'elixir']

如果要調用常見的程式語言所用的分割字串，可以用`get_separators_for_language`方法查詢

In [60]:
RecursiveCharacterTextSplitter.get_separators_for_language(Language.PYTHON)

['\nclass ', '\ndef ', '\n\tdef ', '\n\n', '\n', ' ', '']

In [61]:
python_code = """
def hello_world():
    print("Hello, World!")

# 呼叫函式
hello_world()
"""

可看到根據`'\n\n'`分割成了兩部分。

In [62]:
python_splitter = RecursiveCharacterTextSplitter.from_language(language=Language.PYTHON, chunk_size=50, chunk_overlap=0)
python_docs = python_splitter.create_documents([python_code])
for doc in python_docs:
    print(doc.page_content)
    print('.'*10)

def hello_world():
    print("Hello, World!")
..........
# 呼叫函式
hello_world()
..........
