# 第 7 章 用 RAG 讓模型增加額外知識

In [None]:
!pip install langchain langchain_openai rich

Collecting langchain
  Downloading langchain-0.1.17-py3-none-any.whl (867 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m867.6/867.6 kB[0m [31m5.9 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting langchain_openai
  Downloading langchain_openai-0.1.5-py3-none-any.whl (34 kB)
Collecting dataclasses-json<0.7,>=0.5.7 (from langchain)
  Downloading dataclasses_json-0.6.5-py3-none-any.whl (28 kB)
Collecting jsonpatch<2.0,>=1.33 (from langchain)
  Downloading jsonpatch-1.33-py2.py3-none-any.whl (12 kB)
Collecting langchain-community<0.1,>=0.0.36 (from langchain)
  Downloading langchain_community-0.0.36-py3-none-any.whl (2.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.0/2.0 MB[0m [31m11.9 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting langchain-core<0.2.0,>=0.1.48 (from langchain)
  Downloading langchain_core-0.1.48-py3-none-any.whl (302 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m302.9/302.9 kB[0m [31m16.4 MB/s[0m eta

In [None]:
# 匯入套件和金鑰
from google.colab import userdata
from rich import print as pprint
import os
os.environ['OPENAI_API_KEY'] = userdata.get('OPENAI_API_KEY')
from langchain_openai import ChatOpenAI
chat_model = ChatOpenAI()

## 7-1 什麼是 RAG?

### RAG 第一步：資料匯入

In [None]:
!pip install pypdf chromadb rapidocr-onnxruntime

Collecting pypdf
  Downloading pypdf-4.2.0-py3-none-any.whl (290 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m290.4/290.4 kB[0m [31m4.8 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting chromadb
  Downloading chromadb-0.5.0-py3-none-any.whl (526 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m526.8/526.8 kB[0m [31m10.2 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting rapidocr-onnxruntime
  Downloading rapidocr_onnxruntime-1.3.17-py3-none-any.whl (14.9 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m14.9/14.9 MB[0m [31m31.0 MB/s[0m eta [36m0:00:00[0m
Collecting chroma-hnswlib==0.7.3 (from chromadb)
  Downloading chroma_hnswlib-0.7.3-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (2.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.4/2.4 MB[0m [31m47.4 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting fastapi>=0.95.2 (from chromadb)
  Downloading fastapi-0.110.3-py3-none-any.whl (91 kB)
[

extract_images 設定 True 可以解析帶有圖片的 PDF

In [None]:
from langchain_community.document_loaders import PyPDFLoader
loader = PyPDFLoader(file_path='https://ppt.cc/f9nc5x')

In [None]:
docs = loader.load()
pprint(docs[0])

In [None]:
from langchain.indexes import VectorstoreIndexCreator
from langchain_openai import OpenAIEmbeddings
embeddings_model=OpenAIEmbeddings(model='text-embedding-3-large')
index = VectorstoreIndexCreator(
    embedding=embeddings_model).from_loaders([loader])

In [None]:
query = "酒後開車且酒精濃度超過規定標準應罰款多少?"
response = index.query(llm=chat_model, question=query)
print(response)

如果酒後開車且酒精濃度超過規定標準，根據提供的汽車法規資訊，應處以新臺幣30,000至120,000元的罰鍰。


### RAG 第二步：資料分割

In [None]:
test_doc = docs[1].page_content[:200]
test_doc

'汽車法規是非題   \n第2頁/共36頁    \n題號 答案 題   目  分類\n編號  \n001  ○  尊重生命是駕駛道德最重要的一點，我們開車時要處處顧 及行人，尤\n其應該注意讓老弱婦孺身心障礙者優先通行。   10 \n002  X  遵守交通法規與秩序，只算是優良駕駛人，與駕駛道德無關。   10 \n003  ○  汽油著火時，應用滅火器、泥沙或用水浸濕棉被、衣服覆蓋撲滅。   07 \n00'

In [None]:
from langchain_text_splitters import (
    CharacterTextSplitter, RecursiveCharacterTextSplitter)

In [None]:
text_splitter = CharacterTextSplitter(separator='',
                                      chunk_size=10,
                                      chunk_overlap=2)
chunks = text_splitter.split_text(test_doc)
pprint(chunks)

In [None]:
text_splitter = RecursiveCharacterTextSplitter(separators=['○','X'],
                                               chunk_size=10,
                                               chunk_overlap=3)
chunks = text_splitter.split_text(test_doc)
pprint(chunks)

In [None]:
from langchain_text_splitters import TokenTextSplitter
text_splitter = TokenTextSplitter(chunk_size=10,
                                  chunk_overlap=2)
chunks = text_splitter.split_text(test_doc)
pprint(chunks)

In [None]:
from langchain_text_splitters import TokenTextSplitter
text_splitter = TokenTextSplitter(model_name='gpt-4-turbo',
                                  chunk_size=10,
                                  chunk_overlap=2)
chunks = text_splitter.split_text(test_doc)
pprint(chunks)

In [None]:
text_splitter = RecursiveCharacterTextSplitter(separators=[' \n'],
                                               chunk_size=10,
                                               chunk_overlap=2)
chunks = text_splitter.split_documents(docs)
pprint(chunks[15:20])

## 7-2 Embedding 向量化

### RAG 第三步：文字轉向量

In [None]:
embeddings_doc = [
    "天空是藍色的",
    "天空不是紅色的",
    "sky is blue",
    "莓果是藍色的",
    "我今天吃了漢堡"
]
embeddings = embeddings_model.embed_documents(embeddings_doc)
len(embeddings[0])

3072

In [None]:
query = "天空的顏色是？"
embedded_query = embeddings_model.embed_query(query)

餘弦相似度

In [None]:
import numpy as np
def cosine_similarity(a, b):
    return np.dot(a, b)

In [None]:
for doc_res, doc in zip(embeddings, embeddings_doc):
    similarity = cosine_similarity(embedded_query,doc_res)
    print(f'"{doc}" 與問題的相似度：{similarity}')

"天空是藍色的" 與問題的相似度：0.7518601571046652
"天空不是紅色的" 與問題的相似度：0.6953254880809308
"sky is blue" 與問題的相似度：0.5886082651020517
"莓果是藍色的" 與問題的相似度：0.36777005752314007
"我今天吃了漢堡" 與問題的相似度：0.08466408965632069


### RAG 第四步：儲存到向量資料庫 Chroma

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
from langchain_community.vectorstores import Chroma
Chroma.from_documents(documents=chunks,
                      embedding=embeddings_model,
                      persist_directory='/content/drive/MyDrive/db',
                      collection_metadata={"hnsw:space": "cosine"})

<langchain_community.vectorstores.chroma.Chroma at 0x79a9d6cb2230>

hnsw:space 有 l2、ip、cosine

In [None]:
db = Chroma(persist_directory='/content/drive/MyDrive/db',
            embedding_function=embeddings_model)

In [None]:
pprint(db.search('紅燈右轉', k=2, search_type='similarity'))

In [None]:
pprint(db.max_marginal_relevance_search("紅燈右轉",k=2))

In [None]:
pprint(db.similarity_search_with_relevance_scores('紅燈右轉',k=2))

In [None]:
embedded_query = embeddings_model.embed_query("紅燈右轉")
pprint(db.similarity_search_by_vector(embedded_query ,k=2))

## 7-3 檢索對話流程鏈

檢索器的search_type可以設定 similarity、mmr、similarity_score_threshold

In [None]:
retriever = db.as_retriever(search_type="similarity",
                            search_kwargs={"k": 6})

In [None]:
retrieved_docs = retriever.invoke("紅燈右轉")
print(f'傳回 {len(retrieved_docs)} 筆資料')

傳回 6 筆資料


In [None]:
from langchain_core.output_parsers import StrOutputParser
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.runnables import RunnablePassthrough

In [None]:
str_parser = StrOutputParser()
template = (
    "請根據以下內容加上自身判斷回答問題:\n"
    "{context}\n"
    "問題: {question}"
    )
prompt = ChatPromptTemplate.from_template(template)

In [None]:
chain = (
    {"context": retriever, "question": RunnablePassthrough()}
    | prompt
    | chat_model
    | str_parser
)

In [None]:
print(chain.invoke("汽車駕駛人若喝酒後，會使反應遲延，視力變差。請問是否正確"))

根據提供的資訊，有兩個文件表示飲酒後會使視力能力變差和運動反射神經遲鈍，另一個文件則表示喝酒會使反應遲延和視力增加。根據多數文件的內容來看，汽車駕駛人若喝酒後，會使反應遲延，視力變差的說法是正確的。


In [None]:
for chunk in chain.stream("汽車駕駛人若喝酒後，會使反應遲延，視力增加。請問是否正確"):
    print(chunk, end="", flush=True)

根據以上提供的內容，其中有一個文件指出飲酒後會使視覺能力變差，運動反射神經遲鈍，肇事率增加，而另一個文件則指出飲酒後會使反應遲延，視力增加。基於這兩個文件的內容，可以得知汽車駕駛人若喝酒後，會使反應遲延，視力增加這個說法是不正確的。因此，這個說法並不正確。

### 傳回關聯資料

In [None]:
rag_chain_from_docs = (
    prompt
    | chat_model
    | StrOutputParser()
)

In [None]:
from langchain_core.runnables import RunnableParallel

rag_chain_with_source = RunnableParallel(
    {"context": retriever, "question": RunnablePassthrough()}
).assign(answer=rag_chain_from_docs)

In [None]:
def chat(query):
    output = {}
    curr_key = None
    for chunk in rag_chain_with_source.stream(query):
        for key in chunk:
            if key not in output:
                output[key] = chunk[key]
            else:
                output[key] += chunk[key]
            if key != curr_key:
                print(f"\n\n{key}: {chunk[key]}", end="", flush=True)
            else:
                print(chunk[key], end="", flush=True)
            curr_key = key
chat("汽車駕駛人若喝酒後，會使反應遲延，視力變差。是否正確")



question: 汽車駕駛人若喝酒後，會使反應遲延，視力變差。是否正確

context: [Document(page_content=' \n410  X  汽車駕駛人若喝酒後，會使反應遲延，視力增加。   08', metadata={'page': 22, 'source': 'https://ppt.cc/f9nc5x'}), Document(page_content=' \n409  ○  飲酒後，會使視覺能力變差，運動反射神經遲鈍，肇事率增加。   08', metadata={'page': 22, 'source': 'https://ppt.cc/f9nc5x'}), Document(page_content=' \n013  X  一個人飲酒後，雖然視力、聽覺以及判斷能力，都會變為遲鈍，但在\n其本人的感覺來說，卻很舒暢，所以酒後可以駕駛汽車。   08', metadata={'page': 1, 'source': 'https://ppt.cc/f9nc5x'}), Document(page_content=' \n398  ○  汽車行駛速度愈快，駕駛人的視野變窄、視力變差。   10', metadata={'page': 21, 'source': 'https://ppt.cc/f9nc5x'}), Document(page_content=' \n302  X  在高速行車狀況下，駕駛人視覺與平時一樣，沒有一點影響。   03', metadata={'page': 16, 'source': 'https://ppt.cc/f9nc5x'}), Document(page_content=' \n238  ○  駕駛人酒精濃度超過規定標準，駕車肇事致人重傷或死亡者，除處罰\n鍰外，吊銷其駕照，並不得再考領。但符合特定條件，且所受吊銷駕\n駛執照處分，執行已逾相關規定期間，並依規定完成酒駕防制教育或\n酒癮治療者，不在此限。   08', metadata={'page': 13, 'source': 'https://ppt.cc/f9nc5x'})]

answer: 是正確的。根據提供的文獻內容，喝酒後會使汽車駕駛人的反應遲延，視力變差，這些因素都會增加肇事的風險。因此，駕駛人喝酒後應該避免駕駛汽車，以確保自

In [None]:
chat("紅燈可以右轉。是否正確")



question: 紅燈可以右轉。是否正確

context: [Document(page_content=' \n447  X  在交岔路口等候左轉之車輛，綠燈亮時即可搶先左轉。   02', metadata={'page': 24, 'source': 'https://ppt.cc/f9nc5x'}), Document(page_content=' \n200  ○  汽車在迴車前，應暫停並顯示左轉燈光或手勢，看清確無來往車輛，\n並注意行人通過，始得迴轉。   02', metadata={'page': 11, 'source': 'https://ppt.cc/f9nc5x'}), Document(page_content=' \n137  ○  汽車右轉彎時，應先顯示前後右邊方向燈，或由駕駛人作左臂向上手\n掌向右微曲之手勢。   02', metadata={'page': 7, 'source': 'https://ppt.cc/f9nc5x'}), Document(page_content=' \n235  ○  汽車行駛至交岔路口，欲右轉彎時，應距交岔路口 30公尺前，顯示\n方向燈或手勢，換入外側車道、右轉車道或慢車道，行至路口後再行\n右轉。  02 ', metadata={'page': 12, 'source': 'https://ppt.cc/f9nc5x'}), Document(page_content=' \n375  ○  汽車駕駛人行經有燈光號誌管制之交岔路口，紅燈右轉者，處新臺幣\n600～1,800元罰鍰。   02', metadata={'page': 20, 'source': 'https://ppt.cc/f9nc5x'}), Document(page_content=' \n452  X  行車欲超越前方車輛，應先打右方向燈。   04', metadata={'page': 24, 'source': 'https://ppt.cc/f9nc5x'})]

answer: 根據提供的資料，紅燈右轉者將會被處以罰鍰，因此紅燈時不可以右轉，這是不正確的。

### RAG 集大成：建立檢索對話代理

In [None]:
from langchain.tools.retriever import create_retriever_tool

tool = create_retriever_tool(
    retriever=retriever,
    name="retriever_by_car_regulations",
    description="搜尋並返回汽車法規是非題內容",
)
tools = [tool]

In [None]:
from langchain_core.prompts import MessagesPlaceholder
prompt = ChatPromptTemplate.from_messages([
    ('system','你是一位善用工具的好助理, '
              '請自己判斷上下文來回答問題, 不要盲目地使用工具'),
    MessagesPlaceholder(variable_name="chat_history"),
    ('human','{input}'),
    MessagesPlaceholder(variable_name="agent_scratchpad")
])

In [None]:
from langchain.agents import (
    AgentExecutor, create_openai_tools_agent)

agent = create_openai_tools_agent(chat_model, tools, prompt)
agent_executor = AgentExecutor(agent=agent, tools=tools)

In [None]:
from langchain_community.chat_message_histories import (
    SQLChatMessageHistory)
from langchain_core.runnables.history import (
    RunnableWithMessageHistory)

memory = SQLChatMessageHistory(
        session_id="test_id",
        connection_string='sqlite:////content/drive/MyDrive/retriever.db'
    )

def window_messages(chain_input):
    if len(memory.messages) > 6:
        cur_messages = memory.messages
        memory.clear()
        for message in cur_messages[-6:]:
            memory.add_message(message)
    return

def add_history(agent_executor):
    agent_with_chat_history = RunnableWithMessageHistory(
        agent_executor,
        lambda session_id: memory,
        input_messages_key="input",
        history_messages_key="chat_history",
    )
    memory_chain = (
        RunnablePassthrough.assign(messages=window_messages)
        | agent_with_chat_history
    )
    return memory_chain

In [None]:
memory_chain = add_history(agent_executor)

In [None]:
while True:
    msg = input("我說：")
    if not msg.strip():
        break
    for chunk in memory_chain.stream(
        {"input": msg},
        config={"configurable": {"session_id": "test_id"}}):
        if 'output' in chunk:
            print(f"AI 回覆：{chunk['output']}", end="", flush=True)
    print('\n')

我說：汽車駕駛人若喝酒後，會使反應遲延，視力變差。是否正確
AI 回覆：根據汽車法規，飲酒後會使視覺能力變差，運動反射神經遲鈍，肇事率增加。因此，汽車駕駛人喝酒後的反應確實會變慢，視力也會變差，這是正確的說法。

我說：紅燈可以右轉嗎?
AI 回覆：根據汽車法規，紅燈時不可以右轉，違反紅燈右轉者將會面臨罰款。因此，紅燈時不可以進行右轉。

我說：左轉不應該禮讓直行車
AI 回覆：根據汽車法規，左轉車應該要遵守交通號誌，並且在有交通號誌規定的情況下，要給予直行車輛優先通行權。因此，左轉車應該要禮讓直行車輛。

我說：


## 7-4 總結文件的流程鏈

In [None]:
from langchain_community.document_loaders import WebBaseLoader

loader = WebBaseLoader("https://blog.langchain.dev/nvidia-nim/")
langchain_docs = loader.load()

In [None]:
text_splitter = RecursiveCharacterTextSplitter(chunk_size=200,
                                               chunk_overlap=10)
langchain_splits = text_splitter.split_documents(langchain_docs)

### 不同的總結方式

stuff

In [None]:
language_prompt = '使用繁體中文和台灣用詞'
prompt = ChatPromptTemplate.from_messages(
    [("system", "{language}總結以下內容：\n\n{text}")]
).partial(language=language_prompt)

In [None]:
from langchain.chains.summarize import load_summarize_chain
chain = load_summarize_chain(llm=chat_model,
                             prompt=prompt,
                             chain_type="stuff")
print(chain.invoke(langchain_splits)['output_text'])

LangChain整合NVIDIA NIM，以優化GPU的LLM推論於RAG中。

NVIDIA NIM是一組易於使用的微服務，旨在加速企業中生成式人工智慧的部署。這個多功能運行時支援廣泛的AI模型，從開源社區模型到NVIDIA AI基礎模型，以及自定義AI模型。開發者可以利用行業標準的API快速建立企業級AI應用，只需幾行程式碼。NIM建立在堅固的基礎上，包括像NVIDIA Triton推理伺服器、NVIDIA TensorRT、NVIDIA TensorRT-LLM和PyTorch等推理引擎，旨在促進規模化無縫AI推論，確保您能夠信心滿滿地在任何地方部署AI應用。對於那些轉向將LLM應用從原型化轉為生產環境的企業，LangChain對整合NVIDIA NIM感到非常興奮。

LangChain新增了支援NIM的整合套件，以開始整合，您需要安裝我們專用的整合套件：pip install langchain_nvidia_ai_endpoints。接著，您可以匯入模型，例如：from langchain_nvidia_ai_endpoints import NVIDIAEmbeddings, ChatNVIDIA。

LangChain整合了NVIDIA NIM，以支援GPU優化的LLM推論於RAG中，進一步提升企業AI應用的效率和性能。


MapReduce

In [None]:
reduce_prompt = ChatPromptTemplate.from_messages(
    [("system", "{language}, 以下是文件內容：\n"
                "{text}\n"
                "將這些內容進行總結且保持核心內容")]
).partial(language=language_prompt)

map_prompt = ChatPromptTemplate.from_messages(
    [("system", "{language}, 以下是一組文件串列：\n"
                "{text}\n"
                "根據此文件串列, 請作摘要並確保核心內容")]
).partial(language=language_prompt)

In [None]:
chain = load_summarize_chain(llm=chat_model,
                             combine_prompt=reduce_prompt,
                             map_prompt=map_prompt,
                             chain_type="map_reduce")
print(chain.invoke(langchain_splits)['output_text'])

，這份文件串列主要介紹了LangChain如何整合NVIDIA NIM進行GPU優化的LLM推論，以提高推論效率和速度。同時也包含了LangSmith文件的應用和高級檢索方法HyDE，以及相關的套件安裝和模組功能。此外，文件還涵蓋了環境永續發展、農村發展計畫、合作消息等主題，強調永續發展的重要性並提出解決方案和合作計畫。整體而言，這份文件串列提供了豐富的資訊，幫助讀者了解如何應用NVIDIA NIM和LangChain進行GPU優化的LLM推論，並探索相關的應用和技術挑戰，同時也呼應了環境永續發展的重要性和合作共識。


In [None]:
prompt = ChatPromptTemplate.from_messages(
    [("system", "{language}, 以下是文件的開頭內容：\n"
                "{text}\n"
                "將這些內容進行總結且保持核心內容")]
).partial(language=language_prompt)

refine_prompt = ChatPromptTemplate.from_messages(
    [("system", "{language}, 你的工作是撰寫綜合摘要\n"
                "這是目前的摘要成果：{existing_answer}\n"
                "藉由底下的額外內容"
                "（若需要的話）請再補強摘要內容：\n"
                "------------\n"
                "{text}\n"
                "------------\n"
                "如果這些額外內容沒有用，請返回原始摘要。")
    ]
).partial(language=language_prompt)

In [None]:
chain = load_summarize_chain(chat_model,
                             question_prompt=prompt,
                             refine_prompt=refine_prompt,
                             chain_type="refine")
print(chain.invoke(langchain_splits)['output_text'])

在這段程式碼示範中，我們展示了如何使用 prompt、model 和 StrOutputParser 來建立一個最終的鏈結，並結合假設的文件檢索器來回答問題。透過這個最終鏈結，我們可以更有效地處理問題並提供答案。此外，Rakuten Group 利用 LangChain 和 LangSmith 打造出優質產品，為其商業客戶和員工提供服務。程式碼包括了對於問題的文件檢索以及對回答鏈結的串流處理，進一步強化了程式的功能和應用價值。在程式中，我們使用 yield 回傳 tokens 以便串流最終鏈結，讓我們一起來試試看：for s in final_chain.stream("how can langsmith help with testing"): print(s, end="")。這段程式碼充分展示了如何透過串流處理來處理最終鏈結，提升了程式的效率和實用性。進一步，這個程式也提供了Tags By LangChain，並鼓勵用戶訂閱通訊以獲取LangChain團隊和社群的更新。在訂閱過程中，系統會處理您的申請，若成功您將收到確認訂閱的連結，若有任何錯誤發生，請再試一次。這些額外內容進一步強化了程式的全面性和用途，讓整體功能更加完善。此外，還有有關Reflection Agents、Plan-and-Execute Agents和LangChain釋出註記的內容，這些內容也補充了程式的資訊，讓使用者更深入了解LangChain的相關內容。LangChain 在 2/5 週釋出了新版本，並與 CommandBar 合作推出 Copilot 使用者助手，這些新訊息進一步擴展了 LangChain 的應用範疇。


## 7-5 其他的分割器

In [None]:
json_example={
    "school": {
        "name": "精英中學",
        "address": {
            "street": "高科技大道200號",
            "city": "台北",
            "zip_code": "100"
        },
        "departments": [
            {
                "name": "數學系",
                "courses": [
                    {
                        "course_name": "高等數學",
                        "teacher": "李老師",
                        "students": ["張三", "李四", "王五"]
                    },
                    {
                        "course_name": "線性代數",
                        "teacher": "周老師",
                        "students": ["趙六", "孫七", "周八"]
                    }
                ]
            },
            {
                "name": "物理系",
                "courses": [
                    {
                        "course_name": "量子物理",
                        "teacher": "張老師",
                        "students": ["陳九", "鄭十"]
                    }
                ]
            }
        ]
    }
}

In [None]:
from langchain.text_splitter import RecursiveJsonSplitter
splitter = RecursiveJsonSplitter(max_chunk_size=30)
docs = splitter.create_documents(texts=[json_example],
                                 convert_lists=True)
pprint(docs[:5])

### markdown

In [None]:
md = '''
# 時間管理的藝術

時間管理是一項關鍵技能，可以幫助個人有效地利用時間，提高生產力和效率。
本文件旨在提供一些基本的時間管理技巧，幫助讀者更好地規劃和利用自己的時間。

## 為什麼時間管理如此重要？

在快節奏的現代生活中，時間成為了一種寶貴的資源。
良好的時間管理不僅可以幫助我們完成更多的工作，還可以提高生活質量，
給予我們更多時間去追求個人興趣和與家人、朋友相處的時光。

## 基本時間管理技巧

### 設定目標

- **確定優先順序**：了解哪些任務最重要，哪些可以稍後處理。
- **SMART目標**：設定具體（Specific）、可衡量（Measurable）、
可達成（Achievable）、相關（Relevant）、時間限定（Time-bound）的目標。

### 規劃你的時間

- **每日計劃**：每天制定一個實際可行的待辦事項清單。
- **時間塊劃分**：將一天分成幾個時間塊，每個時間塊分配特定的任務。

### 避免拖延

- **使用番茄工作法**：專注工作25分鐘，然後休息5分鐘。
- **設定獎勵**：完成任務後給自己一些小獎勵。

## 工具和應用

- **Google Calendar**：用於時間規劃和會議安排。
- **Trello**：一個項目管理工具，有助於跟蹤任務和進度。
- **Pomodoro Timer**：一個簡單的線上番茄鐘工具。

## 結語

有效的時間管理要求持之以恆的努力和自我反思。透過實踐上述技巧，
您將能夠更有效地利用您的時間，達成個人和專業目標，同時享有更豐富的個人生活。
'''

In [None]:
from langchain_text_splitters import MarkdownHeaderTextSplitter

In [None]:
headers_to_split_on = [
    ("#", "Header 1"),
    ("##", "Header 2"),
    ("###", "Header 3"),
]

markdown_splitter = MarkdownHeaderTextSplitter(
    headers_to_split_on=headers_to_split_on, strip_headers=True)

md_header_splits = markdown_splitter.split_text(md)
pprint(md_header_splits)

In [None]:
chunk_size = 50
chunk_overlap = 10

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=chunk_size, chunk_overlap=chunk_overlap
)

splits = text_splitter.split_documents(md_header_splits)
pprint(splits[:2])

### html

In [None]:
from langchain_text_splitters import HTMLHeaderTextSplitter

In [None]:
url = "https://zh.wikipedia.org/zh-tw/%E8%94%A1%E8%8B%B1%E6%96%87"

headers_to_split_on = [
    ("h1", "Header 1"),
    ("h2", "Header 2"),
    ("h3", "Header 3"),
    ("h4", "Header 4"),
]

html_splitter = HTMLHeaderTextSplitter(
    headers_to_split_on=headers_to_split_on
)

html_header_splits = html_splitter.split_text_from_url(url)
pprint(html_header_splits[5:8])

In [None]:
chunk_size = 500
chunk_overlap = 30
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=chunk_size, chunk_overlap=chunk_overlap
)

splits = text_splitter.split_documents(html_header_splits)
pprint(splits[5:8])

### code

In [None]:
from langchain_text_splitters import Language

In [None]:
[e.value for e in Language]

['cpp',
 'go',
 'java',
 'kotlin',
 'js',
 'ts',
 'php',
 'proto',
 'python',
 'rst',
 'ruby',
 'rust',
 'scala',
 'swift',
 'markdown',
 'latex',
 'html',
 'sol',
 'csharp',
 'cobol',
 'c',
 'lua',
 'perl']

In [None]:
RecursiveCharacterTextSplitter.get_separators_for_language(
    Language.PYTHON)

['\nclass ', '\ndef ', '\n\tdef ', '\n\n', '\n', ' ', '']

In [None]:
python_code = """
def hello_world():
    print("Hello, World!")

# 呼叫函式
hello_world()
"""
python_splitter = RecursiveCharacterTextSplitter.from_language(
    language=Language.PYTHON, chunk_size=50, chunk_overlap=0
)
python_docs = python_splitter.create_documents([python_code])
for doc in python_docs:
    print(doc.page_content)
    print('.'*10)

def hello_world():
    print("Hello, World!")
..........
# 呼叫函式
hello_world()
..........


In [None]:
csharp_code = """
using System;
class Program
{
    static void Main()
    {
        int age = 30; // 根據需要更改年齡值

        // 根據年齡對人進行分類，並輸出到控制台
        if (age < 18)
        {
            Console.WriteLine("年齡小於18：未成年");
        }
        else if (age >= 18 && age < 65)
        {
            Console.WriteLine("年齡在18至64之間：成年人");
        }
        else
        {
            Console.WriteLine("年齡65歲或以上：老年人");
        }
    }
}

"""

In [None]:
RecursiveCharacterTextSplitter.get_separators_for_language(
    language=Language.CSHARP)

['\ninterface ',
 '\nenum ',
 '\nimplements ',
 '\ndelegate ',
 '\nevent ',
 '\nclass ',
 '\nabstract ',
 '\npublic ',
 '\nprotected ',
 '\nprivate ',
 '\nstatic ',
 '\nreturn ',
 '\nif ',
 '\ncontinue ',
 '\nfor ',
 '\nforeach ',
 '\nwhile ',
 '\nswitch ',
 '\nbreak ',
 '\ncase ',
 '\nelse ',
 '\ntry ',
 '\nthrow ',
 '\nfinally ',
 '\ncatch ',
 '\n\n',
 '\n',
 ' ',
 '']

In [None]:
csharp_splitter = RecursiveCharacterTextSplitter.from_language(
    language=Language.CSHARP, chunk_size=50, chunk_overlap=0
)
csharp_docs = csharp_splitter.create_documents([csharp_code])
for doc in csharp_docs:
    print(doc.page_content)
    print('.'*10)

using System;
..........
class Program
{
    static void Main()
    {
..........
int age = 30; // 根據需要更改年齡值
..........
// 根據年齡對人進行分類，並輸出到控制台
..........
if (age < 18)
        {
..........
Console.WriteLine("年齡小於18：未成年");
..........
}
        else if (age >= 18 && age < 65)
..........
{
..........
Console.WriteLine("年齡在18至64之間：成年人");
..........
}
        else
        {
..........
Console.WriteLine("年齡65歲或以上：老年人");
..........
}
    }
}
..........
