# Building RAG chatbots with LangChain

In [1]:
import os
from dotenv import load_dotenv
from langchain_openai import ChatOpenAI
load_dotenv('./.env')

True

In [2]:
chat = ChatOpenAI(
    model='gpt-3.5-turbo'
)

In [3]:
from langchain.schema import (
    SystemMessage,
    HumanMessage,
    AIMessage
)

messages = [
    SystemMessage(content="你是一個使用繁體中文的助手"),
    HumanMessage(content="嗨你今天好嗎？"),
    AIMessage(content="我很好謝謝你，請問你需要什麼幫助嗎？"),
    HumanMessage(content="我想了解機器學習")
]

In [4]:
res = chat.invoke(messages)
res

AIMessage(content='機器學習是一種人工智慧的應用領域，它讓電腦系統能夠從數據中學習和改進而無需明確地被編程。機器學習主要分為監督式學習、非監督式學習和強化學習等不同類型。在監督式學習中，系統通過與標記好的數據進行訓練，以預測未來的結果；在非監督式學習中，系統通過發現數據中的模式和結構來學習；在強化學習中，系統通過試驗和錯誤的方法來學習。\n\n機器學習在許多領域都有廣泛的應用，例如語音識別、圖像識別、自然語言處理、金融預測等。如果你對機器學習有任何具體的問題或想深入了解某一方面，歡迎告訴我，我會盡力幫助你的。', response_metadata={'token_usage': {'completion_tokens': 389, 'prompt_tokens': 93, 'total_tokens': 482}, 'model_name': 'gpt-3.5-turbo', 'system_fingerprint': 'fp_b28b39ffa8', 'finish_reason': 'stop', 'logprobs': None}, id='run-f036c670-99c1-490a-98bd-f5494781cd03-0')

In [5]:
print(res.content)

機器學習是一種人工智慧的應用領域，它讓電腦系統能夠從數據中學習和改進而無需明確地被編程。機器學習主要分為監督式學習、非監督式學習和強化學習等不同類型。在監督式學習中，系統通過與標記好的數據進行訓練，以預測未來的結果；在非監督式學習中，系統通過發現數據中的模式和結構來學習；在強化學習中，系統通過試驗和錯誤的方法來學習。

機器學習在許多領域都有廣泛的應用，例如語音識別、圖像識別、自然語言處理、金融預測等。如果你對機器學習有任何具體的問題或想深入了解某一方面，歡迎告訴我，我會盡力幫助你的。


In [6]:
messages.append(res)

In [7]:
prompt = HumanMessage(
    content="監督式學習和非監督式學習有什麼不同？"
)
messages.append(prompt)

In [8]:
res = chat.invoke(messages)
print(res.content)

監督式學習和非監督式學習是機器學習中兩種主要的學習方法，它們之間有一些重要的不同之處：

1. 監督式學習：
- 在監督式學習中，模型通過使用帶有標籤的訓練數據來學習。標籤表示輸入數據的預期輸出。換句話說，系統從已知輸入和輸出之間的關係中學習。
- 監督式學習的目標是建立一個能夠準確預測新數據的模型，通過比較預測結果和實際標籤來評估模型的性能。
- 監督式學習常用於分類和回歸問題，例如圖像分類、郵件垃圾郵件分類等。

2. 非監督式學習：
- 在非監督式學習中，模型通過尋找數據中的模式和結構來學習，而不需要事先標記好的數據。
- 非監督式學習的目標是發現數據中的隱藏結構和模式，對數據進行分組或聚類。
- 非監督式學習常用於集群分析、異常檢測、維度縮減等應用。

總的來說，監督式學習需要標記好的訓練數據，而非監督式學習則不需要。兩者各有自己的應用場景和優缺點，選擇使用哪種方法取決於問題的性質和目標。


In [9]:
# add latest response to messages
messages.append(res)

# create a new user prompt
prompt = HumanMessage(
    content="能介紹一下LangChain中的LLMChain嗎？"
)
# append to messages
messages.append(prompt)

# send to GPT
res = chat.invoke(messages)
print(res.content)

對不起，我無法找到有關LangChain或LLMChain的相關資訊。也許你能提供更多上下文或詳細資訊，讓我更好地了解你的問題嗎？這樣我才能幫助你更好地解答。


In [10]:
llmchain_information = [
    "LLMChain是一個簡單的鍊式結構，它在語言模型周圍添加了一些功能。 它廣泛用於LangChain中，包括其他鍊式結構和代理程式。",
    "LLMChain由PromptTemplate和語言模型（LLM或聊天模型）組成。 它使用提供的輸入鍵值（如果有的話，還包括記憶體鍵值）格式化提示模板，將格式化的字串傳遞給LLM並傳回LLM輸出。",
    "LangChain 是用於開發由語言模型驅動的應用程式的框架。我們相信，最強大、最差異化的應用程式不僅會透過API 呼叫語言模型，而且還會： (1) 具有資料意識：連接語言(2) 具有代理性：允許語言模型與其環境互動。因此，LangChain 框架的設計目標是支援這些類型的應用程式。"
]


source_knowledge = "\n".join(llmchain_information)

In [11]:
query = "能介紹一下LangChain中的LLMChain嗎？"

augmented_prompt = f"""Using the contexts below to answer the question.

Contexts:
{source_knowledge}

Question: {query}"""

In [12]:
prompt = HumanMessage(
    content=augmented_prompt
)

messages.append(prompt)

res = chat.invoke(messages)
print(res.content)

LLMChain是LangChain框架中的一個重要組件，它是一個簡單的鍊式結構，在語言模型周圍添加了一些功能。LLMChain由PromptTemplate和語言模型（LLM或聊天模型）組成。它的主要功能是將提供的輸入鍵值（包括記憶體鍵值）格式化為提示模板，然後將格式化的字串傳遞給LLM，並將LLM的輸出返回。LLMChain廣泛應用於LangChain中，包括其他鍊式結構和代理程式。LangChain是用於開發由語言模型驅動的應用程式的框架，旨在支持具有資料意識和代理性的應用程式，讓語言模型能夠與其環境互動，從而創建出更加強大和差異化的應用程式。


# 用自己的QA data

In [13]:
import pandas as pd
df = pd.read_csv("qa_data.csv", encoding='utf-8')
df.head()

Unnamed: 0,Question,Answer,QA
0,未滿 2 歲兒童托育補助發放對象有哪些?,"實際年齡未滿 2 歲的中華民國籍兒童,且符合出生登記或戶籍登記、送托簽約托嬰中心或居家托育人...","未滿 2 歲兒童托育補助發放對象有哪些? - 實際年齡未滿 2 歲的中華民國籍兒童,且符合出..."
1,未滿 2 歲托育補助發放金額是多少?,"從 112 年 1 月 1 日起,公共化托育補助為每月 5,500 元起,準公共托育補助為每...","未滿 2 歲托育補助發放金額是多少? - 從 112 年 1 月 1 日起,公共化托育補助為..."
2,申請未滿 2 歲托育補助需準備哪些文件?,需提供未滿 2 歲兒童托育準公共化服務費用申報表、申請人及兒童身分證明文件、簽訂之托育服務契...,申請未滿 2 歲托育補助需準備哪些文件? - 需提供未滿 2 歲兒童托育準公共化服務費用申報...
3,未滿 2 歲托育補助要到哪裡申請?,"請檢具申請書及相關證明文件,於托育事實發生之日起 15 日內,以郵寄或親送方式向托嬰中心或居...","未滿 2 歲托育補助要到哪裡申請? - 請檢具申請書及相關證明文件,於托育事實發生之日起 1..."
4,"兒童原本領取育兒津貼,後改送托,需要重新申請托育補助嗎?","需要重新申請,並記得向原領育兒津貼的公所取消。相反地,如原領托育補助改為自行照顧,也要向公所...","兒童原本領取育兒津貼,後改送托,需要重新申請托育補助嗎? - 需要重新申請,並記得向原領育兒..."


In [14]:
docs = df[['Question', 'Answer', 'QA']]
docs.head()

Unnamed: 0,Question,Answer,QA
0,未滿 2 歲兒童托育補助發放對象有哪些?,"實際年齡未滿 2 歲的中華民國籍兒童,且符合出生登記或戶籍登記、送托簽約托嬰中心或居家托育人...","未滿 2 歲兒童托育補助發放對象有哪些? - 實際年齡未滿 2 歲的中華民國籍兒童,且符合出..."
1,未滿 2 歲托育補助發放金額是多少?,"從 112 年 1 月 1 日起,公共化托育補助為每月 5,500 元起,準公共托育補助為每...","未滿 2 歲托育補助發放金額是多少? - 從 112 年 1 月 1 日起,公共化托育補助為..."
2,申請未滿 2 歲托育補助需準備哪些文件?,需提供未滿 2 歲兒童托育準公共化服務費用申報表、申請人及兒童身分證明文件、簽訂之托育服務契...,申請未滿 2 歲托育補助需準備哪些文件? - 需提供未滿 2 歲兒童托育準公共化服務費用申報...
3,未滿 2 歲托育補助要到哪裡申請?,"請檢具申請書及相關證明文件,於托育事實發生之日起 15 日內,以郵寄或親送方式向托嬰中心或居...","未滿 2 歲托育補助要到哪裡申請? - 請檢具申請書及相關證明文件,於托育事實發生之日起 1..."
4,"兒童原本領取育兒津貼,後改送托,需要重新申請托育補助嗎?","需要重新申請,並記得向原領育兒津貼的公所取消。相反地,如原領托育補助改為自行照顧,也要向公所...","兒童原本領取育兒津貼,後改送托,需要重新申請托育補助嗎? - 需要重新申請,並記得向原領育兒..."


# RAG

In [15]:
from langchain_community.document_loaders import DataFrameLoader

loader = DataFrameLoader(docs, page_content_column="QA")
documents = loader.load()

In [16]:
documents[0]

Document(page_content='未滿 2 歲兒童托育補助發放對象有哪些? - 實際年齡未滿 2 歲的中華民國籍兒童,且符合出生登記或戶籍登記、送托簽約托嬰中心或居家托育人員、每週送托時數達 30 小時以上、未領取育兒津貼、未經政府公費安置等條件。', metadata={'Question': '未滿 2 歲兒童托育補助發放對象有哪些?', 'Answer': '實際年齡未滿 2 歲的中華民國籍兒童,且符合出生登記或戶籍登記、送托簽約托嬰中心或居家托育人員、每週送托時數達 30 小時以上、未領取育兒津貼、未經政府公費安置等條件。'})

In [17]:
documents[0].metadata

{'Question': '未滿 2 歲兒童托育補助發放對象有哪些?',
 'Answer': '實際年齡未滿 2 歲的中華民國籍兒童,且符合出生登記或戶籍登記、送托簽約托嬰中心或居家托育人員、每週送托時數達 30 小時以上、未領取育兒津貼、未經政府公費安置等條件。'}

In [18]:
from langchain_community.vectorstores import Qdrant
from langchain_openai import OpenAIEmbeddings
embeddings = OpenAIEmbeddings(model="text-embedding-3-small")

qdrant = Qdrant.from_documents(
    documents=documents,
    embedding=embeddings,
    location=":memory:",  # Local mode with in-memory storage only
    collection_name="chatbot"
)

In [19]:
query = "托育補助發放金額是多少?"
qdrant.similarity_search(query, k=3)

[Document(page_content='未滿 2 歲托育補助發放金額是多少? - 從 112 年 1 月 1 日起,公共化托育補助為每月 5,500 元起,準公共托育補助為每月 8,500 元起。第 2 名子女加發 1,000 元,第 3 名以上子女加發 2,000 元。', metadata={'Question': '未滿 2 歲托育補助發放金額是多少?', 'Answer': '從 112 年 1 月 1 日起,公共化托育補助為每月 5,500 元起,準公共托育補助為每月 8,500 元起。第 2 名子女加發 1,000 元,第 3 名以上子女加發 2,000 元。', '_id': '60f12d0393a04f16b208ffa47d43beb4', '_collection_name': 'chatbot'}),
 Document(page_content='未滿 2 歲兒童托育補助發放對象有哪些? - 實際年齡未滿 2 歲的中華民國籍兒童,且符合出生登記或戶籍登記、送托簽約托嬰中心或居家托育人員、每週送托時數達 30 小時以上、未領取育兒津貼、未經政府公費安置等條件。', metadata={'Question': '未滿 2 歲兒童托育補助發放對象有哪些?', 'Answer': '實際年齡未滿 2 歲的中華民國籍兒童,且符合出生登記或戶籍登記、送托簽約托嬰中心或居家托育人員、每週送托時數達 30 小時以上、未領取育兒津貼、未經政府公費安置等條件。', '_id': 'fd507fdc62c84457bca5df6e3bb707c7', '_collection_name': 'chatbot'}),
 Document(page_content='未滿 2 歲托育補助要到哪裡申請? - 請檢具申請書及相關證明文件,於托育事實發生之日起 15 日內,以郵寄或親送方式向托嬰中心或居家保母所屬的居家托育服務中心提出申請。', metadata={'Question': '未滿 2 歲托育補助要到哪裡申請?', 'Answer': '請檢具申請書及相關證明文件,於托育事實發生之日起 15 日內,以郵寄或親送方式向托嬰中心或居家保母所屬的居家托育服務中心提出申請。', '_id': '6d11136c762d4a3ba89602f91a6ea9f9

In [20]:
def custom_prompt(query: str):
    results = qdrant.similarity_search(query, k=3)
    source_knowledge = "\n".join([x.page_content for x in results])
    augment_prompt = f"""Using the contexts below, answer the query:

    Contexts:
    {source_knowledge}

    Query: {query}"""
    return augment_prompt

In [21]:
print(custom_prompt(query))

Using the contexts below, answer the query:

    Contexts:
    未滿 2 歲托育補助發放金額是多少? - 從 112 年 1 月 1 日起,公共化托育補助為每月 5,500 元起,準公共托育補助為每月 8,500 元起。第 2 名子女加發 1,000 元,第 3 名以上子女加發 2,000 元。
未滿 2 歲兒童托育補助發放對象有哪些? - 實際年齡未滿 2 歲的中華民國籍兒童,且符合出生登記或戶籍登記、送托簽約托嬰中心或居家托育人員、每週送托時數達 30 小時以上、未領取育兒津貼、未經政府公費安置等條件。
未滿 2 歲托育補助要到哪裡申請? - 請檢具申請書及相關證明文件,於托育事實發生之日起 15 日內,以郵寄或親送方式向托嬰中心或居家保母所屬的居家托育服務中心提出申請。

    Query: 托育補助發放金額是多少?


In [22]:
prompt = HumanMessage(
    content=custom_prompt(query)
)

messages.append(prompt)

res = chat.invoke(messages)

print(res.content)

未滿 2 歲的托育補助發放金額根據不同條件而有所不同。公共化托育補助為每月 5,500 元起，準公共托育補助為每月 8,500 元起。此外，第 2 名子女可額外加發 1,000 元，第 3 名以上子女可加發 2,000 元。因此，根據子女數量和其他條件，托育補助金額會有所調整。
