# 基於langchain創建自己專屬的對話大模型
## 1.領域精準問答
## 2.數據更新頻繁
## 3.生成內容可解釋可追溯
## 4.數據隱私保護

#### 通過這個例子，我們將基於LangChain，OpenAI(LLM)，vector DB建構一個屬於自己的LLM模型。
#### 主要使用的技術----Retrieval Augmented Generation (RAG)
#### 首先確保自己擁有的一個 OpenAI API key (也並非需要)

### 準備環境

In [10]:
! pip install -qU \
    langchain==0.0.316 \
    openai==0.28.1 \
    tiktoken==0.5.1 \
    cohere \
    chromadb==0.4.15

ERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
elasticsearch7 7.17.12 requires urllib3<2,>=1.21.1, but you have urllib3 2.3.0 which is incompatible.


### 創建一個對話模型(no RAG)

In [None]:
import openai
import json

# 設定 OpenRouter 的 API 金鑰與網址
openai.api_key = "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"  # ← 記得
openai.api_base = "https://openrouter.ai/api/v1"

# 呼叫 API
try:
    response = openai.ChatCompletion.create(
        model="mistralai/mistral-small-3.1-24b-instruct:free",
        messages=[
            {"role": "user", "content": "幫我寫一段 Python 程式碼，計算費氏數列。"},
        ]
    )
    print("✅ API 呼叫成功，回傳內容如下：")
    print(json.dumps(response, indent=2))  # 🔍 印出完整 response 結構，幫助除錯

    # 嘗試取得內容
    if "choices" in response:
        content = response["choices"][0]["message"]["content"]
        print("✅ 模型回覆內容：")
        print(content)
    else:
        print("⚠️ API 回傳中沒有 'choices' 欄位，可能是錯誤訊息")

except Exception as e:
    print(f"❌ 發生錯誤：{e}")




✅ API 呼叫成功，回傳內容如下：
{
  "id": "gen-1744262757-R189lbVuM9rpL7A0krmP",
  "provider": "Chutes",
  "model": "mistralai/mistral-small-3.1-24b-instruct",
  "object": "chat.completion",
  "created": 1744262757,
  "choices": [
    {
      "logprobs": null,
      "finish_reason": "stop",
      "native_finish_reason": "stop",
      "index": 0,
      "message": {
        "role": "assistant",
        "content": "\u7576\u7136\u53ef\u4ee5\uff01\u8cbb\u6c0f\u6578\u5217\u662f\u4e00\u500b\u8457\u540d\u7684\u6578\u5b78\u5e8f\u5217\uff0c\u5176\u4e2d\u6bcf\u500b\u6578\u5b57\u662f\u524d\u5169\u500b\u6578\u5b57\u7684\u7e3d\u548c\u3002\u901a\u5e38\u5f9e0\u548c1\u62161\u548c1\u958b\u59cb\u3002\u4ee5\u4e0b\u662f\u4e00\u6bb5Python\u7a0b\u5f0f\u78bc\uff0c\u8a08\u7b97\u8cbb\u6c0f\u6578\u5217\u7684\u524dN\u500b\u6578\u5b57\uff1a\n\n```python\ndef fibonacci(n):\n    if n <= 0:\n        return []\n    elif n == 1:\n        return [0]\n    elif n == 2:\n        return [0, 1]\n\n    fib_sequence = [0, 1]\n    for i in 

In [87]:
print(json.dumps(response, indent=2))  # 這個印出來的結果


{
  "id": "gen-1744262757-R189lbVuM9rpL7A0krmP",
  "provider": "Chutes",
  "model": "mistralai/mistral-small-3.1-24b-instruct",
  "object": "chat.completion",
  "created": 1744262757,
  "choices": [
    {
      "logprobs": null,
      "finish_reason": "stop",
      "native_finish_reason": "stop",
      "index": 0,
      "message": {
        "role": "assistant",
        "content": "\u7576\u7136\u53ef\u4ee5\uff01\u8cbb\u6c0f\u6578\u5217\u662f\u4e00\u500b\u8457\u540d\u7684\u6578\u5b78\u5e8f\u5217\uff0c\u5176\u4e2d\u6bcf\u500b\u6578\u5b57\u662f\u524d\u5169\u500b\u6578\u5b57\u7684\u7e3d\u548c\u3002\u901a\u5e38\u5f9e0\u548c1\u62161\u548c1\u958b\u59cb\u3002\u4ee5\u4e0b\u662f\u4e00\u6bb5Python\u7a0b\u5f0f\u78bc\uff0c\u8a08\u7b97\u8cbb\u6c0f\u6578\u5217\u7684\u524dN\u500b\u6578\u5b57\uff1a\n\n```python\ndef fibonacci(n):\n    if n <= 0:\n        return []\n    elif n == 1:\n        return [0]\n    elif n == 2:\n        return [0, 1]\n\n    fib_sequence = [0, 1]\n    for i in range(2, n):\n     

In [3]:
import os 
from langchain.chat_models import ChatOpenAI

os.environ["OPENAI_API_KEY"] = "YOUR-API-KEY"

chat = ChatOpenAI(
    openai_api_key = os.environ["OPENAI_API_KEY"],
    model = 'gpt-3.5-turbo'
)

In [4]:
from langchain.schema import (
    SystemMessage,
    HumanMessage,
    AIMessage
)

messages = [
    SystemMessage(content="You are a helpful assistant."),
    HumanMessage(content = "Knock knock."),
    AIMessage(content = "Who's there?"),
    HumanMessage(content="Orange"),
]

In [43]:
res = chat(messages)
res

AuthenticationError: No auth credentials found

## 用OpenRouter的 mistralai/mistral-small-3.1-24b-instruct:free 語言模型 實作

In [85]:
from langchain.chat_models import ChatOpenAI
from langchain.schema import (
    SystemMessage,
    HumanMessage,
    AIMessage
)
import os

# 設定 API 金鑰與 OpenRouter 的 base url
os.environ["OPENAI_API_KEY"] = "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"

# 建立 ChatOpenAI，支援 OpenRouter
chat = ChatOpenAI(
    openai_api_key=os.environ["OPENAI_API_KEY"],
    openai_api_base="https://openrouter.ai/api/v1",
    model="mistralai/mistral-small-3.1-24b-instruct:free"
)




In [71]:
# 多輪對話訊息（System、User、AI 模擬歷史對話）
messages = [
    SystemMessage(content="You are a helpful assistant."),
    HumanMessage(content="敲敲門"),
    AIMessage(content="誰在搞?"),
    HumanMessage(content="我啦，人類"),
]

# 發送對話
res = chat(messages)

# 印出回答
print(res.content)

KeyError: 'choices'

In [48]:
## 重新儲存 新對話
messages = [
    SystemMessage(content="You are a helpful assistant."),
    HumanMessage(content="Knock knock."),
    AIMessage(content="Who's there?"),
    HumanMessage(content="Orange"),
    AIMessage(content="Orange who? Orange you going to let me in?"),
]


In [18]:
# 新增一輪對話
messages.append(HumanMessage(content="Who's there?"))

# 發送對話並印出回答
response = chat(messages)
print(response.content)


It seems we are playing a game of knock knock!

So let's start again.

Knock knock.

(You go!)


## 處理LLM存在的缺陷

### 1.容易出現幻覺
### 2.信息滯後
### 3.專業領域深度匱乏

#### 新的對話

In [7]:
messages = [
    SystemMessage(content="你是一個專業的知識助手。"),
    HumanMessage(content="你知道chatgpt模型嗎?"),
]

res = chat(messages)
print(res.content)

是的，我知道 ChatGPT 模型。ChatGPT 是由 OpenAI 开发的一款基于大型语言模型的对话生成系统。它利用深度学习技术，特别是变换器（Transformer）架构，来理解和生成自然语言文本。ChatGPT 能够进行多种对话任务，包括回答问题、提供信息、编写文本、翻译语言等。

ChatGPT 的训练数据来源于大量的互联网文本，因此它能够处理广泛的主题和问题。然而，它的知识截止到2023年10月，无法实时获取最新的信息。此外，它可能会在某些情况下生成不准确或不可靠的信息，因此使用时需要谨慎。

如果你有任何具体的问题或需要进一步的信息，请告诉我！


### 其實有發現mistralai/mistral-small-3.1-24b-instruct:free 語言模型無法滿足我們在某些特定領域的專業需求，我們可以通過知識注入的方式，利用prompt來解決問題:


<img src="picture/wiki.jpg" width="800" height="600">

In [54]:
ChatGPT_information = [
    "ChatGPT，全稱聊天生成預訓練轉換器（英語：Chat Generative Pre-trained Transformer），是OpenAI開發的人工智慧聊天機器人程式，於2022年12月推出。",
    "該程式使用基於GPT-3.5、GPT-4、GPT-4o、GPT-4.5架構的大型語言模型並以強化學習訓練。",
    "ChatGPT目前仍以文字方式互動，而除了可以用人類自然對話方式來互動，還可以用於甚為複雜的語言工作，包括自動生成文字、自動問答、自動摘要等多種任務。",
    "如：在自動文字生成方面，ChatGPT可以根據輸入的文字自動生成類似的文字（劇本、歌曲、企劃等），在自動問答方面，ChatGPT可以根據輸入的問題自動生成答案。",
    "還有編寫和除錯電腦程式的能力。",
    "在推廣期間，所有人可以免費註冊，並在登入後免費使用ChatGPT與AI機器人對話。",
    "ChatGPT可寫出相似真人的文章，並在許多知識領域給出詳細和清晰的回答而迅速獲得關注，證明了從前認為AI不會取代的知識型工作它也足以勝任，對金融與白領人力市場的衝擊相當大，並在逐步提升取代醫療人力的能力，以提供比人類更佳的診斷。",
    "但也認為事實準確度參差不齊是其重大缺陷，並認為基於意識形態的模型訓練結果須小心校正。",
    "ChatGPT於2022年12月發布後，OpenAI估值已漲至290億美元。",
    "上線5天後已有100萬使用者，上線兩個月後已有上億使用者。",
    "目前GPT-3.5（現升級為GPT-4o mini）為免費使用，無需註冊，GPT-4o對已註冊免費使用者開放使用，但有使用量限制。",
    "註冊的ChatGPT免費使用者都可以使用瀏覽、視覺、資料分析、檔案上傳和GPTs等原付費使用者的功能，但有使用量限制。",
    "雖然ChatGPT在生成類人文字方面表現出了卓越的能力，但它們很容易繼承和放大訓練資料中存在的偏差。",
    "這可能表現為對不同人口統計資料的歪曲表述或不公平待遇，例如基於種族、性別、語言和文化群體的不同觀點與態度。"
]


In [55]:
source_knowledge = "\n".join(ChatGPT_information)

In [56]:
print(source_knowledge)

ChatGPT，全稱聊天生成預訓練轉換器（英語：Chat Generative Pre-trained Transformer），是OpenAI開發的人工智慧聊天機器人程式，於2022年12月推出。
該程式使用基於GPT-3.5、GPT-4、GPT-4o、GPT-4.5架構的大型語言模型並以強化學習訓練。
ChatGPT目前仍以文字方式互動，而除了可以用人類自然對話方式來互動，還可以用於甚為複雜的語言工作，包括自動生成文字、自動問答、自動摘要等多種任務。
如：在自動文字生成方面，ChatGPT可以根據輸入的文字自動生成類似的文字（劇本、歌曲、企劃等），在自動問答方面，ChatGPT可以根據輸入的問題自動生成答案。
還有編寫和除錯電腦程式的能力。
在推廣期間，所有人可以免費註冊，並在登入後免費使用ChatGPT與AI機器人對話。
ChatGPT可寫出相似真人的文章，並在許多知識領域給出詳細和清晰的回答而迅速獲得關注，證明了從前認為AI不會取代的知識型工作它也足以勝任，對金融與白領人力市場的衝擊相當大，並在逐步提升取代醫療人力的能力，以提供比人類更佳的診斷。
但也認為事實準確度參差不齊是其重大缺陷，並認為基於意識形態的模型訓練結果須小心校正。
ChatGPT於2022年12月發布後，OpenAI估值已漲至290億美元。
上線5天後已有100萬使用者，上線兩個月後已有上億使用者。
目前GPT-3.5（現升級為GPT-4o mini）為免費使用，無需註冊，GPT-4o對已註冊免費使用者開放使用，但有使用量限制。
註冊的ChatGPT免費使用者都可以使用瀏覽、視覺、資料分析、檔案上傳和GPTs等原付費使用者的功能，但有使用量限制。
雖然ChatGPT在生成類人文字方面表現出了卓越的能力，但它們很容易繼承和放大訓練資料中存在的偏差。
這可能表現為對不同人口統計資料的歪曲表述或不公平待遇，例如基於種族、性別、語言和文化群體的不同觀點與態度。


In [57]:
query = "你知道ChatGPT模型嗎"
prompt_template = f"""基於以下內容回答問題:
內容:
{source_knowledge}

Query: {query}"""


In [58]:
prompt = HumanMessage(
    content = prompt_template
)
messages.append(prompt)

res = chat(messages)

In [59]:
print(res.content)

是的，我知道ChatGPT模型。ChatGPT是由OpenAI開發的一種基於GPT（Generative Pre-trained Transformer）架構的大型語言模型，旨在進行自然語言處理和生成。以下是一些關鍵點：

1. **發布時間**：ChatGPT於2022年12月推出。
2. **技術基礎**：ChatGPT基於GPT-3.5、GPT-4、GPT-4o和GPT-4.5等架構，並通過強化學習進行訓練。
3. **功能**：ChatGPT能夠進行多種語言任務，包括自動生成文字、自動問答、自動摘要、編寫和除錯電腦程式等。
4. **使用方式**：目前ChatGPT主要通過文字方式與用戶互動，能夠模擬人類自然對話。
5. **應用範圍**：ChatGPT可以用於多種知識型工作，包括劇本、歌曲、企劃的生成，並能在金融、醫療等領域提供支持。
6. **免費使用**：在推廣期間，所有人可以免費註冊並使用ChatGPT。GPT-3.5（現升級為GPT-4o mini）為免費使用，GPT-4o則對已註冊免費使用者開放，但有使用量限制。
7. **缺陷與挑戰**：儘管ChatGPT表現出色，但其生成的內容可能存在事實準確度問題，並可能繼承和放大訓練資料中的偏差，如種族、性別、語言和文化群體的歪曲表述或不公平待遇。

總的來說，ChatGPT是一種功能強大且具有廣泛應用前景的語言模型，但也需要注意其潛在的偏差和準確性問題。


### 發現，當我們進行知識的注入後，模型就能很好的回答相關問題。如果每一個問題都去用外部知識進行增強與拚解的話，那麼回答的準確性就能大大增加嗎?

## 創建一個RAG的對話模型

<img src="picture/rag flow.png" >

### 1.加載數據

thesis_.pdf

In [26]:
! pip install pypdf



In [29]:
from langchain.document_loaders import PyPDFLoader

# 直接寫路徑，假設 PDF 檔案與腳本在同一資料夾
loader = PyPDFLoader("./thesis__.pdf")

# 載入並分割頁面
pages = loader.load_and_split()

In [30]:
pages[0]

Document(page_content='國立成功大學 \n系統及船舶機電工程學系 \n碩士論文 \n熱成像技術於鋰電池未知熱源之預測 \nThe Estimation of Unknown Transient Heat\nGeneration for Lithium Battery with \nThermography Techniques  \n研 究 生： 林子揚 \n指導教授： 黃正弘 \n中華民國一百一十三年十二月', metadata={'source': './thesis__.pdf', 'page': 0})

### 2.知識切片 將文檔分割成均勻的塊。 每個塊是一段原始文本。

In [31]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size = 500,
    chunk_overlap =50,
)

docs = text_splitter.split_documents(pages)

In [32]:
len(docs)

239

### 3.利用embedding模型對每個文本片段進行向量化，並儲存到向量數據庫中

In [33]:
! pip install langchain sentence-transformers transformers chromadb



In [34]:
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.vectorstores import Chroma
from langchain.document_loaders import TextLoader
from langchain.text_splitter import CharacterTextSplitter



# 创建HuggingFace embedding模型
# 这里使用多语言模型，对中文效果很好
embed_model = HuggingFaceEmbeddings(
    model_name="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2"
)

# 创建向量存储
vectorstore = Chroma.from_documents(
    documents=docs, 
    embedding=embed_model,
    collection_name="hf_embeddings",
    persist_directory="./chroma_db2"
)



In [62]:
# 示例搜索
query = "作者使用的 商業軟體是甚麼?"
results = vectorstore.similarity_search(query, k=2)

In [63]:
results

[Document(page_content='裝軟體強大的正算能力來彌補傳統逆向問題之不足。本論文所使用的套裝\n軟體為三維耦合計算流體力學軟體CFD-ACE+，軟體為 ESI-GROUP 所發\n行，其提供了一系列包含前處理(GEOM)，數值計算(ACE+)及後處理(VIEW)\n等三大模組，使其擁有完整且強大的正算問題處理能力。 \n在第二章及第三章吾人利用此軟體來模擬圓柱型鋰電池內部熱源發', metadata={'page': 21, 'source': './thesis__.pdf'}),
 Document(page_content='1 \n \n致謝 \n在我整個研究的過程中，黃正弘教授的悉心指導和無私支持讓我深\n感榮幸，也讓我受益匪淺。回顧這段時間，我從一名對研究領域懵懂的學\n生，成長為能夠獨立思考和解決問題的研究者，更或者是實驗室學弟妹的\n諮詢對象(程式及實驗)，這一切都離不開黃教授的耐心教導和持續的激勵 \n。教授以其豐富的學識、嚴謹的學術態度以及對教育的熱忱，使我在專業\n領域上不斷精進。每當我遇到困難或感到迷茫時，教授總是會重新不斷激\n勵我，並及時提供最具建設性的建議或找尋外部資源，幫助我找到解決問\n題的方向(電池的電學、自動化資料後處理、系統指令)，同時藉由接觸更\n多面向的專業知識來解決無法由原先思路去解決的問題。在這段時間裡，\n我學會了如何冷靜分析問題、蒐集資料、找尋專家來探索答案，並始終保\n持對知識的渴求和對事物的好奇心。 \n也謝謝岱冠科技有限公司連奕輔副理在商業套裝軟體 ESI-CFD 的功\n能諮詢，特別是在處理複雜度較高的暫態問題上，細心回覆我一些不常使\n用的特殊功能。還有洲通能源科技有限公司林建成業務在電池充放電測\n試主機BAT-760B 的諮詢，協助我架構出電池放電實驗。及富力電能有限', metadata={'page': 9, 'source': './thesis__.pdf'})]

### 5.原始query與檢索得到的文本組合起來輸入到語言模型，得到最終的回答

In [64]:
def augment_prompt(query: str):
    # 獲取top3的文本片段
    results = vectorstore.similarity_search(query, k=3)
    source_knowledge = "\n".join([x.page_content for x in results])
    # 構建prompt
    augmented_prompt = f"""Using the contexts below, answer the query.

    contexts:
    {source_knowledge}

    query: {query}"""
    return augmented_prompt

In [65]:
print(augment_prompt(query))

Using the contexts below, answer the query.

    contexts:
    裝軟體強大的正算能力來彌補傳統逆向問題之不足。本論文所使用的套裝
軟體為三維耦合計算流體力學軟體CFD-ACE+，軟體為 ESI-GROUP 所發
行，其提供了一系列包含前處理(GEOM)，數值計算(ACE+)及後處理(VIEW)
等三大模組，使其擁有完整且強大的正算問題處理能力。 
在第二章及第三章吾人利用此軟體來模擬圓柱型鋰電池內部熱源發
1 
 
致謝 
在我整個研究的過程中，黃正弘教授的悉心指導和無私支持讓我深
感榮幸，也讓我受益匪淺。回顧這段時間，我從一名對研究領域懵懂的學
生，成長為能夠獨立思考和解決問題的研究者，更或者是實驗室學弟妹的
諮詢對象(程式及實驗)，這一切都離不開黃教授的耐心教導和持續的激勵 
。教授以其豐富的學識、嚴謹的學術態度以及對教育的熱忱，使我在專業
領域上不斷精進。每當我遇到困難或感到迷茫時，教授總是會重新不斷激
勵我，並及時提供最具建設性的建議或找尋外部資源，幫助我找到解決問
題的方向(電池的電學、自動化資料後處理、系統指令)，同時藉由接觸更
多面向的專業知識來解決無法由原先思路去解決的問題。在這段時間裡，
我學會了如何冷靜分析問題、蒐集資料、找尋專家來探索答案，並始終保
持對知識的渴求和對事物的好奇心。 
也謝謝岱冠科技有限公司連奕輔副理在商業套裝軟體 ESI-CFD 的功
能諮詢，特別是在處理複雜度較高的暫態問題上，細心回覆我一些不常使
用的特殊功能。還有洲通能源科技有限公司林建成業務在電池充放電測
試主機BAT-760B 的諮詢，協助我架構出電池放電實驗。及富力電能有限
用程式語言Python 配合文字編輯軟體Notepad++將所需之熱源編寫於文字
檔.TXT。 
(3) 撰寫供DTF 檔連結的DLL 檔 ， 共有四個DLL 檔 ， 分別是EXACTG
所需的 DLL 檔、DIR 所需的 DLL 檔、ADJ 所需的 DLL 檔及 SEN 所需的
DLL 檔。EXACTG、MAIN、SEN 的DLL 檔可以使圓柱中不同體積的網格

    query: 作者使用的 商業軟體是甚麼?


In [66]:
# 創建 prompt
prompt = HumanMessage(
    content = augment_prompt(query)
)

messages.append(prompt)

res = chat(messages)

print(res.content)

作者使用的商業軟體是 **ESI-CFD**。這個軟體由 ESI Group 發行，具體來說，作者使用的是其三維耦合計算流體力學軟體 **CFD-ACE+**。ESI-CFD 提供了前處理（GEOM）、數值計算（ACE+）及後處理（VIEW）等三大模組，使其擁有完整且強大的正算問題處理能力。


## 沒有OPENAI api key怎麼辦 創建一個非openai的對話模型

### 1.embedding模型
### 2.chat模型

In [33]:
! pip install sentence-transformers



In [75]:
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.vectorstores import Chroma

model_name= "sentence-transformers/sentence-t5-large"

In [36]:
!pip install hf_xet

Collecting hf_xet
  Downloading hf_xet-1.0.2-cp37-abi3-win_amd64.whl.metadata (498 bytes)
Downloading hf_xet-1.0.2-cp37-abi3-win_amd64.whl (4.1 MB)
   ---------------------------------------- 0.0/4.1 MB ? eta -:--:--
   ----- ---------------------------------- 0.5/4.1 MB 5.6 MB/s eta 0:00:01
   ------------------------------ --------- 3.1/4.1 MB 10.3 MB/s eta 0:00:01
   ---------------------------------------- 4.1/4.1 MB 9.9 MB/s eta 0:00:00
Installing collected packages: hf_xet
Successfully installed hf_xet-1.0.2


In [76]:
import os
os.environ["HF_HUB_DISABLE_SYMLINKS_WARNING"] = "1"

In [77]:
embedding = HuggingFaceEmbeddings(model_name = model_name)

In [78]:
vectorstore_hf = Chroma.from_documents(documents=docs, embedding = embedding , collection_name = "huggingface_embed")

### 也可以用GPU(之後再用)

https://www.youtube.com/watch?v=KW-iKts6E8M

### 回到正題

In [79]:
# 示例搜索
query = "How large is the baichuan2 vocavulary?"
result = vectorstore_hf.similarity_search(query, k =2)

In [80]:
print(result)

[Document(page_content='Baichuan 2: Open Large-scale Language Models\nAiyuan Yang, Bin Xiao, Bingning Wang, Borong Zhang, Chao Yin, Chenxu Lv, Da Pan\nDian Wang, Dong Yan, Fan Yang, Fei Deng, Feng Wang, Feng Liu, Guangwei Ai\nGuosheng Dong, Haizhou Zhao, Hang Xu, Haoze Sun, Hongda Zhang, Hui Liu, Jiaming Ji\nJian Xie, Juntao Dai, Kun Fang, Lei Su, Liang Song, Lifeng Liu, Liyun Ru, Luyao Ma\nMang Wang, Mickel Liu, MingAn Lin, Nuolan Nie, Peidong Guo, Ruiyang Sun', metadata={'page': 0, 'source': 'C:\\Users\\roy\\AppData\\Local\\Temp\\tmplwua9z6z\\tmp.pdf'}), Document(page_content='languages, such as Chinese.\nIn this technical report, we introduce Baichuan\n2, a series of large-scale multilingual language\nmodels. Baichuan 2 has two separate models,\nBaichuan 2-7B with 7 billion parameters and\nBaichuan 2-13B with 13 billion parameters. Both\nmodels were trained on 2.6 trillion tokens, which\nto our knowledge is the largest to date, more than\ndouble that of Baichuan 1 (Baichuan, 2023b,a

In [83]:
def augment_prompt(query: str):
    # 獲取top3的文本片段
    results = vectorstore.similarity_search(query, k=3)
    source_knowledge = "\n".join([x.page_content for x in results])
    # 構建prompt
    augmented_prompt = f"""Using the contexts below, answer the query.

    contexts:
    {source_knowledge}

    query: {query}"""
    return augmented_prompt

In [84]:
# 創建 prompt
prompt = HumanMessage(
    content = augment_prompt(query)
)
# 利用前面的 大語言模型繼續 問問題
messages.append(prompt)

res = chat(messages)

print(res.content)

ChatGPT 是 OpenAI 开发的一种人工智能聊天机器人程序，全称为聊天生成预训练转换器（Chat Generative Pre-trained Transformer）。它于 2022 年 12 月推出，基于 GPT-3.5、GPT-4、GPT-4o、GPT-4.5 架构的大型语言模型，并通过强化学习进行训练。ChatGPT 能够进行自然对话，并可用于复杂的语言任务，如自动生成文字、自动问答和自动摘要等。它还能编写和调试电脑程序。

ChatGPT 的推广期间，所有人都可以免费注册并使用。它能够生成类似真人的文章，并在许多知识领域提供详细且清晰的回答。然而，ChatGPT 在事实准确度和意识形态方面可能存在偏差。

关于 Baichuan 2 的词汇量，根据提供的背景信息，并没有直接提到 Baichuan 2 的词汇量大小。Baichuan 2 是一种大型多语言语言模型，有两个版本：Baichuan 2-7B（70亿参数）和 Baichuan 2-13B（130亿参数），两者都在 2.6 万亿个词汇上进行训练。如果需要具体的词汇量信息，可能需要参考 Baichuan 2 的技术报告或官方文档。
