In [None]:
from langchain_community.document_loaders import TextLoader
from langchain_text_splitters import CharacterTextSplitter
from langchain_community.vectorstores import Chroma
from langchain_community.embeddings import HuggingFaceEmbeddings
import os
from pathlib import Path


# 載入文檔
loader = TextLoader("books/三國演義.txt")
documents = loader.load()

# 分割文檔
# chunk_size=1000: 每個文本區塊最多 1000 個字元，避免超過模型限制
# chunk_overlap=200: 區塊之間重疊 200 個字元，防止重要資訊在分割時被切斷
text_spliter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
docs = text_spliter.split_documents(documents)

# 使用 HuggingFace 的中文 embedding 模型
embeddings = HuggingFaceEmbeddings(
    model_name = 'jinaai/jina-embeddings-v2-base-zh'
)

# 設定向量資料庫路徑（使用絕對路徑避免權限問題）
db_path = os.path.abspath("./db")

# 檢查資料庫是否已存在，避免每次都重建
if Path(db_path).exists():
    # 資料庫已存在，直接載入
    db = Chroma(persist_directory=db_path, embedding_function=embeddings)
    print("載入現有資料庫")
else:
    # 資料庫不存在，建立新的向量資料庫
    db = Chroma.from_documents(docs, embeddings, persist_directory=db_path)
    print("建立新資料庫")

# 查詢與「劉備」最相似的 3 個文本區塊
results = db.similarity_search("劉備", k=3)
print(results)

Created a chunk of size 1048, which is longer than the specified 1000
Created a chunk of size 1312, which is longer than the specified 1000
Created a chunk of size 1007, which is longer than the specified 1000
Created a chunk of size 1184, which is longer than the specified 1000
Created a chunk of size 1045, which is longer than the specified 1000
Created a chunk of size 1132, which is longer than the specified 1000
Created a chunk of size 1674, which is longer than the specified 1000
Some weights of BertModel were not initialized from the model checkpoint at jinaai/jina-embeddings-v2-base-zh and are newly initialized: ['embeddings.position_embeddings.weight', 'encoder.layer.0.intermediate.dense.bias', 'encoder.layer.0.intermediate.dense.weight', 'encoder.layer.0.output.LayerNorm.bias', 'encoder.layer.0.output.LayerNorm.weight', 'encoder.layer.0.output.dense.bias', 'encoder.layer.0.output.dense.weight', 'encoder.layer.1.intermediate.dense.bias', 'encoder.layer.1.intermediate.dense.weig

載入現有資料庫
[Document(metadata={'source': 'books/三國演義.txt'}, page_content='術惶恐無言，命斬進讒之人，以謝孫堅。忽人報堅曰：「關上有一將，乘馬來寨中\n，要見將軍。」堅辭袁術，歸到本寨，喚來問時，乃董卓愛將李傕。堅曰：「汝來何為\n？」傕曰：「丞相所敬者，惟將軍耳。今特使傕來結親：丞相有女，欲配將軍之子。」\n堅大怒，叱曰：「董卓逆天無道，蕩覆王室，吾欲夷其九族，以謝天下，安肯與逆賊結\n親耶！吾不斬汝！汝當速去，早早獻關，饒你性命！倘若遲誤，粉骨碎身！」\n\n\u3000\u3000李傕抱頭鼠竄，回見董卓，說孫堅如此無禮。卓怒，問李儒。儒曰：「溫侯新敗，\n兵無戰心。不若引兵回洛陽，遷帝於長安，以應童謠。近日街市童謠曰：『西頭一個漢\n，東頭一個漢。鹿走入長安，方可無斯難。』臣思此言，『西頭一個漢』，乃應高祖旺\n於西都長安，傳一十二帝；『東頭一個漢』，乃應光武旺於東都洛陽，今亦傳一十二帝\n。天運合回，丞相遷回長安，方可無虞。」卓大喜曰：「非汝言，吾實不悟。」遂引呂\n布星夜回洛陽，商議遷都。聚文武於朝堂，卓曰：「漢東都洛陽，二百餘年，氣數已衰\n。吾觀旺氣實在長安，吾欲奉駕西幸。汝等各宜促裝。」\n\n\u3000\u3000司徒楊彪曰：「關中殘破零落。今無故捐宗廟，棄皇陵，恐百姓驚動。天下動之至\n易，安之至難：望丞相鋻察。」卓怒曰：「汝阻國家大計耶？」太尉黃琬曰：「楊司徒\n之言是也；往者王莽篡逆，更始赤眉之時，焚燒長安，盡為瓦礫之地；更兼人民流移，\n百無一二；今棄宮室而就荒地，非所宜也。」卓曰：「關東賊起，天下播亂；長安有崤\n、函之險；更近隴右，木石磚瓦，剋日可辦，宮室營造，不須月餘。汝等再休亂言。」\n司徒苟爽諫曰：「丞相若欲遷都，百姓騷動不寧矣。」卓大怒曰：「吾為天下計，豈惜\n小民哉！」即日罷楊彪、黃琬、荀爽為庶民。\n\n\u3000\u3000卓出上車，只見二人望車而揖；視之，乃尚書周毖、城門校尉伍瓊也。卓問有何事\n，毖曰：「今聞丞相欲遷都長安，故來諫耳。」卓大怒曰：「我始初聽你兩個，保用袁\n紹；今紹已反，是汝等一黨！」叱武士推出都門斬首。遂下令遷都，限來日便行。李儒\n曰：「今錢糧缺少，洛陽富戶極多，可籍沒入官。但是袁紹等門下，殺其宗黨而抄其家\n貲，必得巨萬。」')