## 1. 加载文本物料

In [23]:
from langchain_community.document_loaders import TextLoader

loader = TextLoader("./data/stories.txt")
docs = loader.load()
print(docs[0].page_content[:500])

晴明平日里过着平凡而无趣的生活。他住在大渊朝代的一个小村庄中，村庄四周是郁郁葱葱的山林。每天，晴明都会在村庄中忙碌，帮助父母务农。他渴望着一种特殊的能力，希望能够改变自己的命运。

一天，晴明独自来到山林中，他沿着小径走着，感受着清新的空气和绿意盎然的景色。突然，他听到了一阵古老的琴音，清澈而动听。他顺着琴音的方向走去，发现了一个隐蔽的山洞。

晴明好奇地走进山洞，只见洞内照亮着一盏明亮的灯笼。在灯光下，他看到了一个神秘的老者，他的背影高大而威严，长发披肩，一袭白袍飘逸如云。老者正在弹奏着一把古琴。

晴明心中一动，他感觉到这个老者与他的命运息息相关。他走近老者，谨慎地问道：“尊敬的前辈，我是晴明，有何指教？”

老者停下了琴音，转过身来，目光深邃地看着晴明。他微笑着说道：“晴明，你注定要成为伟大的仙侠，拥有无与伦比的力量。我是来指引你的。”

晴明瞪大了眼睛，难以置信地看着老者。他心中涌起一股激动和希望，终于有机会改变自己的命运了。

晴明虽然兴奋，但还是有些怀疑，他问老者如何证明自己的身份。他想要确保这位神秘老者是真正的指引者，而不是骗子。

老者微笑着点了点头，从袖子里取出一枚闪


## 2. 文本预处理（文本拆分）

In [24]:
from langchain_text_splitters import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1000, chunk_overlap=200, add_start_index=True
)
all_splits = text_splitter.split_documents(docs)
len(all_splits)

2

In [25]:
len(all_splits[0].page_content)

989

## 3. 索引存储

In [26]:
import os
from langchain_chroma import Chroma
from langchain_openai import OpenAIEmbeddings

vectorstore = Chroma.from_documents(documents=all_splits, embedding=OpenAIEmbeddings(), persist_directory="./chroma_persist", collection_name="qingming")

## 4. 检索

In [27]:
retriever = vectorstore.as_retriever(search_type="similarity", search_kwargs={"k": 2})
retrieved_docs = retriever.invoke("晴明在山洞里遇到了谁?")
len(retrieved_docs)
print(retrieved_docs[0].page_content)

晴明平日里过着平凡而无趣的生活。他住在大渊朝代的一个小村庄中，村庄四周是郁郁葱葱的山林。每天，晴明都会在村庄中忙碌，帮助父母务农。他渴望着一种特殊的能力，希望能够改变自己的命运。

一天，晴明独自来到山林中，他沿着小径走着，感受着清新的空气和绿意盎然的景色。突然，他听到了一阵古老的琴音，清澈而动听。他顺着琴音的方向走去，发现了一个隐蔽的山洞。

晴明好奇地走进山洞，只见洞内照亮着一盏明亮的灯笼。在灯光下，他看到了一个神秘的老者，他的背影高大而威严，长发披肩，一袭白袍飘逸如云。老者正在弹奏着一把古琴。

晴明心中一动，他感觉到这个老者与他的命运息息相关。他走近老者，谨慎地问道：“尊敬的前辈，我是晴明，有何指教？”

老者停下了琴音，转过身来，目光深邃地看着晴明。他微笑着说道：“晴明，你注定要成为伟大的仙侠，拥有无与伦比的力量。我是来指引你的。”

晴明瞪大了眼睛，难以置信地看着老者。他心中涌起一股激动和希望，终于有机会改变自己的命运了。

晴明虽然兴奋，但还是有些怀疑，他问老者如何证明自己的身份。他想要确保这位神秘老者是真正的指引者，而不是骗子。

老者微笑着点了点头，从袖子里取出一枚闪烁着光芒的玉佩，递给了晴明。晴明接过玉佩，只觉得手心一热，一股温暖的能量传遍全身。

老者解释道：“这是我家族的传家宝，只有真正的仙侠才能感应到它的力量。晴明，你手中的玉佩已经与你的命运紧密相连。”

晴明感到心中的怀疑渐渐消散，他看着手中的玉佩，感受到了一种前所未有的亲近感。他知道，这是他与仙侠的联系。

晴明决定相信老者，他迫不及待地询问如何获得仙侠的力量。他渴望改变自己平凡的生活，成为一个真正的仙侠。

老者微笑着说道：“获得仙侠的力量并非易事，需要经历一系列的考验。首先，你需要前往大渊山脉中的仙境，寻找神秘的仙灵。只有得到仙灵的认可，你才能获得真正的仙侠之力。”

晴明听得津津有味，他迫不及待地问道：“请问，如何前往大渊山脉？”

老者指着远方的山脉说道：“大渊山脉位于东方，你需要穿过茫茫的森林和险峻的山峦，一路上会有各种危险和考验。但只有经历了这些，你才能成为真正的仙侠。”

晴明心中燃起了一股决心，他知道这是他改变命运的机会。他向老者鞠了一躬，表示感激和决心。

晴明决定立即启程，向大渊山脉出发。他感受到内心的激动和决心，准备面对即将到来的危险和考验。


## 5. 生成答案

In [28]:
from langchain_openai import ChatOpenAI
llm = ChatOpenAI(model="gpt-3.5-turbo-0125")

In [29]:
from langchain import hub
from langchain_core.prompts import PromptTemplate

template = """使用以下上下文来回答最后的问题。
如果你不知道答案，就说你不知道，不要试图编造答案。
最多使用三句话，并尽可能简洁地回答。
在答案的最后一定要说“谢谢询问！”。

{context}

问题: {question}

答案:"""
custom_rag_prompt = PromptTemplate.from_template(template)

In [30]:
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough


def format_docs(docs):
    return "\n\n".join(doc.page_content for doc in docs)


rag_chain = (
    {"context": retriever | format_docs, "question": RunnablePassthrough()}
    | custom_rag_prompt
    | llm
    | StrOutputParser()
)

In [31]:
for chunk in rag_chain.stream("晴明在山洞里遇到了谁??"):
    print(chunk, end="", flush=True)

晴明在山洞里遇到了一个神秘的老者。谢谢询问！

## 6. 追加和更新矢量库内容

In [32]:

loader = TextLoader("./data/append-stories.txt")
docs = loader.load()

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1000, chunk_overlap=200, add_start_index=True
)
all_splits = text_splitter.split_documents(docs)
vectorstore = Chroma.from_documents(documents=all_splits, embedding=OpenAIEmbeddings(), persist_directory="./chroma_persist", collection_name="qingming")
retriever = vectorstore.as_retriever(search_type="similarity", search_kwargs={"k": 2})
rag_chain = (
    {"context": retriever | format_docs, "question": RunnablePassthrough()}
    | custom_rag_prompt
    | llm
    | StrOutputParser()
)

In [33]:
for chunk in rag_chain.stream("晴明在山洞里遇到了谁?"):
    print(chunk, end="", flush=True)

晴明在山洞里遇到了一个神秘的老者。谢谢询问！

In [34]:
for chunk in rag_chain.stream("晴明在仙境中遇到了什么经历?"):
    print(chunk, end="", flush=True)

晴明在仙境中破解了石壁上的密码，通过了第一道试炼，接着前往山顶继续接受考验。谢谢询问！

## 附录

更多 langchain-chroma 说明，见[官方文档](https://python.langchain.com/v0.1/docs/integrations/vectorstores/chroma/#)