In [None]:
%pip install langchain openai chromadb pandoc unstructured ebooklib sentence-transformers tiktoken ipywidgets

## 读取知识库
这里只是简答的读取epub格式后进行分割之后在存入向量数据库
### 读取三国演义

In [None]:
from langchain.document_loaders import UnstructuredEPubLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.vectorstores import Chroma
import time

timer = time.time()
loader = UnstructuredEPubLoader('three.epub')
docs = loader.load()
print("load",time.time()-timer)
timer = time.time()

text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=100)
split_docs = text_splitter.split_documents(docs)
print("split",time.time()-timer,len(split_docs))
timer = time.time()

embeddings=HuggingFaceEmbeddings(model_name='shibing624/text2vec-base-chinese')
persist_directory="./chroma_db"
vectorstore = Chroma("three",embeddings,persist_directory)
for i in range(len(split_docs)):
    if i%10==0:
        print("[{}] {} / {}".format(time.ctime(),i,len(split_docs)))
    vectorstore.add_documents([split_docs[i]])
print("embedding",time.time()-timer)

### 读取《神雕侠侣》
这里尝试使用更长的分片来进行

In [None]:
from langchain.document_loaders import UnstructuredEPubLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.vectorstores import Chroma
import time

timer = time.time()
loader = UnstructuredEPubLoader('shendiao.epub')
docs = loader.load()
print("load",time.time()-timer)
timer = time.time()

text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
split_docs = text_splitter.split_documents(docs)
print("split",time.time()-timer,len(split_docs))
timer = time.time()

embeddings=HuggingFaceEmbeddings(model_name='shibing624/text2vec-base-chinese')
persist_directory="./chroma_db"
vectorstore = Chroma("shendiao",embeddings,persist_directory)
for i in range(len(split_docs)):
    if i%10==0:
        print("[{}] {} / {}".format(time.ctime(),i,len(split_docs)))
    vectorstore.add_documents([split_docs[i]])
print("embedding",time.time()-timer)

## 提问流程
好像文言文的信息量有点大，常规的向量计算可能得优化

In [None]:
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.vectorstores import Chroma
from langchain.llms import OpenAI
from langchain.chains.question_answering import load_qa_chain

embeddings=HuggingFaceEmbeddings(model_name='shibing624/text2vec-base-chinese')
vectorstore = Chroma("three",persist_directory="./chroma_db", embedding_function=embeddings)

llm = OpenAI(temperature=0,model_name="gpt-3.5-turbo-16k")
chain = load_qa_chain(llm, chain_type="stuff")

query = "关羽是被谁害死的？"
similar_docs = vectorstore.similarity_search(query, 5)

for d in similar_docs:
    print("======\n{}".format(d.page_content))

chain.run(input_documents=similar_docs, question=query)

### 再试试《神雕侠侣》的提问

In [1]:
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.vectorstores import Chroma
from langchain.llms import OpenAI
from langchain.chains.question_answering import load_qa_chain

embeddings=HuggingFaceEmbeddings(model_name='shibing624/text2vec-base-chinese')
vectorstore = Chroma("shendiao",persist_directory="./chroma_db", embedding_function=embeddings)

llm = OpenAI(temperature=0.5,model_name="gpt-3.5-turbo-16k")
chain = load_qa_chain(llm, chain_type="stuff")

query = "杨过手怎么断的？"
similar_docs = vectorstore.similarity_search(query, 5)

for d in similar_docs:
    print("======\n{}".format(d.page_content))
chain.run(input_documents=similar_docs, question=query)



陆无双又问：“杨大哥。你手臂到底是怎生断的？伤势可全愈了么？”杨过道：“早就好了。是给人斩断的。”陆无双怒道：“是哪个该死的恶贼？他定然使了卑鄙的奸计，是不是？是那万恶的女魔头么？”

忽然背后一个女子声音冷笑道：“你这般背后骂人，难道便不卑鄙么？”陆无双等吃了一惊，回过头来，只见说话的是个美貌少女，正是郭芙。她手持剑柄，怒容满面，身旁男男女女站着好几个人。

陆无双奇道：“我又没骂你，我是骂那斩断杨大哥手臂的恶贼。”

刷的一响，郭芙长剑从鞘中抽出了一半，说道：“他的手臂便是我斩断的。我赔不是也赔过了，给爹爹妈妈也责罚过了，你们还在背后这般恶毒的骂我……”说到这里，眼眶一红，心中委屈无限。

※※※

原来武三通、郭芙、耶律齐、武氏兄弟等在小溪中避火，待火势弱了，才缘溪水而下，和黄蓉及完颜萍、耶律燕相遇，便到绝情谷来。一行人比一灯、杨过等早到了半日，只是在谷前谷后遍寻天竺僧和朱子柳被困之处不获，耽搁了不少时光。至于李莫愁师徒和程英姊姊进入绝情谷，却均是被周伯通童心大发而分别引来。

当下黄蓉、武三通等向一灯行礼，各人互相引见。程英从未见过黄蓉，但久闻这位师姊的大名，一直十分钦仰，当下恭恭敬敬的上前磕头，叫了声：“师姊！”黄蓉从杨过口中早知父亲暮年又收了个女徒，这时见她丰神秀美，问起父亲，得知身体安健，更是欢喜。

守在林旁的绿衣弟子见入谷外敌会合，声势甚盛，不敢出手拦阻，飞报裘千尺去了。

郭芙和陆无双怒目对视，心中互相憎恨。郭芙听母亲吩咐，竟要对程英长辈称呼，更是不喜，那一声“师叔”叫得异常勉强。

杨过和小龙女携手远远的站着。杨过向小龙女臂弯中抱着的郭襄瞧了一眼，说道：“龙儿，把这女孩儿还给她母亲罢。”小龙女举起郭襄，在她颊上亲了亲，走过去递给黄蓉，说道：“郭夫人，你的孩儿。”黄蓉称谢接过，这女孩儿自出娘胎后，直到此刻，她方始安安稳稳的抱在怀里，这份喜悦之情自是不可言喻。

杨过对郭芙朗声说道：“郭姑娘，你妹子安好无恚，我可没拿她去换救命解药。”郭芙怒道：“我妈妈来了，你自然不敢。你若无此心，抱我妹妹到此来干么？”按照杨过往日的脾性，立时便要反唇相稽，但他近月来迭遭生死大变，于这些口舌之争已不放在心上，只淡淡一笑，便和小龙女携手走开。
这时杨过头脑中也是大感晕眩，已知李莫愁运使五毒神掌时剧毒逼入掌心，适才与她手掌相交，不但剧毒传入自己体内，更传到了小龙女身上。

'杨过的手臂是被人斩断的。'