加载txt文件，建立本地知识库

In [None]:
%pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

In [None]:
#######################
# 做一些初始化等准备工作  #
#######################

from dotenv import load_dotenv
import os
import sys

load_dotenv()  # 加载.env文件

openapi_key = os.getenv("OPENAI_API_KEY")  # 确保openapi_key已设置

if not openapi_key:
    print("[ERROR] OPENAI_API_KEY not set")
    sys.exit(1)

In [None]:
#################
# 进行文档分词处理 #
#################

from langchain.document_loaders import DirectoryLoader
from langchain.document_loaders import TextLoader
from langchain.text_splitter import SpacyTextSplitter


# 初始化目录加载器
# loader = DirectoryLoader(path='./txt/out', glob="**/*.txt", loader_cls=TextLoader)
loader = DirectoryLoader(path='./txt', glob="**/*.txt", loader_cls=TextLoader)

# 加载文档
documents = loader.load()

# 初始化分词器
text_splitter = SpacyTextSplitter(pipeline='zh_core_web_sm',chunk_size=1000,chunk_overlap=0)

# 文档分块
split_docs = text_splitter.split_documents(documents)

In [None]:
print(len(split_docs))

In [None]:
###################################################
# 1. 调用open ai的embedding模型，将分词向量化
# 2. 保存分词结果到 chroma_db
###################################################

import os
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.vectorstores import Chroma

# TODO: 这里可以切换成其他的embedding模型，比如 LlamaCppEmbeddings, HuggingFaceHubEmbeddings
embeddings = OpenAIEmbeddings(openai_api_key=os.getenv("OPENAI_API_KEY"))

# 保存分词结果到向量数据库Chroma
db = Chroma.from_documents(documents=split_docs, embedding=embeddings, persist_directory='./chroma_db')
db.persist()
db = None

In [None]:


# from langchain.llms import OpenAI
# from langchain.chains.question_answering import load_qa_chain
# import os
# from langchain.embeddings.openai import OpenAIEmbeddings
# from langchain.vectorstores import Chroma

# embeddings = OpenAIEmbeddings(openai_api_key=os.getenv("OPENAI_API_KEY"))

# # 初始化llm
# llm = OpenAI(temperature=0, openai_api_key=os.getenv("OPENAI_API_KEY"))
# chain = load_qa_chain(llm=llm, chain_type='stuff')

# persist_directory = './chroma_db'
# db = Chroma(persist_directory=persist_directory, embedding_function=embeddings)

# query = "如何处理需要不同账户与端口登录的不同机器？"
# docs = db.similarity_search(query, 1)

In [None]:


from langchain.llms import LlamaCpp
from langchain.chains.question_answering import load_qa_chain
import os
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.vectorstores import Chroma

embeddings = OpenAIEmbeddings(openai_api_key=os.getenv("OPENAI_API_KEY"))

# 初始化 llama.cpp 模型
llm = LlamaCpp(model_path="/Users/zhiwen/code/llama.cpp/zh-models/7B/ggml-model-q4_0.bin")

chain = load_qa_chain(llm=llm, chain_type='stuff')

# chroma加载上述embedding后的暂存的数据
db = Chroma(persist_directory='./chroma_db', embedding_function=embeddings)

# 示例的prompt
query = "如何处理需要不同账户与端口登录的不同机器？"

docs = db.similarity_search(query, 1)

In [None]:
print(docs[0].page_content)

In [40]:
# llama_tokenize: too many tokens 的报错参考如下issue: https://github.com/ggerganov/llama.cpp/issues/385
chain.run(input_documents=docs, question=query)

llama_tokenize: too many tokens


RuntimeError: Failed to tokenize: text="b" Use the following pieces of context to answer the question at the end. If you don't know the answer, just say that you don't know, don't try to make up an answer.\n\nInstallation\n\nTopics\n\nInstallation\n\xe4\xbb\x8eGithub\xe8\x8e\xb7\xe5\x8f\x96Ansible\n\xe9\x9c\x80\xe8\xa6\x81\xe5\xae\x89\xe8\xa3\x85\xe4\xba\x9b\xe4\xbb\x80\xe4\xb9\x88\n\xe9\x80\x89\xe6\x8b\xa9\xe5\x93\xaa\xe4\xb8\x80\xe4\xb8\xaa\xe7\x89\x88\xe6\x9c\xac?\n\xe5\xaf\xb9\xe7\xae\xa1\xe7\x90\x86\xe4\xb8\xbb\xe6\x9c\xba\xe7\x9a\x84\xe8\xa6\x81\xe6\xb1\x82\n\xe5\xaf\xb9\xe6\x89\x98\xe7\xae\xa1\xe8\x8a\x82\xe7\x82\xb9\xe7\x9a\x84\xe8\xa6\x81\xe6\xb1\x82\n\xe5\xae\x89\xe8\xa3\x85\xe7\xae\xa1\xe7\x90\x86\xe4\xb8\xbb\xe6\x9c\xba\n\xe4\xbb\x8e\xe6\xba\x90\xe7\xa0\x81\xe8\xbf\x90\xe8\xa1\x8c\n\xe9\x80\x9a\xe8\xbf\x87Yum\xe5\xae\x89\xe8\xa3\x85\xe6\x9c\x80\xe6\x96\xb0\xe5\x8f\x91\xe5\xb8\x83\xe7\x89\x88\xe6\x9c\xac\n\xe9\x80\x9a\xe8\xbf\x87Apt (Ubuntu)\xe5\xae\x89\xe8\xa3\x85\xe6\x9c\x80\xe6\x96\xb0\xe5\x8f\x91\xe5\xb8\x83\xe7\x89\x88\xe6\x9c\xac\n\xe9\x80\x9a\xe8\xbf\x87 Portage (Gentoo)\xe5\xae\x89\xe8\xa3\x85\xe6\x9c\x80\xe6\x96\xb0\xe5\x8f\x91\xe5\xb8\x83\xe7\x89\x88\xe6\x9c\xac\n\xe9\x80\x9a\xe8\xbf\x87 pkg (FreeBSD)\xe5\xae\x89\xe8\xa3\x85\xe6\x9c\x80\xe6\x96\xb0\xe5\x8f\x91\xe5\xb8\x83\xe7\x89\x88\xe6\x9c\xac\n\xe5\x9c\xa8Mac OSX \xe4\xb8\x8a\xe5\xae\x89\xe8\xa3\x85\xe6\x9c\x80\xe6\x96\xb0\xe5\x8f\x91\xe5\xb8\x83\xe7\x89\x88\xe6\x9c\xac\n\xe9\x80\x9a\xe8\xbf\x87 OpenCSW \xe5\xae\x89\xe8\xa3\x85\xe6\x9c\x80\xe6\x96\xb0\xe5\x8f\x91\xe5\xb8\x83\xe7\x89\x88\xe6\x9c\xac(Solaris)\n\xe9\x80\x9a\xe8\xbf\x87 Pacman \xe5\xae\x89\xe8\xa3\x85\xe6\x9c\x80\xe6\x96\xb0\xe5\x8f\x91\xe5\xb8\x83\xe7\x89\x88\xe6\x9c\xac(Arch Linux)\n\xe9\x80\x9a\xe8\xbf\x87 Pip \xe5\xae\x89\xe8\xa3\x85\xe6\x9c\x80\xe6\x96\xb0\xe5\x8f\x91\xe5\xb8\x83\xe7\x89\x88\xe6\x9c\xac\n\xe5\x8f\x91\xe8\xa1\x8c\xe7\x89\x88\xe7\x9a\x84Tarball\n\n\n\n\n\n\n\n\xe4\xbb\x8eGithub\xe8\x8e\xb7\xe5\x8f\x96Ansible\n\xe5\xa6\x82\xe6\x9e\x9c\xe4\xbd\xa0\xe6\x9c\x89\xe4\xb8\x80\xe4\xb8\xaagithub\xe8\xb4\xa6\xe6\x88\xb7,\xe5\x8f\xaf\xe4\xbb\xa5\xe8\xb7\x9f\xe8\xbf\x9bAnsible\xe5\x9c\xa8Github\xe7\x9a\x84\xe9\xa1\xb9\xe7\x9b\xae: Github project \xe6\x88\x91\xe4\xbb\xac\xe5\x9c\xa8\xe8\xbf\x99\xe9\x87\x8c\xe4\xbf\x9d\xe6\x8c\x81\xe5\xaf\xb9bugs\xe5\x92\x8cfeature ideas\xe7\x9a\x84\xe8\xb7\x9f\xe8\xb8\xaa.\n\n\n\xe9\x9c\x80\xe8\xa6\x81\xe5\xae\x89\xe8\xa3\x85\xe4\xba\x9b\xe4\xbb\x80\xe4\xb9\x88\nAnsible\xe9\xbb\x98\xe8\xae\xa4\xe9\x80\x9a\xe8\xbf\x87  SSH \xe5\x8d\x8f\xe8\xae\xae\xe7\xae\xa1\xe7\x90\x86\xe6\x9c\xba\xe5\x99\xa8.\n\xe5\xae\x89\xe8\xa3\x85Ansible\xe4\xb9\x8b\xe5\x90\x8e,\xe4\xb8\x8d\xe9\x9c\x80\xe8\xa6\x81\xe5\x90\xaf\xe5\x8a\xa8\xe6\x88\x96\xe8\xbf\x90\xe8\xa1\x8c\xe4\xb8\x80\xe4\xb8\xaa\xe5\x90\x8e\xe5\x8f\xb0\xe8\xbf\x9b\xe7\xa8\x8b,\xe6\x88\x96\xe6\x98\xaf\xe6\xb7\xbb\xe5\x8a\xa0\xe4\xb8\x80\xe4\xb8\xaa\xe6\x95\xb0\xe6\x8d\xae\xe5\xba\x93.\n\n\xe5\x8f\xaa\xe8\xa6\x81\xe5\x9c\xa8\xe4\xb8\x80\xe5\x8f\xb0\xe7\x94\xb5\xe8\x84\x91(\xe5\x8f\xaf\xe4\xbb\xa5\xe6\x98\xaf\xe4\xb8\x80\xe5\x8f\xb0\xe7\xac\x94\xe8\xae\xb0\xe6\x9c\xac)\xe4\xb8\x8a\xe5\xae\x89\xe8\xa3\x85\xe5\xa5\xbd,\xe5\xb0\xb1\xe5\x8f\xaf\xe4\xbb\xa5\xe9\x80\x9a\xe8\xbf\x87\xe8\xbf\x99\xe5\x8f\xb0\xe7\x94\xb5\xe8\x84\x91\xe7\xae\xa1\xe7\x90\x86\xe4\xb8\x80\xe7\xbb\x84\xe8\xbf\x9c\xe7\xa8\x8b\xe7\x9a\x84\xe6\x9c\xba\xe5\x99\xa8.\n\n\xe5\x9c\xa8\xe8\xbf\x9c\xe7\xa8\x8b\xe8\xa2\xab\xe7\xae\xa1\xe7\x90\x86\xe7\x9a\x84\xe6\x9c\xba\xe5\x99\xa8\xe4\xb8\x8a,\xe4\xb8\x8d\xe9\x9c\x80\xe8\xa6\x81\xe5\xae\x89\xe8\xa3\x85\xe8\xbf\x90\xe8\xa1\x8c\xe4\xbb\xbb\xe4\xbd\x95\xe8\xbd\xaf\xe4\xbb\xb6,\xe5\x9b\xa0\xe6\xad\xa4\xe5\x8d\x87\xe7\xba\xa7Ansible\xe7\x89\x88\xe6\x9c\xac\xe4\xb8\x8d\xe4\xbc\x9a\xe6\x9c\x89\xe5\xa4\xaa\xe5\xa4\x9a\xe9\x97\xae\xe9\xa2\x98.\n\n\n\xe9\x80\x89\xe6\x8b\xa9\xe5\x93\xaa\xe4\xb8\x80\xe4\xb8\xaa\xe7\x89\x88\xe6\x9c\xac?\n\n\n\xe5\x9b\xa0\xe4\xb8\xbaAnsible\xe5\x8f\xaf\xe4\xbb\xa5\xe5\xbe\x88\xe7\xae\x80\xe5\x8d\x95\xe7\x9a\x84\xe4\xbb\x8e\xe6\xba\x90\xe7\xa0\x81\xe8\xbf\x90\xe8\xa1\x8c,\xe4\xb8\x94\xe4\xb8\x8d\xe5\xbf\x85\xe5\x9c\xa8\xe8\xbf\x9c\xe7\xa8\x8b\xe8\xa2\xab\xe7\xae\xa1\xe7\x90\x86\xe6\x9c\xba\xe5\x99\xa8\xe4\xb8\x8a\xe5\xae\x89\xe8\xa3\x85\xe4\xbb\xbb\xe4\xbd\x95\xe8\xbd\xaf\xe4\xbb\xb6,\xe5\xbe\x88\xe5\xa4\x9aAnsible\xe7\x94\xa8\xe6\x88\xb7\xe4\xbc\x9a\xe8\xb7\x9f\xe8\xbf\x9b\xe4\xbd\xbf\xe7\x94\xa8\xe5\xbc\x80\xe5\x8f\x91\xe7\x89\x88\xe6\x9c\xac.\nAnsible\xe4\xb8\x80\xe8\x88\xac\xe6\xaf\x8f\xe4\xb8\xa4\xe4\xb8\xaa\xe6\x9c\x88\xe5\x87\xba\xe4\xb8\x80\xe4\xb8\xaa\xe5\x8f\x91\xe8\xa1\x8c\xe7\x89\x88\xe6\x9c\xac.\n\n\xe5\xb0\x8fbugs\xe4\xb8\x80\xe8\x88\xac\xe5\x9c\xa8\xe4\xb8\x8b\xe4\xb8\x80\xe4\xb8\xaa\xe5\x8f\x91\xe8\xa1\x8c\xe7\x89\x88\xe6\x9c\xac\xe4\xb8\xad\xe4\xbf\xae\xe5\xa4\x8d,\xe5\xb9\xb6\xe5\x9c\xa8\xe7\xa8\xb3\xe5\xae\x9a\xe5\x88\x86\xe6\x94\xaf\xe4\xb8\xad\xe5\x81\x9abackports.\n\n\xe5\xa4\xa7bugs\xe4\xbc\x9a\xe5\x9c\xa8\xe5\xbf\x85\xe8\xa6\x81\xe6\x97\xb6\xe5\x87\xba\xe4\xb8\x80\xe4\xb8\xaa\xe7\xbb\xb4\xe6\x8a\xa4\xe7\x89\x88\xe6\x9c\xac,\xe4\xb8\x8d\xe8\xbf\x87\xe8\xbf\x99\xe4\xb8\x8d\xe6\x98\xaf\xe5\xbe\x88\xe9\xa2\x91\xe7\xb9\x81.\n\n\n\xe8\x8b\xa5\xe4\xbd\xa0\xe5\xb8\x8c\xe6\x9c\x9b\xe4\xbd\xbf\xe7\x94\xa8Ansible\xe7\x9a\x84\xe6\x9c\x80\xe6\x96\xb0\xe7\x89\x88\xe6\x9c\xac,\xe5\xb9\xb6\xe4\xb8\x94\xe4\xbd\xa0\xe4\xbd\xbf\xe7\x94\xa8\xe7\x9a\x84\xe6\x93\x8d\xe4\xbd\x9c\xe7\xb3\xbb\xe7\xbb\x9f\xe6\x98\xaf Red Hat Enterprise Linux (TM), CentOS, Fedora, Debian, Ubuntu,\xe6\x88\x91\xe4\xbb\xac\xe5\xbb\xba\xe8\xae\xae\xe4\xbd\xbf\xe7\x94\xa8\xe7\xb3\xbb\xe7\xbb\x9f\xe7\x9a\x84\xe8\xbd\xaf\xe4\xbb\xb6\xe5\x8c\x85\xe7\xae\xa1\xe7\x90\x86\xe5\x99\xa8.\n\n\n\xe5\x8f\xa6\xe6\x9c\x89\xe4\xb8\x80\xe7\xa7\x8d\xe9\x80\x89\xe6\x8b\xa9\xe6\x98\xaf\xe9\x80\x9a\xe8\xbf\x87\xe2\x80\x9dpip\xe2\x80\x9d\xe5\xb7\xa5\xe5\x85\xb7\xe5\xae\x89\xe8\xa3\x85,\xe2\x80\x9dpip\xe2\x80\x9d\xe6\x98\xaf\xe4\xb8\x80\xe4\xb8\xaa\xe5\xae\x89\xe8\xa3\x85\xe5\x92\x8c\xe7\xae\xa1\xe7\x90\x86Python\xe5\x8c\x85\xe7\x9a\x84\xe5\xb7\xa5\xe5\x85\xb7.\n\n\n\xe8\x8b\xa5\xe4\xbd\xa0\xe5\xb8\x8c\xe6\x9c\x9b\xe8\xb7\x9f\xe8\xbf\x9b\xe5\xbc\x80\xe5\x8f\x91\xe7\x89\x88\xe6\x9c\xac,\xe6\x83\xb3\xe4\xbd\xbf\xe7\x94\xa8\xe5\x92\x8c\xe6\xb5\x8b\xe8\xaf\x95\xe6\x9c\x80\xe6\x96\xb0\xe7\x9a\x84\xe5\x8a\x9f\xe8\x83\xbd\xe7\x89\xb9\xe6\x80\xa7,\xe6\x88\x91\xe4\xbb\xac\xe4\xbc\x9a\xe5\x88\x86\xe4\xba\xab\xe5\xa6\x82\xe4\xbd\x95\xe4\xbb\x8e\xe6\xba\x90\xe7\xa0\x81\xe8\xbf\x90\xe8\xa1\x8cAnsible\xe7\x9a\x84\xe6\x96\xb9\xe6\xb3\x95.\n\nQuestion: \xe5\xa6\x82\xe4\xbd\x95\xe5\xa4\x84\xe7\x90\x86\xe9\x9c\x80\xe8\xa6\x81\xe4\xb8\x8d\xe5\x90\x8c\xe8\xb4\xa6\xe6\x88\xb7\xe4\xb8\x8e\xe7\xab\xaf\xe5\x8f\xa3\xe7\x99\xbb\xe5\xbd\x95\xe7\x9a\x84\xe4\xb8\x8d\xe5\x90\x8c\xe6\x9c\xba\xe5\x99\xa8\xef\xbc\x9f\nHelpful Answer:"" n_tokens=-545