# 使用 LangChain 搭建本地知识库

## 1. 读取本地知识文档

In [1]:
from langchain.document_loaders import UnstructuredFileLoader
from langchain.text_splitter import CharacterTextSplitter
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.vectorstores import Milvus, FAISS

In [2]:
file = r"/aidata/junjie/data/text/sample/demo.txt"

- 1.1 加载文件

In [3]:
loader = UnstructuredFileLoader(file)
docs =  loader.load()
docs = docs[0].page_content
len(docs)

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /home/junjie/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /home/junjie/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /home/junjie/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /home/junjie/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /home/junjie/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading p

122055

- 1.2 文本分割

In [4]:
docs

'【《TXT论坛》www.txtbbs.com ， 欢迎您来TXTBBS推荐好书！】\n\n第一部分来自各界的推荐\n\n这是一本催人奋进的书，展示了作者踏实的作风和出众的才华，它不仅在传授学习方法，更是在励志，在树人，可谓“治标又治本”。无论学生、家长还是一线教师都可以从本书中获益。所有希望用学习来改变自己命运的人都应该阅读本书。\n\n——黄冈中学化学奥赛教练 湖北省高级教师 熊全告\n\n谨向广大中学生朋友推荐这部值得品读的好书，其思想内涵丰富，哲理性、可读性强，学习策略、技巧有独到之处。“不是抓紧每一分钟学习，而是抓紧学习的每一分钟”等观点很精辟，值得推荐。\n\n——况良华 重庆市特级教师\n\n这本书中某些为高考辩护的观点会引起争议的，让人觉得是在为“应试教育”唱赞歌。但如果真的理解了本书的精神实质，一定会为作者的苦心所感动的——它并不高谈宏大的教育改革理想，而是告诉中学生如何在现行的教育体制下取得成功。\n\n——中学教育问题专家《北大清华状元的家庭教育》作者 夏擎荷\n\n李老师的演讲很好，李老师自己就是高考的成功者，他讲的东西很符合孩子的心理和学习生活的状况，孩子愿意听他的话。他说一句，比我们家长对孩子“唠叨”一整天都管用。\n\n——凌琼同学的家长\n\n这是我见过的最好的考试励志书。作者从自身的经历出发，为读者提供了具体可行的学习策略，尤其可贵的是，书中大量案例和成功人士的故事，读来轻松愉快。对于每一个在痛苦中挣扎且必须面对独木桥的中学生来说，这本书确实是意义非凡的。\n\n——《在北大听讲座》主编\u3000\u3000文池\n\n独特视角，带您走出学习误区\n\n翔实案例，演绎人生成功哲学\n\n历时五年，巡回中国，上百场演出，数十万学生家长受益\n\n数十位专家学者，特级教授，高考状元联名推荐\n\n《内容简介》：\n\n这是一本每个中学生和渴望成功的人都应该读的书，是作者多年研究、演讲，并和广大一线教师、学生、家长广泛交流的成果，思想深刻、引证广泛，不仅包括了自身的成功经验、众多优秀学子的学习方法，还旁征博引：从中国古代的孔子，到现代西方的罗素，从苏格拉底、柏拉图的哲学思想到毛泽东的军事思想，从《三国演义》到金庸小说到当代西方畅销小说《教父》，甚至还包括前伊拉克总统萨达姆、美国国务卿鲍威尔、刚刚去世的香港艺人黄霑、当代经济学家樊纲，直至

In [5]:
text_splitter = CharacterTextSplitter(chunk_size=500, chunk_overlap=200)
docs = text_splitter.split_text(docs)
docs

Created a chunk of size 842, which is longer than the specified 500
Created a chunk of size 841, which is longer than the specified 500
Created a chunk of size 505, which is longer than the specified 500
Created a chunk of size 506, which is longer than the specified 500
Created a chunk of size 506, which is longer than the specified 500
Created a chunk of size 629, which is longer than the specified 500
Created a chunk of size 1118, which is longer than the specified 500
Created a chunk of size 989, which is longer than the specified 500
Created a chunk of size 580, which is longer than the specified 500
Created a chunk of size 512, which is longer than the specified 500
Created a chunk of size 516, which is longer than the specified 500


['【《TXT论坛》www.txtbbs.com ， 欢迎您来TXTBBS推荐好书！】\n\n第一部分来自各界的推荐\n\n这是一本催人奋进的书，展示了作者踏实的作风和出众的才华，它不仅在传授学习方法，更是在励志，在树人，可谓“治标又治本”。无论学生、家长还是一线教师都可以从本书中获益。所有希望用学习来改变自己命运的人都应该阅读本书。\n\n——黄冈中学化学奥赛教练 湖北省高级教师 熊全告\n\n谨向广大中学生朋友推荐这部值得品读的好书，其思想内涵丰富，哲理性、可读性强，学习策略、技巧有独到之处。“不是抓紧每一分钟学习，而是抓紧学习的每一分钟”等观点很精辟，值得推荐。\n\n——况良华 重庆市特级教师\n\n这本书中某些为高考辩护的观点会引起争议的，让人觉得是在为“应试教育”唱赞歌。但如果真的理解了本书的精神实质，一定会为作者的苦心所感动的——它并不高谈宏大的教育改革理想，而是告诉中学生如何在现行的教育体制下取得成功。\n\n——中学教育问题专家《北大清华状元的家庭教育》作者 夏擎荷',
 '——况良华 重庆市特级教师\n\n这本书中某些为高考辩护的观点会引起争议的，让人觉得是在为“应试教育”唱赞歌。但如果真的理解了本书的精神实质，一定会为作者的苦心所感动的——它并不高谈宏大的教育改革理想，而是告诉中学生如何在现行的教育体制下取得成功。\n\n——中学教育问题专家《北大清华状元的家庭教育》作者 夏擎荷\n\n李老师的演讲很好，李老师自己就是高考的成功者，他讲的东西很符合孩子的心理和学习生活的状况，孩子愿意听他的话。他说一句，比我们家长对孩子“唠叨”一整天都管用。\n\n——凌琼同学的家长\n\n这是我见过的最好的考试励志书。作者从自身的经历出发，为读者提供了具体可行的学习策略，尤其可贵的是，书中大量案例和成功人士的故事，读来轻松愉快。对于每一个在痛苦中挣扎且必须面对独木桥的中学生来说，这本书确实是意义非凡的。\n\n——《在北大听讲座》主编\u3000\u3000文池\n\n独特视角，带您走出学习误区\n\n翔实案例，演绎人生成功哲学\n\n历时五年，巡回中国，上百场演出，数十万学生家长受益\n\n数十位专家学者，特级教授，高考状元联名推荐\n\n《内容简介》：',
 '——《在北大听讲座》主编\u3000\u3000文池\n\n独特视角，带您走出学习误区\n\n翔

- 1.3 构建向量库

    - 一些开源的：
    ```py
    embedding_model_dict = {
        "ernie-tiny": "nghuyong/ernie-3.0-nano-zh",
        "ernie-base": "nghuyong/ernie-3.0-base-zh",
        "text2vec-base": "shibing624/text2vec-base-chinese",
        "text2vec": "GanymedeNil/text2vec-large-chinese",
        "text2vec-paraphrase": "shibing624/text2vec-base-chinese-paraphrase",
        "text2vec-sentence": "shibing624/text2vec-base-chinese-sentence",
        "text2vec-multilingual": "shibing624/text2vec-base-multilingual",
        "m3e-small": "moka-ai/m3e-small",
        "m3e-base": "moka-ai/m3e-base",
        "m3e-large": "moka-ai/m3e-large",
        "bge-small-zh": "BAAI/bge-small-zh",
        "bge-base-zh": "BAAI/bge-base-zh",
        "bge-large-zh": "BAAI/bge-large-zh"
    }
    ```

In [6]:
# embeddings = OpenAIEmbeddings()
from langchain.embeddings


ValidationError: 1 validation error for OpenAIEmbeddings
__root__
  Did not find openai_api_key, please add an environment variable `OPENAI_API_KEY` which contains it, or pass  `openai_api_key` as a named parameter. (type=value_error)