### load document

In [1]:
from langchain.document_loaders import TextLoader

loader = TextLoader("docs/langchain_intro.txt")
docs = loader.load()
len(docs)
docs

1

[Document(page_content='LangChain是一个基于语言模型开发应用程序的框架。它可以实现以下功能:\n\n数据感知: 将语言模型与其他数据源连接起来\n主体性: 允许语言模型与其环境进行交互\nLangChain的主要价值包括:\n\n组件: 用于处理语言模型的抽象，以及每个抽象的一系列实现。组件是模块化且易于使用的，无论您是否使用LangChain框架的其他部分，都可以轻松使用\n现成的管道: 用于完成特定高级任务的结构化组件组合\n现成的管道使得入门变得容易。对于更复杂的应用程序和细致入微的用例，组件使得自定义现有管道或构建新管道变得容易.\n\n开始使用\n这里是如何安装LangChain，设置您的环境并开始构建的方法.\n\n我们建议按照我们的快速入门指南，通过构建您的第一个LangChain应用程序来熟悉该框架.\n\n注意: 这些文档适用于LangChain的Python包。有关LangChain.js（JS/TS版本）的文档，请点击这里。\n\n模块\nLangChain为以下模块提供标准、可扩展的接口和外部集成，从最简单到最复杂的顺序列出:\n\n模型 I/O\n与语言模型进行接口\n\n检索\n与特定于应用程序的数据进行接口\n\n管道\n构建调用序列\n\n代理\n让管道根据高级指令选择使用哪些工具\n\n内存\n在管道运行期间保持应用程序状态\n\n回调\n记录和流式传输任何管道的中间步骤\n\n示例、生态和资源\n用例\n步骤和最佳实践，涵盖常见的端到端用例，例如:\n\n聊天机器人\n使用数据源回答问题\n分析结构化数据\n等等...\n指南\n学习使用LangChain进行开发的最佳实践.\n\n生态系统\nLangChain是一个丰富的工具生态系统的一部分，它与我们的框架集成并在其之上构建。查看我们的日益增长的集成和依赖仓库列表。\n\n其他资源\n我们的社区充满了富有成效的开发人员、富有创造力的构建者和出色的教师。查看YouTube教程以获取来自社区成员的优秀教程，以及Gallery以获取由KyroLabs的人员编制的精彩LangChain项目列表。\n\n社区\n前往社区导航器以寻找提问、分享反馈、结识其他开发人员以及憧憬LLM的未来的场所。\n\nAPI 参考\n前往参考部分，完整文档介绍了LangCha

### split document

In [2]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    # Set a really small chunk size, just to show.
    chunk_size = 100,
    chunk_overlap  = 20,
    length_function = len,
    is_separator_regex = False,
)
chunks = text_splitter.create_documents([d.page_content for d in docs])
len(chunks)
chunks


13

[Document(page_content='LangChain是一个基于语言模型开发应用程序的框架。它可以实现以下功能:\n\n数据感知: 将语言模型与其他数据源连接起来\n主体性: 允许语言模型与其环境进行交互\nLangChain的主要价值包括:'),
 Document(page_content='组件: 用于处理语言模型的抽象，以及每个抽象的一系列实现。组件是模块化且易于使用的，无论您是否使用LangChain框架的其他部分，都可以轻松使用'),
 Document(page_content='现成的管道: 用于完成特定高级任务的结构化组件组合\n现成的管道使得入门变得容易。对于更复杂的应用程序和细致入微的用例，组件使得自定义现有管道或构建新管道变得容易.'),
 Document(page_content='开始使用\n这里是如何安装LangChain，设置您的环境并开始构建的方法.\n\n我们建议按照我们的快速入门指南，通过构建您的第一个LangChain应用程序来熟悉该框架.'),
 Document(page_content='注意: 这些文档适用于LangChain的Python包。有关LangChain.js（JS/TS版本）的文档，请点击这里。'),
 Document(page_content='模块\nLangChain为以下模块提供标准、可扩展的接口和外部集成，从最简单到最复杂的顺序列出:\n\n模型 I/O\n与语言模型进行接口\n\n检索\n与特定于应用程序的数据进行接口\n\n管道\n构建调用序列'),
 Document(page_content='管道\n构建调用序列\n\n代理\n让管道根据高级指令选择使用哪些工具\n\n内存\n在管道运行期间保持应用程序状态\n\n回调\n记录和流式传输任何管道的中间步骤'),
 Document(page_content='示例、生态和资源\n用例\n步骤和最佳实践，涵盖常见的端到端用例，例如:\n\n聊天机器人\n使用数据源回答问题\n分析结构化数据\n等等...\n指南\n学习使用LangChain进行开发的最佳实践.'),
 Document(page_content='生态系统\nLangChain是一个丰富的工具生态系统的一部分，它与我们的框架集成并在其之上构建。查看我们的日

### embedding模型

In [4]:
from zhipu import ZhipuEmbedding
import os
embedding = ZhipuEmbedding(api_key=os.environ['ZHIPU_API_KEY'], batch_size=4)
embds  = embedding.embed_documents(texts = [e.page_content for e in chunks])
len(embds)




2023-12-21 11:03:07 [INFO][zhipu.py:110]:embedding 13 with self.batch_size=4
  0%|          | 0/13 [00:00<?, ?it/s]

100%|██████████| 13/13 [00:03<00:00,  3.98it/s]


13

In [5]:
embds[0][:4]

array([0.00760289, 0.04493923, 0.00509782, 0.00670661])

### vectstore

In [6]:
from langchain.vectorstores import FAISS


db = FAISS.from_documents(chunks, embedding)



2023-12-21 11:03:32 [INFO][zhipu.py:110]:embedding 13 with self.batch_size=4
  0%|          | 0/13 [00:00<?, ?it/s]

100%|██████████| 13/13 [00:04<00:00,  3.17it/s]
2023-12-21 11:03:36 [INFO][loader.py:64]:Loading faiss.
2023-12-21 11:03:36 [INFO][loader.py:66]:Successfully loaded faiss.


In [7]:
db.__dict__

{'embedding_function': <zhipu.ZhipuEmbedding at 0x103c237f0>,
 'index': <faiss.swigfaiss.IndexFlatL2; proxy of <Swig Object of type 'faiss::IndexFlatL2 *' at 0x11824b330> >,
 'docstore': <langchain_community.docstore.in_memory.InMemoryDocstore at 0x11d558430>,
 'index_to_docstore_id': {0: 'c3a5380b-a1b8-4c59-a55a-5513e89835f2',
  1: '95f3418b-5806-4b43-8a94-4abbbe07e4cf',
  2: '18439fca-28fd-4c04-acc1-880ff48bfac2',
  3: 'd8fb399b-24ae-4367-9566-494eb7896e7a',
  4: '9642db7e-61c7-4af4-8bac-b22e4d76cdc4',
  5: 'bbe912b6-5227-410d-b98e-c171552b17e2',
  6: '92d1b881-a44d-4803-bc0f-39032ec01aa8',
  7: 'd0e967db-df4c-4362-b68a-9e35f42ec3c1',
  8: 'd369fcea-dafb-4a07-9291-6dc4619e5ebf',
  9: '7a9e8860-ea2a-4fc9-a2b0-1342a54de4cc',
  10: '9b5f4dbd-35b0-4dfb-9853-2c7dde40bed1',
  11: '0345420e-d6f8-4195-9c52-6b63f50a828d',
  12: '8edda171-9515-4d13-b89a-18e2df2288a0'},
 'distance_strategy': <DistanceStrategy.EUCLIDEAN_DISTANCE: 'EUCLIDEAN_DISTANCE'>,
 'override_relevance_score_fn': None,
 '_no

## search with similarity

In [8]:
recalled_docs = db.similarity_search_with_score(query= "如何安装lanchain",top_k=3)
len(recalled_docs)
for doc, score in recalled_docs:
    print(doc)
    print(score)
    print("\n\n")

4

page_content='开始使用\n这里是如何安装LangChain，设置您的环境并开始构建的方法.\n\n我们建议按照我们的快速入门指南，通过构建您的第一个LangChain应用程序来熟悉该框架.'
0.6690096



page_content='生态系统\nLangChain是一个丰富的工具生态系统的一部分，它与我们的框架集成并在其之上构建。查看我们的日益增长的集成和依赖仓库列表。'
0.8591173



page_content='我们的社区充满了富有成效的开发人员、富有创造力的构建者和出色的教师。查看YouTube教程以获取来自社区成员的优秀教程，以及Gallery以获取由KyroLabs的人员编制的精彩LangChain项'
0.89993674



page_content='社区\n前往社区导航器以寻找提问、分享反馈、结识其他开发人员以及憧憬LLM的未来的场所。\n\nAPI 参考\n前往参考部分，完整文档介绍了LangChain Python包中的所有类和方法。'
0.9173918



