# 文档加载

这涵盖了如何加载目录中的所有文档。
在底层，默认情况下使用 UnstructedLoader。需要安装依赖

```shell
pip install unstructured
```
python导入方式
```
from langchain_community.document_loaders import DirectoryLoader
```

我们可以使用 glob 参数来控制加载哪些文件。请注意，此处它不会加载 .rst 文件或 .html 文件。
```
loader = DirectoryLoader('../', glob="**/*.md")
```
默认情况下不会显示进度条。要显示进度条，请安装 tqdm 库（例如 pip install tqdm ），并将 show_progress 参数设置为 True 。
```
loader = DirectoryLoader('../', glob="**/*.md", show_progress=True)
docs = loader.load()
```


## 加载txt和mardown文档

In [2]:
from langchain_community.document_loaders import TextLoader

data_path = "/mnt/f/kk_datasets/txt/faq-4359.txt"

doc1 = TextLoader(data_path, encoding="utf-8").load()

print(doc1)


[Document(metadata={'source': '/mnt/f/kk_datasets/txt/faq-4359.txt'}, page_content='一、什么是0分期利息\n\n您好，“0分期利息”是指买家使用花呗、招行掌上生活、工行信用卡、银联信用卡等其他分期购物时无需支付分期利息的功能，分期利息由华为商城承担。\n\n注：自2023年起，商城将相关宣传将“免息”调整为“0分期利息”，主要基于中国银保监会、中国人民银行《关于进一步促进信用卡业务规范健康发展的通知》（银保监规〔2022〕13号），要求“银行业金融机构应当在分期业务合同（协议）首页和业务办理页面以明显方式展示分期业务可能产生的所有息费项目、年化利率水平和息费计算方式。向客户展示分期业务收取的资金使用成本时，应当统一采用利息形式，并明确相应的计息规则，不得采用手续费等形式，法律法规另有规定的除外。”\n\n\n\n二、可以参与0分期利息活动的商品\n\n商城目前仅支持部分单品参与0分期利息，若多商品（含不支持0分期利息）合并支付则不支持0分期利息，以支付页面为准，后续会逐渐开放更多商品，敬请关注。\n\n\n\n三、确认订单分期成功\n\n订单提交成功后在支付方式页面选择分期支付，点选显示0分期利息的支付方式及具体0分期利息期数后，完成支付。\n\n\n\n\n\n四、订单中有多个商品，其中有商品支持0分期利息，为什么提交后却没有0分期利息？\n\n0分期利息商品不能和其它商品一起购买，如果和其他商品购买而不能享用0分期利息，建议取消原来的订单，重新购买时把0分期利息商品和其他商品分开单独购买；且0分期利息的分期数是固定的，如6期0分期利息，并不是3/6/12都提供0分期利息的。\n\n\n\n五、小程序是否支持0分期利息？\n\n华为商城小程序暂不支持0分期利息。')]


In [3]:
data_path = "/mnt/f/kk_datasets/txt/faq-7923.txt"

doc2 = TextLoader(data_path, encoding="utf-8").load()

print(doc2)


[Document(metadata={'source': '/mnt/f/kk_datasets/txt/faq-7923.txt'}, page_content='众测活动\n\n整体介绍：\n\n一、活动定义：众测是以低价试销的形式，通过收集评价、销量等方法，用于测试市场对新商品的反应，用于及时优化销售策略和引导商家改进。\n\n二、优势：众测价通常比较优惠，以不高于大促促销价为原则，最终以与物权方谈判结果为准。\n\n三、适用范围：华为商城所有产品。\n\n\n\n参与方式：\n\n1、华为商城众测的入口在哪里？\n\n华为商城搜索“众测”，即可看到众测入口，点击进入即可；\n\n2、众测上新频次：\n\n众测频道每周一至周五不定期更新上架，部分商品可能会特别调整；\n\n3、众测活动时间：\n\n一款产品众测时间通常为10-20天（热销的商品可能会延期5-10天）。\n\n \n\n常见问题：\n\n1、众测商品的来源?\n\n     您好，众测商品主要来源为华为商城上架的新品，热销的爆款商品也会不定期通过众测回归上线。\n\n2、众测商品的价格会优惠吗？\n\n     您好，众测商品价格对标618和双十一，一般都是该商品某段时间的最低促销价。\n\n3、 众测商品质量会不稳定么？\n\n     您好，众测商品也是量产的正品新品，质量与正式上架商品一致。 \n\n4、众测商品买下后多久发货？\n\n     您好，请以商品页显示为准。\n\n5、提交活动订单后多久内支付？\n\n     您好，提交订单后最长付款时效为24小时，逾期订单自动取消\n\n6、成功下单后怎么查询众测订单？\n\n     您好，成功下单后，您可以通过华为商城手机APP、华为商城手机WAP版、华为商城电脑网页版任意一端登录下单账户，在“我的订单”查询。（众测商品订单查询方式等同于正常商品订单）\n\n7、订单支付后未发货前可以取消订单吗？\n\n     您好，在发货前消费者可以取消订单。\n\n8、取消订单后多久内退回款项？\n\n     您好，和华为商城智能家居生态产品通用退款时效一致，3-5个工作日。\n\n9、一个账号可以参与几次众测活动？有限购吗？\n\n     您好，一个账号参与众测活动的次数无限制，没有限购。但每次订单只能购买一个商品。如您需要购买多个产品

In [4]:
data_path = "/mnt/f/kk_datasets/txt/yjhx.md"

doc3 = TextLoader(data_path, encoding="utf-8").load()

print(doc3)

[Document(metadata={'source': '/mnt/f/kk_datasets/txt/yjhx.md'}, page_content='**一、选择回收物品**\n\n点击VMALL您可以在设备回收分类中选择旧商品的类别以及品牌，现在VMALL支持回收部分品牌和型号的手机、笔记本、平板、智能数码以及摄影摄像。如若在此页面上找不到您的品牌或型号，您可以点击品牌栏右下方的加号（如下图红圈部分所示）查看VMALL所支持回收的所有品牌型号。首页滚动电子横幅右下方“以旧换新”标志（如下图红框部分所示），进入“以旧换新”页面。\n\n![以旧换新图片](https://threejs-1251830808.cos.ap-guangzhou.myqcloud.com/73564551948615546537.png)\n\n（以下图片为参考流程，实际以页面为准）\n\n![设备回收图片](https://threejs-1251830808.cos.ap-guangzhou.myqcloud.com/18969746813614796981.png)\n\n选择好您的旧商品后请点击商品图标，进入价格评估页面。\n\n\n\n**二、价格评估**\n\n在价格评估界面上，您需要对旧商品的基本信息（网络制式、存储容量、购买渠道、机身颜色），外观成色（边框背板，屏幕外观，屏幕显示，维修情况），和多功能选项参数进行评估，请如实填写您的手机情况。完成所有参数选择，请估价按钮（如下图红框部分所示）。\n\n完成所有参数选择，请点击“免费询价”按钮（如下图红框部分所示）。\n\n![免费询价图片](https://threejs-1251830808.cos.ap-guangzhou.myqcloud.com/37174946813614947173.png)\n\n**三、价格评估结果**\n\n您可以查看手机的估价和这款手机的回收价格趋势，如果填写有什么问题，可以点击“重新询价”或“重新选择机型”更改；确认无误后，点击“换钱”按钮进入订单页面。\n\n![价格评估结果图片](https://threejs-1251830808.cos.ap-guangzhou.myqcloud.com/28422256813615222482.png)\n\n**四、提交订单**\n

In [5]:
# 导入本地词嵌入模型, 构建向量数据库
from langchain_community.embeddings.huggingface import HuggingFaceEmbeddings
from langchain_community.vectorstores import FAISS

model_path = "/home/libing/kk_LLMs/bge-large-zh-v1.5"
embeddings = HuggingFaceEmbeddings(model_name=model_path)

# 构建向量数据库
vector_store = FAISS.from_documents([doc1[0], doc2[0], doc3[0]], embeddings)
vector_store

  embeddings = HuggingFaceEmbeddings(model_name=model_path)
  from tqdm.autonotebook import tqdm, trange


<langchain_community.vectorstores.faiss.FAISS at 0x7fdadcae2dd0>

In [6]:
# 相似度搜索
vector_store.similarity_search("回收手机的话，应该怎么操作？")

[Document(id='cf19650e-b1fb-4a97-bb2d-9904c058684d', metadata={'source': '/mnt/f/kk_datasets/txt/yjhx.md'}, page_content='**一、选择回收物品**\n\n点击VMALL您可以在设备回收分类中选择旧商品的类别以及品牌，现在VMALL支持回收部分品牌和型号的手机、笔记本、平板、智能数码以及摄影摄像。如若在此页面上找不到您的品牌或型号，您可以点击品牌栏右下方的加号（如下图红圈部分所示）查看VMALL所支持回收的所有品牌型号。首页滚动电子横幅右下方“以旧换新”标志（如下图红框部分所示），进入“以旧换新”页面。\n\n![以旧换新图片](https://threejs-1251830808.cos.ap-guangzhou.myqcloud.com/73564551948615546537.png)\n\n（以下图片为参考流程，实际以页面为准）\n\n![设备回收图片](https://threejs-1251830808.cos.ap-guangzhou.myqcloud.com/18969746813614796981.png)\n\n选择好您的旧商品后请点击商品图标，进入价格评估页面。\n\n\n\n**二、价格评估**\n\n在价格评估界面上，您需要对旧商品的基本信息（网络制式、存储容量、购买渠道、机身颜色），外观成色（边框背板，屏幕外观，屏幕显示，维修情况），和多功能选项参数进行评估，请如实填写您的手机情况。完成所有参数选择，请估价按钮（如下图红框部分所示）。\n\n完成所有参数选择，请点击“免费询价”按钮（如下图红框部分所示）。\n\n![免费询价图片](https://threejs-1251830808.cos.ap-guangzhou.myqcloud.com/37174946813614947173.png)\n\n**三、价格评估结果**\n\n您可以查看手机的估价和这款手机的回收价格趋势，如果填写有什么问题，可以点击“重新询价”或“重新选择机型”更改；确认无误后，点击“换钱”按钮进入订单页面。\n\n![价格评估结果图片](https://threejs-1251830808.cos.ap-guangzhou.myqcloud.co

In [7]:
# 基于分数的相似度搜索
vector_store.similarity_search_with_score("回收手机的话，应该怎么操作？")

[(Document(id='cf19650e-b1fb-4a97-bb2d-9904c058684d', metadata={'source': '/mnt/f/kk_datasets/txt/yjhx.md'}, page_content='**一、选择回收物品**\n\n点击VMALL您可以在设备回收分类中选择旧商品的类别以及品牌，现在VMALL支持回收部分品牌和型号的手机、笔记本、平板、智能数码以及摄影摄像。如若在此页面上找不到您的品牌或型号，您可以点击品牌栏右下方的加号（如下图红圈部分所示）查看VMALL所支持回收的所有品牌型号。首页滚动电子横幅右下方“以旧换新”标志（如下图红框部分所示），进入“以旧换新”页面。\n\n![以旧换新图片](https://threejs-1251830808.cos.ap-guangzhou.myqcloud.com/73564551948615546537.png)\n\n（以下图片为参考流程，实际以页面为准）\n\n![设备回收图片](https://threejs-1251830808.cos.ap-guangzhou.myqcloud.com/18969746813614796981.png)\n\n选择好您的旧商品后请点击商品图标，进入价格评估页面。\n\n\n\n**二、价格评估**\n\n在价格评估界面上，您需要对旧商品的基本信息（网络制式、存储容量、购买渠道、机身颜色），外观成色（边框背板，屏幕外观，屏幕显示，维修情况），和多功能选项参数进行评估，请如实填写您的手机情况。完成所有参数选择，请估价按钮（如下图红框部分所示）。\n\n完成所有参数选择，请点击“免费询价”按钮（如下图红框部分所示）。\n\n![免费询价图片](https://threejs-1251830808.cos.ap-guangzhou.myqcloud.com/37174946813614947173.png)\n\n**三、价格评估结果**\n\n您可以查看手机的估价和这款手机的回收价格趋势，如果填写有什么问题，可以点击“重新询价”或“重新选择机型”更改；确认无误后，点击“换钱”按钮进入订单页面。\n\n![价格评估结果图片](https://threejs-1251830808.cos.ap-guangzhou.myqcloud.c

在使用 NLTK 进行自然语言处理时，punkt 分词器已经下载并可用。如果你需要对文本进行分词或句子分割，这一步是必要的。

In [8]:
import nltk
nltk.download('punkt')

[nltk_data] Error loading punkt: <urlopen error [Errno 111] Connection
[nltk_data]     refused>


False

对接本地部署大模型

In [9]:
from langchain_openai import ChatOpenAI
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser
from dotenv import load_dotenv
import os

load_dotenv()
api_key = os.getenv("LOCAL_API_KEY")
base_url = os.getenv("LOCAL_API_BASE")

llm = ChatOpenAI(temperature=0, api_key=api_key, base_url=base_url, max_tokens=8192)

构建提示词

In [10]:
template = """
请根据以下文档回答问题：
{context}

问题：{question}
请在回答问题时加上称呼：{name}
"""

prompt = ChatPromptTemplate.from_template(template)

构建检索器

1. **最大边际相关性检索（MMR）**：
想象你在一个图书馆里找关于“猫咪”的书籍。MMR就像是一个智能助手，帮你挑选书籍。它会先找到一本最相关的书，比如《猫咪百科全书》。然后，它会寻找第二本书，这本书不仅要与“猫咪”相关，还要与第一本书的内容有所不同，比如可能会找一本关于“猫咪训练”的书。MMR的目标是让你既能找到有用的信息，又能获得不同方面的知识。
2. **余弦相似度**：
余弦相似度是一种测量两个向量在多维空间中角度的方法。继续用图书馆的例子，你可以把每本书想象成一个向量，它的每个维度代表这本书包含的不同关键词。余弦相似度会计算两本书的向量之间的角度，如果两本书的向量角度接近0度，那么它们在内容上非常相似；如果角度接近90度，那么它们的内容就不那么相似。

总结一下：
- MMR是一个帮你挑选书籍的策略，它力求找到既相关又多样的书籍组合。
- 余弦相似度是一个测量两本书内容相似度的工具，它通过比较书中的关键词向量来判断。

In [11]:
retriever = vector_store.as_retriever(
    search_type="mmr",
    search_kwargs={"k": 1},
)

docs = retriever.get_relevant_documents("请说说回收手机怎么操作?")
docs

  docs = retriever.get_relevant_documents("请说说回收手机怎么操作?")


[Document(id='cf19650e-b1fb-4a97-bb2d-9904c058684d', metadata={'source': '/mnt/f/kk_datasets/txt/yjhx.md'}, page_content='**一、选择回收物品**\n\n点击VMALL您可以在设备回收分类中选择旧商品的类别以及品牌，现在VMALL支持回收部分品牌和型号的手机、笔记本、平板、智能数码以及摄影摄像。如若在此页面上找不到您的品牌或型号，您可以点击品牌栏右下方的加号（如下图红圈部分所示）查看VMALL所支持回收的所有品牌型号。首页滚动电子横幅右下方“以旧换新”标志（如下图红框部分所示），进入“以旧换新”页面。\n\n![以旧换新图片](https://threejs-1251830808.cos.ap-guangzhou.myqcloud.com/73564551948615546537.png)\n\n（以下图片为参考流程，实际以页面为准）\n\n![设备回收图片](https://threejs-1251830808.cos.ap-guangzhou.myqcloud.com/18969746813614796981.png)\n\n选择好您的旧商品后请点击商品图标，进入价格评估页面。\n\n\n\n**二、价格评估**\n\n在价格评估界面上，您需要对旧商品的基本信息（网络制式、存储容量、购买渠道、机身颜色），外观成色（边框背板，屏幕外观，屏幕显示，维修情况），和多功能选项参数进行评估，请如实填写您的手机情况。完成所有参数选择，请估价按钮（如下图红框部分所示）。\n\n完成所有参数选择，请点击“免费询价”按钮（如下图红框部分所示）。\n\n![免费询价图片](https://threejs-1251830808.cos.ap-guangzhou.myqcloud.com/37174946813614947173.png)\n\n**三、价格评估结果**\n\n您可以查看手机的估价和这款手机的回收价格趋势，如果填写有什么问题，可以点击“重新询价”或“重新选择机型”更改；确认无误后，点击“换钱”按钮进入订单页面。\n\n![价格评估结果图片](https://threejs-1251830808.cos.ap-guangzhou.myqcloud.co

构建链

In [12]:
from operator import itemgetter

chain = (
    {
        "context": itemgetter("question") | retriever,
        "question": itemgetter("question"),
        "name": itemgetter("name")
    }
    | prompt
    | llm
    | StrOutputParser()
)

print(chain.invoke({"question": "回收手机怎么操作?", "name": "主人"}))

主人，根据您提供的文档内容，回收手机的步骤如下：

1. **选择回收物品**：首先，您需要登录VMALL平台，并在设备回收分类中选择您的旧手机品牌和型号。如果找不到您的手机型号，可以点击品牌栏右下方的加号查看所有支持的回收品牌型号。

2. **价格评估**：选择好您的旧手机后，进入价格评估页面。在这里，您需要填写手机的网络制式、存储容量、购买渠道、机身颜色等信息，以及外观成色和维修情况等参数。填写完毕后，点击“免费询价”按钮获取估价。

3. **价格评估结果**：查看手机的估价和回收价格趋势。如果有误，可以重新询价或选择机型进行更改。确认无误后，点击“换钱”按钮进入订单页面。

4. **提交订单**：在订单页面，您可以选择两种常规回收方式之一进行回收并提交订单。一种是顺丰上门回收，另一种是质检师上门回收。

5. **顺丰上门回收操作流程**：选择顺丰快递回收，填写联系人信息、电话号码、取货地址和上门时间，然后提交订单。快递员会按照您指定的时间上门取货。回收商在收到旧手机后48小时内完成检测，若价格一致，将发放华为代金券。

6. **质检师上门回收操作流程**：选择质检师上门回收，填写相同的信息并提交订单。质检师会在您指定的时间上门进行检测，如果通过检测，代金券可以实时到账。

请注意，以上步骤是基于文档中的信息提供的指导，实际操作时可能有所不同，建议您根据VMALL平台当时的界面和提示进行操作。


In [13]:
for s in chain.stream({"question": "请问众筹活动怎么参与?", "name": "主人"}):
    print(s, end="", flush=True)

主人您好！根据提供的文档内容，参与华为商城众测活动的步骤如下：

1. 首先，您需要登录到华为商城。
2. 在华为商城的搜索栏中输入“众测”关键词进行搜索。
3. 根据搜索结果找到众测的入口，点击进入。
4. 在众测频道内浏览或筛选感兴趣的产品。
5. 选择想要参与众测的产品后，按照页面提示完成下单流程。
6. 提交订单后，您需要在24小时内完成支付，否则订单可能会被自动取消。
7. 成功支付后，您可以登录华为商城任意一个平台（手机APP、手机WAP版或电脑网页版）查看“我的订单”来追踪众测商品的发货和物流状态。

请注意，众测活动的具体参与方式可能会有所变化，建议您在参与前仔细阅读最新的活动规则和相关说明。

## 加载目录下的所有文档



In [20]:
from langchain_community.document_loaders import DirectoryLoader


loader = DirectoryLoader("/mnt/f/kk_datasets/txt/", glob=["**/*.txt", "**/*.md"])  # 加载该目录下所有txt和md文档
docs = loader.load()
docs

[nltk_data] Error loading punkt: <urlopen error [Errno 111] Connection
[nltk_data]     refused>
Error loading file /mnt/f/kk_datasets/txt/faq-4359.txt


LookupError: 
**********************************************************************
  Resource [93mpunkt_tab[0m not found.
  Please use the NLTK Downloader to obtain the resource:

  [31m>>> import nltk
  >>> nltk.download('punkt_tab')
  [0m
  For more information see: https://www.nltk.org/data.html

  Attempted to load [93mtokenizers/punkt_tab/english/[0m

  Searched in:
    - '/home/libing/nltk_data'
    - '/home/libing/miniconda3/envs/kk_langchain_wsl/nltk_data'
    - '/home/libing/miniconda3/envs/kk_langchain_wsl/share/nltk_data'
    - '/home/libing/miniconda3/envs/kk_langchain_wsl/lib/nltk_data'
    - '/usr/share/nltk_data'
    - '/usr/local/share/nltk_data'
    - '/usr/lib/nltk_data'
    - '/usr/local/lib/nltk_data'
**********************************************************************


In [None]:
# 构建向量数据库
from langchain_community.embeddings.huggingface import HuggingFaceEmbeddings
from langchain_community.vectorstores import Chroma

model_path = "/Users/libing/kk_LLMs/bge-large-zh-v1.5"
embeddings = HuggingFaceEmbeddings(model_name=model_path)

vector_store = Chroma.from_documents(docs, embeddings)
vector_store


In [None]:
# 构建检索器，采用相似度检索，相似度阈值设置0.3
retriever = vector_store.as_retriever(
    search_type="similarity_score_threshold",
    search_kwargs={"k": 1, "score_threshold": 0.3}
)

docs = retriever.get_relevant_documents("请问如何参加众测活动?")
docs


In [None]:
# 构造提示词模板
from langchain_core.prompts import ChatPromptTemplate


new_template = """你是一位华为商城的客服专家，你叫小智。
下面请根据用户的问题从以下文档中检索答案回答：
{context}

问题：{question}
在回答问题时加上称呼：{name}
在回答结束后，要加上感谢语：感谢您的提问，小智祝您生活愉快！
"""

new_prompt = ChatPromptTemplate.from_template(new_template)
new_prompt

In [16]:
# 构建链
from operator import itemgetter
from langchain_openai import ChatOpenAI
from langchain_core.output_parsers import StrOutputParser
from dotenv import load_dotenv
import os

load_dotenv()
api_key = os.getenv("ZHIPUAI_API_KEY")
base_url = os.getenv("ZHIPUAI_API_BASE")

llm = ChatOpenAI(temperature=0, api_key=api_key, base_url=base_url, max_tokens=8192, model="glm-4-plus")


chain = (
    {
        "context": itemgetter("question") | retriever,
        "question": itemgetter("question"),
        "name": itemgetter("name")
    }
    | new_prompt
    | llm
    | StrOutputParser()
)


In [None]:
for s in chain.stream({"question": "请问如何参加众测活动?", "name": "尊敬的客户："}):
    print(s, end="", flush=True)


In [None]:
for s in chain.stream({"question": "请问众测活动有哪些常见问题?", "name": "尊敬的客户："}):
    print(s, end="", flush=True)

In [None]:
for s in chain.stream({"question": "请问0分期怎么操作?", "name": "尊敬的客户："}):
    print(s, end="", flush=True)

In [None]:
for s in chain.stream({"question": "帮我写一首关于众测活动的五言爱情诗?", "name": "漂亮的娟娟姐："}):
    print(s, end="", flush=True)