## 加载文件

In [8]:
def load_file(path):
    with open(path,encoding="utf-8") as f:
        return f.read()

In [15]:
txt13 = load_file("data/MacBook Air13寸.txt")
txt15 = load_file("data/MacBook Air15寸.txt")

In [16]:
print(f"txt13 Total text length: {len(txt13)}")
print(f"txt15 Total text length: {len(txt15)}")

txt13 Total text length: 3007
txt15 Total text length: 2035


## 文本分割

In [151]:
from langchain_text_splitters import CharacterTextSplitter

text_splitter = CharacterTextSplitter(
    separator="##",
    chunk_size=200,
    chunk_overlap=100,
    length_function=len,
    is_separator_regex=True,
)

In [152]:
texts = text_splitter.create_documents([txt13,txt15])



In [153]:
len(texts)

26

In [154]:
texts

[Document(page_content='# MacBook Air13寸\n\n## 外观\n\n银色 星光色 深空灰色 午夜色\n\n## 价格\n\nRMB 7999 (8 核图形处理器，256GB 固态硬盘)\nRMB 9499 (10 核图形处理器，512GB 固态硬盘)\nRMB 8999\nRMB 10,499\nRMB 11,999'),
 Document(page_content='芯片\n\nApple M2 芯片8核中央处理器，具有4个性能核心和4个能效核心8核或10核图形处理器—\n16 核神经网络引擎\n100GB/s 内存带宽\n媒体处理引擎\n支持 H.264、HEVC、ProRes 和 ProRes RAW 硬件加速\n视频解码引擎\n视频编码引擎\nProRes 编解码引擎 —可选配：\nM2 (8 核中央处理器和 10 核图形处理器)\nApple M3 芯片\n8核中央处理器，具有4个性能核心和4个能效核心8核图形处理器\n硬件加速光线追踪\n16核神经网络引擎\n100GB/s内存带宽\n媒体处理引擎\n支持 H.264、HEVC、ProRes 和 ProRes RAW 硬件加速\n视频解码引擎\n视频编码引擎\nProRes 编解码引擎\nAV1 解码引擎\n可选配：\nM3 (8核中央处理器和 10核图形处理器)\nApple M3 芯片\n8核中央处理器，具有\n4个性能核心和\n4个能效核心\n10核图形处理器\n硬件加速光线追踪\n16核神经网络引擎\n100GB/s内存带宽\n媒体处理引擎\n支持 H.264、HEVC、ProRes 和 ProRes RAW 硬件加速\n视频解码引擎\n视频编码引擎\nProRes编解码引擎\nAV1 解码引擎\nApple M3 芯片\n8核中央处理器，具有\n4个性能核心和\n4个能效核心\n10核图形处理器\n硬件加速光线追踪\n16核神经网络引擎\n100GB/s 内存带宽\n媒体处理引擎\n支持 H.264、HEVC、ProRes 和 ProRes RAW 硬件加速\n视频解码引擎\n视频编码引擎\nProRes 编解码引擎\nAV1 解码引擎'),
 Document(page_content='显示屏\n\nLiquid 视网膜显示屏\n13.6 英寸 (对角

## 使用 Faiss 作为向量数据库，持久化存储

In [155]:
from langchain_openai import OpenAIEmbeddings
from langchain_community.vectorstores import FAISS

db = FAISS.from_documents(texts, OpenAIEmbeddings())

In [156]:
query = "MacBook Air13寸的价格"

### 相似度查询，结果很冗余

In [157]:
db.similarity_search(query)

[Document(page_content='# MacBook Air13寸\n\n## 外观\n\n银色 星光色 深空灰色 午夜色\n\n## 价格\n\nRMB 7999 (8 核图形处理器，256GB 固态硬盘)\nRMB 9499 (10 核图形处理器，512GB 固态硬盘)\nRMB 8999\nRMB 10,499\nRMB 11,999'),
 Document(page_content='# MacBook Air15寸\n\n## 外观\n\n银色、星光色、深空灰色、午夜色\n\n## 价格\n\nRMB 10,499\nRMB 11,999\nRMB 13,499'),
 Document(page_content='充电和外设扩展\n\nMagSafe 3 充电端口\n3.5 毫米耳机插孔\n两个雷雳 / USB 4 端口，均可支持：\n充电\nDisplayPort\n雷雳 3 (速率最高可达 40Gb/s)\nUSB 4 (速率最高可达 40Gb/s)\nMagSafe 33.5 毫米耳机插孔雷雳 / USB 4\n显示器支持\n同时支持初始分辨率下的内置显示屏 (可显示 10 亿色彩) 以及：\n一台分辨率最高达 6K (60Hz) 的外接显示器\n闭合 MacBook Air 可使用第二台外接显示器，分辨率最高达 5K (60Hz)\n支持的格式包括 HEVC、H.264、AV1 和 ProRes\n支持杜比视界、HDR10 和 HLG，并可显示 HDR 画质\n音频播放\n支持的格式包括 AAC、MP3、Apple 保真压缩、FLAC、杜比数字、杜比数字+、杜比全景声\n键盘和触控板\n背光妙控键盘，配备：\n78 个 (ANSI) 或 79 个 (ISO) 按键，包括 12 个全尺寸功能键和 4 个方向键 (呈倒 T 形排列)\n触控 ID\n环境光传感器\n力度触控板可实现精准光标控制和压力感应功能；支持用力点按、加速控制、压力感应绘图和多点触控手势'),
 Document(page_content='包装内容\n\n13 英寸 MacBook Air\n30W USB-C 电源适配器\n(8 核图形处理器的 M2 机型和 M3 机型)\n或\n35W 双 USB-C 端口小型电源适配器\n(10 核图形处理器、512GB 

### 使用 retriever 从向量数据库中获取结果

#### 使用参数 `k` 指定返回结果数量

In [158]:
topK_retriever = db.as_retriever(
    search_kwargs={"k": 3}
)

In [159]:
topK_retriever

VectorStoreRetriever(tags=['FAISS', 'OpenAIEmbeddings'], vectorstore=<langchain_community.vectorstores.faiss.FAISS object at 0x0000019582ADAEC0>, search_kwargs={'k': 3})

In [160]:
docs = topK_retriever.invoke(query)
docs

[Document(page_content='# MacBook Air13寸\n\n## 外观\n\n银色 星光色 深空灰色 午夜色\n\n## 价格\n\nRMB 7999 (8 核图形处理器，256GB 固态硬盘)\nRMB 9499 (10 核图形处理器，512GB 固态硬盘)\nRMB 8999\nRMB 10,499\nRMB 11,999'),
 Document(page_content='# MacBook Air15寸\n\n## 外观\n\n银色、星光色、深空灰色、午夜色\n\n## 价格\n\nRMB 10,499\nRMB 11,999\nRMB 13,499'),
 Document(page_content='充电和外设扩展\n\nMagSafe 3 充电端口\n3.5 毫米耳机插孔\n两个雷雳 / USB 4 端口，均可支持：\n充电\nDisplayPort\n雷雳 3 (速率最高可达 40Gb/s)\nUSB 4 (速率最高可达 40Gb/s)\nMagSafe 33.5 毫米耳机插孔雷雳 / USB 4\n显示器支持\n同时支持初始分辨率下的内置显示屏 (可显示 10 亿色彩) 以及：\n一台分辨率最高达 6K (60Hz) 的外接显示器\n闭合 MacBook Air 可使用第二台外接显示器，分辨率最高达 5K (60Hz)\n支持的格式包括 HEVC、H.264、AV1 和 ProRes\n支持杜比视界、HDR10 和 HLG，并可显示 HDR 画质\n音频播放\n支持的格式包括 AAC、MP3、Apple 保真压缩、FLAC、杜比数字、杜比数字+、杜比全景声\n键盘和触控板\n背光妙控键盘，配备：\n78 个 (ANSI) 或 79 个 (ISO) 按键，包括 12 个全尺寸功能键和 4 个方向键 (呈倒 T 形排列)\n触控 ID\n环境光传感器\n力度触控板可实现精准光标控制和压力感应功能；支持用力点按、加速控制、压力感应绘图和多点触控手势')]

In [161]:
#### 使用 similarity_score_threshold 设置阈值，提升结果的相关性质量

In [162]:
topK_retriever = db.as_retriever(
     search_type="similarity_score_threshold",
    search_kwargs={"score_threshold": 0.8}
)

In [163]:
docs = topK_retriever.invoke(query)
docs

[Document(page_content='# MacBook Air13寸\n\n## 外观\n\n银色 星光色 深空灰色 午夜色\n\n## 价格\n\nRMB 7999 (8 核图形处理器，256GB 固态硬盘)\nRMB 9499 (10 核图形处理器，512GB 固态硬盘)\nRMB 8999\nRMB 10,499\nRMB 11,999'),
 Document(page_content='# MacBook Air15寸\n\n## 外观\n\n银色、星光色、深空灰色、午夜色\n\n## 价格\n\nRMB 10,499\nRMB 11,999\nRMB 13,499')]

In [None]:
## 当向量数据库中没有合适答案时，使用大语言模型能力

In [164]:
from langchain.globals import set_debug,set_verbose

import logging

logging.basicConfig(filename="log.log")

set_verbose(True) # 没有更多的信息
set_debug(True)  # 全部的信息，太多了

In [89]:
def format_docs(docs):
    return "\n\n".join(doc.page_content  for doc in docs)

In [165]:
from langchain_core.prompts import ChatPromptTemplate

template = """
# 角色
你是一位专业且极具洞察力的商品问答专家，
拥有精准的眼光和丰富的经验，能够迅速且透彻地理解用户的问题，
在丰富的知识库中高效、准确地搜索有用信息，
为用户提供详尽、精确且易于理解的答案。

## 技能
### 技能 1: 深度剖析与精确搜索
1. 全方位、深层次地剖析用户提出的问题，精准提取关键核心要点。
2. 依据关键要点，在知识库中进行全面、深入且精确的检索。

### 技能 2: 细致对比商品差异
1. 依据检索获取的商品信息，梳理并对比每件商品之间的信息差别、区别，把每项结果记录下来。例如：都有描述屏幕大小，一个是6寸，一个是5.5寸，这就是两者的差异、区别。把结果存起来，为后面的回复做准备
2. 若商品不存在差异点，则无需记录。

### 技能 3: 精心组织回复
1. 将技能 2得出的差异结果，以清晰、有条理的表格形式展示。
2. 为用户生成确切、简洁且通俗易懂的回答。

## 约束
- 如果检索结果没有数据，请如实回答没有数据。
- 只回答与产品有关的问题，坚决不涉及无关内容。
- 始终使用清晰、简洁、通俗易懂的语言回应用户的问题。

#
Context: {context}

Question: {question}
"""

prompt = ChatPromptTemplate.from_messages(
    ["system",template,("user", "{question}")],
)

In [60]:
from langchain_openai import ChatOpenAI

llm = ChatOpenAI(
    temperature=0,
    base_url="https://api.chatanywhere.tech/v1",
)

In [170]:
from langchain_core.runnables import RunnablePassthrough
from langchain_core.output_parsers import StrOutputParser

qa_chain = (
    {
        "context": db.as_retriever(  search_type="similarity_score_threshold",
    search_kwargs={"score_threshold": 0.8}) | format_docs,
        "question": RunnablePassthrough()
    }
    | prompt
    | llm
    | StrOutputParser()
)

In [171]:
qa_chain.invoke(query)

[32;1m[1;3m[chain/start][0m [1m[chain:RunnableSequence] Entering Chain run with input:
[0m{
  "input": "MacBook Air13寸的价格"
}
[32;1m[1;3m[chain/start][0m [1m[chain:RunnableSequence > chain:RunnableParallel<context,question>] Entering Chain run with input:
[0m{
  "input": "MacBook Air13寸的价格"
}
[32;1m[1;3m[chain/start][0m [1m[chain:RunnableSequence > chain:RunnableParallel<context,question> > chain:RunnablePassthrough] Entering Chain run with input:
[0m{
  "input": "MacBook Air13寸的价格"
}
[36;1m[1;3m[chain/end][0m [1m[chain:RunnableSequence > chain:RunnableParallel<context,question> > chain:RunnablePassthrough] [0ms] Exiting Chain run with output:
[0m{
  "output": "MacBook Air13寸的价格"
}
[32;1m[1;3m[chain/start][0m [1m[chain:RunnableSequence > chain:RunnableParallel<context,question> > chain:RunnableSequence] Entering Chain run with input:
[0m{
  "input": "MacBook Air13寸的价格"
}
[32;1m[1;3m[chain/start][0m [1m[chain:RunnableSequence > chain:RunnableParallel<context,

'根据提供的信息，MacBook Air 13寸的价格如下：\n\n- RMB 7999（配备8核图形处理器和256GB固态硬盘）\n- RMB 9499（配备10核图形处理器和512GB固态硬盘）\n- RMB 8999\n- RMB 10,499\n- RMB 11,999\n\n这些价格反映了不同配置和存储容量选项的差异。'

## 总结

1. chunk_size不能设100，搜索的结果不一定是当前需要的信息
例如：vector库入面存在13寸和15寸MBA的价格，按照上面的规则进行搜索，当搜索出价格就会停止（不管是谁的价格）

错误答案：
13英寸的MacBook Air有几种配置和价格选项：\n\n1. **RMB 10,499** - 这可能是较低配置的价格，可能包括较低的存储容量和处理器选项。\n   \n2. **RMB 11,999** - 这可能是中等配置的价格，可能包括更大的存储容量或者更高性能的处理器。\n\n3. **RMB 13,499** - 这可能是高端配置

原因：
13寸的分段
[Document(page_content='# MacBook Air13寸\n\n## 外观\n\n银色 星光色 深空灰色 午夜色'),
 Document(page_content='价格\n\nRMB 7999 (8 核图形处理器，256GB 固态硬盘)\nRMB 9499 (10 核图形处理器，512GB 固态硬盘)\nRMB 8999\nRMB 10,499\nRMB 11,999'),
 
15寸的分段：
Document(page_content='# MacBook Air15寸\n\n## 外观\n\n银色、星光色、深空灰色、午夜色\n\n## 价格\n\nRMB 10,499\nRMB 11,999\nRMB 13,499'),


2. `similarity_search`,`as_retriever(
    search_kwargs={"k": 3}
)`,`as_retriever(  search_type="similarity_score_threshold",
    search_kwargs={"score_threshold": 0.8})`,三者目前最优解是`as_retriever(  search_type="similarity_score_threshold",
    search_kwargs={"score_threshold": 0.8})`