# 基于LangChain的文档问答
本章内容主要利用langchain构建向量数据库，可以在文档上方或关于文档回答问题，因此，给定从PDF文件、网页或某些公司的内部文档收集中提取的文本，使用llm回答有关这些文档内容的问题

## 环境配置
安装langchain，设置chatGPT的OPENAI_API_KEY

 - 安装langchain

    ```
    pip install langchain
    ```  
 
 - 安装docarray

    ```
    pip install docarray
    ```  
 
 - 设置API-KEY环境变量

    ```  
    export BAICHUAN_API_KEY='api-key'
    ```


In [1]:
# !pip install --upgrade langchain
# !pip install --upgrade langchain-community langchain-core

In [2]:
# !pip list | find "langchain"

In [3]:
from dotenv import load_dotenv, find_dotenv
_ = load_dotenv(find_dotenv()) #读取环境变量

In [4]:
from langchain_community.chat_models import ChatBaichuan
llm = ChatBaichuan(temperature=0.9)
llm.invoke("1+1=？")   # 证明模型可以使用

AIMessage(content='$1+1=2$', response_metadata={'token_usage': {'prompt_tokens': 7, 'completion_tokens': 8, 'total_tokens': 15}, 'model': 'Baichuan2-Turbo-192K'}, id='run-dd3c2859-eb0c-411b-82b7-819c5cdcf43f-0')

## 导入embedding模型和向量存储组件

使用Dock Array内存搜索向量存储，作为一个内存向量存储，不需要连接外部数据库

In [5]:
from langchain.chains import RetrievalQA #检索QA链，在文档上进行检索
from langchain.document_loaders import CSVLoader #文档加载器，采用csv格式存储
from langchain.vectorstores import DocArrayInMemorySearch #向量存储
from IPython.display import display, Markdown #在jupyter显示信息的工具

In [6]:
# !pip install docarray

In [7]:
#读取文件
file = 'OutdoorClothingCatalog_1000.csv'
loader = CSVLoader(file_path=file,encoding='utf8')

In [8]:
#查看数据
import pandas as pd
data = pd.read_csv(file)
data

Unnamed: 0.1,Unnamed: 0,name,description
0,0,Women's Campside Oxfords,This ultracomfortable lace-to-toe Oxford boast...
1,1,"Recycled Waterhog Dog Mat, Chevron Weave",Protect your floors from spills and splashing ...
2,2,Infant and Toddler Girls' Coastal Chill Swimsu...,"She'll love the bright colors, ruffles and exc..."
3,3,"Refresh Swimwear, V-Neck Tankini Contrasts",Whether you're going for a swim or heading out...
4,4,Sun Shield Shirt by,"""Block the sun, not the fun – our high-perform..."
5,5,"Men's Plaid Tropic Shirt, Short-Sleeve",Our Ultracomfortable sun protection is rated t...


提供了一个户外服装的CSV文件，我们将使用它与语言模型结合使用

## 创建向量存储 

将导入一个索引，即向量存储索引创建器

In [9]:
from langchain_community.embeddings import BaichuanTextEmbeddings
import os

embeddings = BaichuanTextEmbeddings(baichuan_api_key=os.environ["BAICHUAN_API_KEY"])

In [10]:
from langchain.indexes import VectorstoreIndexCreator #导入向量存储索引创建器

从langchain.indexes模块中导入VectorstoreIndexCreator类，这个类用于创建基于向量存储的索引。

接下来，实例化一个VectorstoreIndexCreator对象，命名为index_creator。在这个过程中，传入了两个参数：

 - embedding参数：这里传入了一个名为embeddings的变量，它应该是之前定义的一个embedding模型或者对象。这个模型负责将文本数据转化为高维向量，以便于之后在向量空间中进行相似性搜索。
 - vectorstore_cls参数：设置为DocArrayInMemorySearch类，这指定了所使用的向量数据库类型。DocArrayInMemorySearch是一种在内存中存储和搜索向量数据的实现方式，适用于数据量不大且追求快速检索的场景。这意味着创建的索引将会存储在内存中，而非持久化到磁盘，这样可以提高查询速度，但可能会占用较多的内存资源。

In [11]:
index_creator = VectorstoreIndexCreator(
    embedding = embeddings,
    vectorstore_cls=DocArrayInMemorySearch
)

In [12]:
'''
将指定向量存储类,创建完成后，我们将从加载器中调用,通过文档记载器列表加载
'''
index = index_creator.from_loaders([loader])



In [13]:
# 请列出您所有具有防晒功能的衬衫 在 Markdown 的表格中并总结每一个。
query ="Please list all your shirts with sun protection \
in a table in markdown and summarize each one."

我们可以使用自定义提示模板修改查询以满足我们的需求

In [14]:
from langchain.prompts import PromptTemplate
# 因为原始数据是英文的所以模板是英文的这样更好,下面的中文模板也是能正常运行可能输出的答案有时又会偏颇

prompt_template = """Use the following pieces of context to answer the question at the end. 
If you don't know the answer, please think rationally and answer from your own knowledge base 

{context}

Question: {question}
"""
# prompt_template = """使用以下上下文片段来回答最后的问题。如果你不知道答案，只需说不知道，不要试图编造答案。
# 答案最多使用三个句子。尽量简明扼要地回答。在回答的最后一定要说"感谢您的提问！"

# {context}

# Question: {question}
# """
PROMPT = PromptTemplate(
    template=prompt_template, input_variables=["context","question"]
)
chain_type_kwargs = {"prompt": PROMPT}

In [18]:
response = index.query(query,llm=llm, chain_type_kwargs=chain_type_kwargs)  #使用索引查询创建一个响应，并传入这个查询
# print(response)
display(Markdown(response))

| Item         | Fabric | UPF | Moisture Wicking | Machine Washable |
|---------------|--------|-----|----------------|----------------|
| Men's Plaid Tropic Shirt, Short-Sleeve | 52% polyester, 48% nylon | 50+ | Yes | Yes |
| Sun Shield Shirt by | 78% nylon, 22% Lycra Xtra Life fiber | 50+ | Yes | No |

得到了一个Markdown表格，其中包含所有带有防晒衣的衬衫的名称和描述，还得到了一个语言模型提供的不错的小总结

使用语言模型与文档结合使用
想要使用语言模型并将其与我们的许多文档结合使用，但是语言模型一次只能检查几千个单词（不同模型对支持一次检查多少个单词不一样，比如百川一次支持 512 个 token，token 数 = 汉字数+单词数*1.3），如果我们有非常大的文档，如何让语言模型回答关于其中所有内容的问题呢？通过embedding和向量存储实现

 - embedding
   
    文本片段创建数值表示文本语义，相似内容的文本片段将具有相似的向量，这使我们可以在向量空间中比较文本片段  
 
 - 向量数据库

    向量数据库是存储我们在上一步中创建的这些向量表示的一种方式，我们创建这个向量数据库的方式是用来自传入文档的文本块填充它。 当我们获得一个大的传入文档时，我们首先将其分成较小的块，因为我们可能无法将整个文档传递给语言模型，因此采用分块embedding的方式储存到向量数据库中。这就是创建索引的过程。

通过运行时使用索引来查找与传入查询最相关的文本片段，然后我们将其与向量数据库中的所有向量进行比较，并选择最相似的n个，返回语言模型得到最终答案

In [19]:
#创建一个文档加载器，通过csv格式加载
loader = CSVLoader(file_path=file,encoding='utf8')
docs = loader.load()

In [20]:
docs[0]#查看单个文档，我们可以看到每个文档对应于CSV中的一个块

Document(page_content=": 0\nname: Women's Campside Oxfords\ndescription: This ultracomfortable lace-to-toe Oxford boasts a super-soft canvas, thick cushioning, and quality construction for a broken-in feel from the first time you put them on. \n\nSize & Fit: Order regular shoe size. For half sizes not offered, order up to next whole size. \n\nSpecs: Approx. weight: 1 lb.1 oz. per pair. \n\nConstruction: Soft canvas material for a broken-in feel and look. Comfortable EVA innersole with Cleansport NXT® antimicrobial odor control. Vintage hunt, fish and camping motif on innersole. Moderate arch contour of innersole. EVA foam midsole for cushioning and support. Chain-tread-inspired molded rubber outsole with modified chain-tread pattern. Imported. \n\nQuestions? Please contact us for any inquiries.", metadata={'source': 'OutdoorClothingCatalog_1000.csv', 'row': 0})

In [21]:
len(docs)

6

In [22]:
'''
因为这些文档已经非常小了，所以我们实际上不需要在这里进行任何分块,可以直接进行embedding
'''

from langchain_community.embeddings import BaichuanTextEmbeddings  #要创建可以直接进行embedding，我们将使用baichuanAI的可以直接进行embedding类
# embeddings = BaichuanTextEmbeddings(baichuan_api_key=os.environ["BAICHUAN_API_KEY"])
embeddings = BaichuanTextEmbeddings() #初始化

In [23]:
 #让我们使用embedding上的查询方法为特定文本创建embedding
embed = embeddings.embed_query("Hi my name is Harrison")

In [24]:
print(len(embed))#查看这个embedding，我们可以看到有超过一千个不同的元素

1024


In [25]:
#每个元素都是不同的数字值，组合起来，这就创建了这段文本的总体数值表示
print(embed[:5])

[0.027318535, 0.00078973273, -0.011749281, 0.05348684, -0.035398442]


In [26]:
'''
为刚才的文本创建embedding，准备将它们存储在向量存储中，使用向量存储上的from documents方法来实现。
该方法接受文档列表、嵌入对象，然后我们将创建一个总体向量存储
'''
db = DocArrayInMemorySearch.from_documents(
    docs, 
    embeddings
)

In [27]:
# 请推荐一件有防晒功能的衬衫
query = "Please suggest a shirt with sunblocking"

In [28]:
# 使用这个向量存储来查找与传入查询类似的文本，如果我们在向量存储中使用相似性搜索方法并传入一个查询，我们将得到一个文档列表
docs = db.similarity_search(query) 

In [29]:
len(docs) # 我们可以看到它返回了四个文档

4

In [30]:
docs[0] #，如果我们看第一个文档，我们可以看到它确实是一件关于防晒的衬衫

Document(page_content=": 5\nname: Men's Plaid Tropic Shirt, Short-Sleeve\ndescription: Our Ultracomfortable sun protection is rated to UPF 50+, helping you stay cool and dry. Originally designed for fishing, this lightest hot-weather shirt offers UPF 50+ coverage and is great for extended travel. SunSmart technology blocks 98% of the sun's harmful UV rays, while the high-performance fabric is wrinkle-free and quickly evaporates perspiration. Made with 52% polyester and 48% nylon, this shirt is machine washable and dryable. Additional features include front and back cape venting, two front bellows pockets and an imported design. With UPF 50+ coverage, you can limit sun exposure and feel secure with the highest rated sun protection available.", metadata={'source': 'OutdoorClothingCatalog_1000.csv', 'row': 5})

### 如何回答我们文档的相关问题

首先，我们需要从这个向量存储中创建一个检索器，检索器是一个通用接口，可以由任何接受查询并返回文档的方法支持。接下来，因为我们想要进行文本生成并返回自然语言响应

In [31]:
retriever = db.as_retriever() #创建检索器通用接口

In [32]:
llm = ChatBaichuan(temperature = 0.0,max_tokens=1024) #导入语言模型

                    max_tokens was transferred to model_kwargs.
                    Please confirm that max_tokens is what you intended.


In [33]:
qdocs = "".join([docs[i].page_content for i in range(len(docs))])  # 将合并文档中的所有页面内容到一个变量中

In [34]:
print(qdocs)

: 5
name: Men's Plaid Tropic Shirt, Short-Sleeve
description: Our Ultracomfortable sun protection is rated to UPF 50+, helping you stay cool and dry. Originally designed for fishing, this lightest hot-weather shirt offers UPF 50+ coverage and is great for extended travel. SunSmart technology blocks 98% of the sun's harmful UV rays, while the high-performance fabric is wrinkle-free and quickly evaporates perspiration. Made with 52% polyester and 48% nylon, this shirt is machine washable and dryable. Additional features include front and back cape venting, two front bellows pockets and an imported design. With UPF 50+ coverage, you can limit sun exposure and feel secure with the highest rated sun protection available.: 4
name: Sun Shield Shirt by
description: "Block the sun, not the fun – our high-performance sun shirt is guaranteed to protect from harmful UV rays. 

Size & Fit: Slightly Fitted: Softly shapes the body. Falls at hip.

Fabric & Care: 78% nylon, 22% Lycra Xtra Life fiber. U

In [35]:
#列出所有具有防晒功能的衬衫并在Markdown表格中总结每个衬衫的语言模型,请用中文

response = llm.invoke(f"{qdocs} Question: Please list all your \
shirts with sun protection in a table in markdown and summarize each one,using chinese.") 

In [36]:
display(Markdown(response.content))

| 商品名称 | 描述 |
| --- | --- |
| 男士格子热带衬衫，短袖 | 这款衬衫采用52%涤纶和48%尼龙制成，具有UPF 50+的防晒功能，可阻挡98%的紫外线。它适合钓鱼和长时间旅行，具有防皱和快速吸湿排汗的特性。正面和背面有通风设计，两个前袋，进口设计。 |
| Sun Shield 衬衫 | 这款衬衫采用78%尼龙和22%莱卡制成，UPF 50+，可阻挡98%的紫外线。它的面料可以迅速吸湿排汗，舒适地覆盖泳装，并且耐磨。 |
| 女婴和幼儿Coastal Chill泳衣，两件套 | 这款泳衣的UPF 50+可以阻挡98%的紫外线，采用四向弹力、抗氯面料，交叉防滑肩带和全衬底确保贴合度和遮盖。 |
| Refresh泳装，V领拼接比基尼上装 | 这款泳装上装采用82%再生尼龙和18%莱卡制成，UPF 50+，可阻挡98%的紫外线。轻盈的工字背带易于穿脱，V领设计凸显女性魅力。 |

In [37]:
''' 
通过LangChain链封装起来
创建一个检索QA链，对检索到的文档进行问题回答，要创建这样的链，我们将传入几个不同的东西
1、语言模型，在最后进行文本生成
2、传入链类型，这里使用stuff，将所有文档塞入上下文并对语言模型进行一次调用
3、传入一个检索器
'''

prompt_template = """Use the following pieces of context to answer the question at the end. 
If you don't know the answer, please think rationally and answer from your own knowledge base 

{context}

Question: {question}
"""
PROMPT = PromptTemplate(
    template=prompt_template, input_variables=["context", "question"]
)
chain_type_kwargs = {"prompt": PROMPT}

qa_stuff = RetrievalQA.from_chain_type(
    llm=llm, 
    chain_type="stuff", 
    retriever=retriever, 
    verbose=True,
    chain_type_kwargs=chain_type_kwargs
)

In [38]:
#创建一个查询并在此查询上运行链
query =  "Please list all your shirts with sun protection in a table \
in markdown and summarize each one."

In [42]:
response = qa_stuff.invoke(query)



[1m> Entering new RetrievalQA chain...[0m

[1m> Finished chain.[0m


In [43]:
display(Markdown(response["result"]))

| Product | Material | Sun Protection |
|----------------------|-------------------------------|---------------|
| Men's Plaid Tropic Shirt | 52% polyester, 48% nylon | UPF 50+ |
| Sun Shield Shirt | 78% nylon, 22% Lycra Xtra Life fiber | UPF 50+ |
| Refresh Swimwear Tankini | 82% recycled nylon, 18% Lycra® spandex | UPF 50+ |

These three shirts offer the highest level of sun protection, blocking 98% of the sun's harmful UV rays. They are suitable for outdoor activities such as fishing, extended travel, and swimming. The fabrics are breathable, quick-drying, and abrasion resistant, making them ideal for active lifestyles.

In [46]:
query =  "Please list all your \
shirts with sun protection in a table in markdown and summarize each one,using chinese."
response = qa_stuff.invoke(query)
display(Markdown(response["result"]))



[1m> Entering new RetrievalQA chain...[0m

[1m> Finished chain.[0m


| 序号 | 商品名称                                       | 材质                                                         | 防晒系数 | 特点                                                                                   |
|----|----------------------------------------------|-----------------------------------------------------------|------|---------------------------------------------------------------------------------------|
| 1  | Men's Plaid Tropic Shirt, Short-Sleeve          | 52% polyester, 48% nylon                                       | UPF 50+ | 轻薄透气，快速吸汗，防皱，适合炎热天气穿着，可机洗和干洗。                                   |
| 2  | Sun Shield Shirt by                            | 78% nylon, 22% Lycra Xtra Life fiber                            | UPF 50+ | 吸湿排汗，舒适贴身，可搭配泳装穿着，抗摩擦，适合长期穿着，需手洗、晾干。                       |
| 3  | Refresh Swimwear, V-Neck Tankini Contrasts        | 82% recycled nylon, 18% Lycra® spandex (主体)；90% recycled nylon, 10% Lycra® spandex (内衬) | UPF 50+ | 适合游泳和水运动穿着，舒适贴合，环保材质，需手洗、晾干。                                         |

这些衬衫都具有UPF 50+的防晒系数，可以有效阻挡紫外线，保护皮肤。它们分别适用于不同的场合，如日常穿着、游泳和运动等。请根据您的需求选择合适的衬衫。

### 不同类型的chain链
想在许多不同类型的块上执行相同类型的问答，该怎么办？之前的实验中只返回了4个文档，如果有多个文档，那么我们可以使用几种不同的方法

 - Map Reduce
    将所有块与问题一起传递给语言模型，获取回复，使用另一个语言模型调用将所有单独的回复总结成最终答案，它可以在任意数量的文档上运行。可以并行处理单个问题，同时也需要更多的调用。它将所有文档视为独立的
 - Refine
    用于循环许多文档，际上是迭代的，建立在先前文档的答案之上，非常适合前后因果信息并随时间逐步构建答案，依赖于先前调用的结果。它通常需要更长的时间，并且基本上需要与Map Reduce一样多的调用
 - Map Re-rank
    对每个文档进行单个语言模型调用，要求它返回一个分数，选择最高分，这依赖于语言模型知道分数应该是什么，需要告诉它，如果它与文档相关，则应该是高分，并在那里精细调整说明，可以批量处理它们相对较快，但是更加昂贵
 - Stuff
    将所有内容组合成一个文档