向量存储检索器是使用向量存储检索文档的检索器。它是围绕矢量存储类的轻量级包装器，使其符合检索器接口。
它使用向量存储实现的搜索方法(如相似性搜索和MMR)来查询向量存储中的文本。
一旦你构造了一个向量存储，构造召回系统就很容易了。让我们看一个例子。

In [6]:
from dotenv import find_dotenv,load_dotenv
load_dotenv(find_dotenv())

True

In [7]:
from langchain_community.document_loaders import TextLoader

loader = TextLoader("../../data/2015北京年报.txt",encoding='utf-8')

In [8]:
from langchain.text_splitter import CharacterTextSplitter
from langchain_community.vectorstores import FAISS
from langchain_openai import OpenAIEmbeddings

documents = loader.load()
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
texts = text_splitter.split_documents(documents)
embeddings = OpenAIEmbeddings()
db = FAISS.from_documents(texts, embeddings)

In [9]:
retriever = db.as_retriever()

In [10]:
docs = retriever.get_relevant_documents("2015年提取业务的情况")

In [11]:
docs

[Document(page_content='五、社会经济效益\n（一）缴存业务\n2015年住房公积金实缴人数和缴存额增长率分别为14.0%和13.8%。缴存职工的构成情况：按单位性质，国家机关和事业单位占18.7%，国有企业占20.2%，城镇集体企业占0.7%，外商投资企业占11.8%，城镇私营企业及其他城镇企业占36.4%，民办非企业单位和社会团体占0.7%，其他占11.5%。\n按收入水平，低收入群体（住房公积金缴存基数低于2014年本市职工平均工资）占53.1%，中等收入群体（住房公积金缴存基数介于2014年本市职工平均工资1倍-3倍之间）占38.5 %，高收入群体（住房公积金缴存基数高于2014年本市职工平均工资3倍）占8.4%。\n\n（二）提取业务\n2015全年提取住房公积金1117.38万笔、920.62亿元。提取的金额中，住房消费提取占87.8%（购买、建造、翻建、大修自住住房占77.7 %，偿还购房贷款本息占8.4%，租赁住房占1.7%）；非住房消费提取占12.2%（离休和退休提取占9.8%，完全丧失劳动能力并与单位终止劳动关系提取占0.2%，户口迁出本市或出境定居占0.3%,其他占1.9%）。', metadata={'source': '../../data/2015北京年报.txt'}),
 Document(page_content='二、业务运行情况\n（一）缴存\n职工当月缴存的住房公积金为单位和本人月缴存额之和，金额为职工上一年月平均工资乘以缴存比例。2015住房公积金年度缴存比例为12%。单位和个人缴存上限分别为2014年北京市职工月平均工资的3倍乘以缴存比例，职工和单位月缴存额上限均为2327元。职工住房公积金月缴存基数不得低于北京市人力资源和社会保障局公布的2015年北京市最低工资标准1720元；下岗、内退等类似情况职工月缴存基数不得低于2015年北京市基本生活费1204元。经管委会批准，同意98个单位降低缴存比例和缓缴住房公积金。\n为维护职工合法权益，管理中心与工商、地税、人力社保、统计等部门协作，加强对新增私营企业的摸查和住房公积金的催建。全年实缴单位118080个，实缴职工651.58万人，缴存1297.39亿元，同比分别增长17.8%、14.0%和13.8%。当年新开户单位25064个, 新开户职工85.99万

## 最大边际相关性检索
默认情况下，向量存储检索器使用相似性搜索。如果底层向量存储支持最大边际相关性搜索，则可以将其指定为搜索类型。

In [12]:
retriever = db.as_retriever(search_type="mmr")

In [13]:
docs = retriever.get_relevant_documents("2015年提取业务的情况")

In [14]:
docs

[Document(page_content='五、社会经济效益\n（一）缴存业务\n2015年住房公积金实缴人数和缴存额增长率分别为14.0%和13.8%。缴存职工的构成情况：按单位性质，国家机关和事业单位占18.7%，国有企业占20.2%，城镇集体企业占0.7%，外商投资企业占11.8%，城镇私营企业及其他城镇企业占36.4%，民办非企业单位和社会团体占0.7%，其他占11.5%。\n按收入水平，低收入群体（住房公积金缴存基数低于2014年本市职工平均工资）占53.1%，中等收入群体（住房公积金缴存基数介于2014年本市职工平均工资1倍-3倍之间）占38.5 %，高收入群体（住房公积金缴存基数高于2014年本市职工平均工资3倍）占8.4%。\n\n（二）提取业务\n2015全年提取住房公积金1117.38万笔、920.62亿元。提取的金额中，住房消费提取占87.8%（购买、建造、翻建、大修自住住房占77.7 %，偿还购房贷款本息占8.4%，租赁住房占1.7%）；非住房消费提取占12.2%（离休和退休提取占9.8%，完全丧失劳动能力并与单位终止劳动关系提取占0.2%，户口迁出本市或出境定居占0.3%,其他占1.9%）。', metadata={'source': '../../data/2015北京年报.txt'}),
 Document(page_content='北京住房公积金2015年年度报告\n发布日期：2016-03-31\n根据国务院《住房公积金管理条例》和住房城乡建设部、财政部、人民银行《关于健全住房公积金信息披露制度的通知》(建金〔2015〕26号)的规定，经北京住房公积金管理委员会审议通过，现将北京住房公积金2015年年度报告予以公布。\n\n一、机构概况\n（一) 住房公积金管理委员会\n北京住房公积金管理委员会（以下简称管委会）有32名成员。第十五次管委会全体会议审议通过了2014年住房公积金归集使用计划执行情况和2015年归集使用计划，2014年住房公积金增值收益收支情况和2015年收支计划，2015年度住房公积金年度缴存比例。\n\n（二）住房公积金管理中心\n北京住房公积金管理中心（以下简称管理中心）为北京市政府直属的全额拨款事业单位，主要负责北京地区住房公积金的归集、管理、使用和会计核算。目前中心设置3个分中心，内设13个处室和工会；

## 相似分数阈值检索
您还可以设置一个检索方法，该方法设置一个相似度分数阈值，并且只返回分数高于该阈值的文档。

In [15]:
retriever = db.as_retriever(
    search_type="similarity_score_threshold", search_kwargs={"score_threshold": 0.5}
)

In [16]:
docs = retriever.get_relevant_documents("2015年提取业务的情况")

In [17]:
docs

[Document(page_content='五、社会经济效益\n（一）缴存业务\n2015年住房公积金实缴人数和缴存额增长率分别为14.0%和13.8%。缴存职工的构成情况：按单位性质，国家机关和事业单位占18.7%，国有企业占20.2%，城镇集体企业占0.7%，外商投资企业占11.8%，城镇私营企业及其他城镇企业占36.4%，民办非企业单位和社会团体占0.7%，其他占11.5%。\n按收入水平，低收入群体（住房公积金缴存基数低于2014年本市职工平均工资）占53.1%，中等收入群体（住房公积金缴存基数介于2014年本市职工平均工资1倍-3倍之间）占38.5 %，高收入群体（住房公积金缴存基数高于2014年本市职工平均工资3倍）占8.4%。\n\n（二）提取业务\n2015全年提取住房公积金1117.38万笔、920.62亿元。提取的金额中，住房消费提取占87.8%（购买、建造、翻建、大修自住住房占77.7 %，偿还购房贷款本息占8.4%，租赁住房占1.7%）；非住房消费提取占12.2%（离休和退休提取占9.8%，完全丧失劳动能力并与单位终止劳动关系提取占0.2%，户口迁出本市或出境定居占0.3%,其他占1.9%）。', metadata={'source': '../../data/2015北京年报.txt'}),
 Document(page_content='二、业务运行情况\n（一）缴存\n职工当月缴存的住房公积金为单位和本人月缴存额之和，金额为职工上一年月平均工资乘以缴存比例。2015住房公积金年度缴存比例为12%。单位和个人缴存上限分别为2014年北京市职工月平均工资的3倍乘以缴存比例，职工和单位月缴存额上限均为2327元。职工住房公积金月缴存基数不得低于北京市人力资源和社会保障局公布的2015年北京市最低工资标准1720元；下岗、内退等类似情况职工月缴存基数不得低于2015年北京市基本生活费1204元。经管委会批准，同意98个单位降低缴存比例和缓缴住房公积金。\n为维护职工合法权益，管理中心与工商、地税、人力社保、统计等部门协作，加强对新增私营企业的摸查和住房公积金的催建。全年实缴单位118080个，实缴职工651.58万人，缴存1297.39亿元，同比分别增长17.8%、14.0%和13.8%。当年新开户单位25064个, 新开户职工85.99万

## 指定top k
您还可以指定搜索变量，如k，以便在进行检索时使用。

In [18]:
retriever = db.as_retriever(search_kwargs={"k": 1})

In [19]:
docs = retriever.get_relevant_documents("2015年提取业务的情况")

In [20]:
docs

[Document(page_content='五、社会经济效益\n（一）缴存业务\n2015年住房公积金实缴人数和缴存额增长率分别为14.0%和13.8%。缴存职工的构成情况：按单位性质，国家机关和事业单位占18.7%，国有企业占20.2%，城镇集体企业占0.7%，外商投资企业占11.8%，城镇私营企业及其他城镇企业占36.4%，民办非企业单位和社会团体占0.7%，其他占11.5%。\n按收入水平，低收入群体（住房公积金缴存基数低于2014年本市职工平均工资）占53.1%，中等收入群体（住房公积金缴存基数介于2014年本市职工平均工资1倍-3倍之间）占38.5 %，高收入群体（住房公积金缴存基数高于2014年本市职工平均工资3倍）占8.4%。\n\n（二）提取业务\n2015全年提取住房公积金1117.38万笔、920.62亿元。提取的金额中，住房消费提取占87.8%（购买、建造、翻建、大修自住住房占77.7 %，偿还购房贷款本息占8.4%，租赁住房占1.7%）；非住房消费提取占12.2%（离休和退休提取占9.8%，完全丧失劳动能力并与单位终止劳动关系提取占0.2%，户口迁出本市或出境定居占0.3%,其他占1.9%）。', metadata={'source': '../../data/2015北京年报.txt'})]

# 多请求查询
基于距离的矢量数据库检索将查询嵌入(表示)在高维空间中，并根据“距离”找到相似的嵌入文档。但是，由于查询措辞的细微变化，或者如果嵌入没有很好地捕获数据的语义，检索可能会产生不同的结果。提示工程/调优有时是为了手动解决这些问题，但可能很繁琐。
`MultiQueryRetriever`通过使用LLM从不同的角度为给定的用户输入查询生成多个查询，从而使提示调优过程自动化。对于每个查询，它检索一组相关文档，并在所有查询中获取唯一联合，以获得更大的潜在相关文档集。通过在同一个问题上生成多个透视图，`MultiQueryRetriever`可能能够克服基于距离的检索的一些限制，并获得更丰富的结果集。

In [23]:
# Build a sample vectorDB
from langchain.text_splitter import RecursiveCharacterTextSplitter
# from langchain_community.document_loaders import WebBaseLoader
from langchain_community.vectorstores import Chroma
from langchain_openai import OpenAIEmbeddings

# # Load blog post
# loader = WebBaseLoader("https://lilianweng.github.io/posts/2023-06-23-agent/")
# data = loader.load()

# Split
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=100) # overlap失败
splits = text_splitter.split_documents(documents)

# VectorDB
embedding = OpenAIEmbeddings()
vectordb = Chroma.from_documents(documents=splits, embedding=embedding)

In [25]:
splits

[Document(page_content='北京住房公积金2015年年度报告\n发布日期：2016-03-31\n根据国务院《住房公积金管理条例》和住房城乡建设部、财政部、人民银行《关于健全住房公积金信息披露制度的通知》(建金〔2015〕26号)的规定，经北京住房公积金管理委员会审议通过，现将北京住房公积金2015年年度报告予以公布。\n\n一、机构概况\n（一) 住房公积金管理委员会\n北京住房公积金管理委员会（以下简称管委会）有32名成员。第十五次管委会全体会议审议通过了2014年住房公积金归集使用计划执行情况和2015年归集使用计划，2014年住房公积金增值收益收支情况和2015年收支计划，2015年度住房公积金年度缴存比例。', metadata={'source': '../../data/2015北京年报.txt'}),
 Document(page_content='（二）住房公积金管理中心\n北京住房公积金管理中心（以下简称管理中心）为北京市政府直属的全额拨款事业单位，主要负责北京地区住房公积金的归集、管理、使用和会计核算。目前中心设置3个分中心，内设13个处室和工会；垂直管理20个分支机构（18个管理部和住房公积金贷款中心、结算中心）；下设3个直属事业单位：北京住房公积金客户服务中心、北京市住房贷款担保中心、北京市住房贷款个人信用信息服务中心。分支机构营业网点详情请参见北京住房公积金网http://www.bjgjj.gov.cn/。', metadata={'source': '../../data/2015北京年报.txt'}),
 Document(page_content='二、业务运行情况\n（一）缴存\n职工当月缴存的住房公积金为单位和本人月缴存额之和，金额为职工上一年月平均工资乘以缴存比例。2015住房公积金年度缴存比例为12%。单位和个人缴存上限分别为2014年北京市职工月平均工资的3倍乘以缴存比例，职工和单位月缴存额上限均为2327元。职工住房公积金月缴存基数不得低于北京市人力资源和社会保障局公布的2015年北京市最低工资标准1720元；下岗、内退等类似情况职工月缴存基数不得低于2015年北京市基本生活费1204元。经管委会批准，同意98个单位降低缴存比例和缓缴住房公积金。\n为维护职工合法权益，管理中心与工商、地税、人力社保

## 简单的使用
指定要用于生成查询的LLM，检索器将完成其余的工作。

In [26]:
from langchain.retrievers.multi_query import MultiQueryRetriever
from langchain_openai import ChatOpenAI

question = "2015年提取业务的情况"
llm = ChatOpenAI(temperature=0)
retriever_from_llm = MultiQueryRetriever.from_llm(
    retriever=vectordb.as_retriever(), llm=llm
)

In [27]:
# Set logging for the queries
import logging

logging.basicConfig()
logging.getLogger("langchain.retrievers.multi_query").setLevel(logging.INFO)

In [28]:
unique_docs = retriever_from_llm.get_relevant_documents(query=question)
len(unique_docs)

INFO:langchain.retrievers.multi_query:Generated queries: ['1. 2015年业务提取的情况如何？', '2. 2015年的业务提取情况有哪些？', '3. 关于2015年的业务提取情况，你有什么了解？']


2

In [29]:
unique_docs

[Document(page_content='（二）提取业务\n2015全年提取住房公积金1117.38万笔、920.62亿元。提取的金额中，住房消费提取占87.8%（购买、建造、翻建、大修自住住房占77.7 %，偿还购房贷款本息占8.4%，租赁住房占1.7%）；非住房消费提取占12.2%（离休和退休提取占9.8%，完全丧失劳动能力并与单位终止劳动关系提取占0.2%，户口迁出本市或出境定居占0.3%,其他占1.9%）。', metadata={'source': '../../data/2015北京年报.txt'}),
 Document(page_content='（三）历史遗留风险资产\n截至2015年底，不存在历史遗留风险资产。\n\n\n五、社会经济效益\n（一）缴存业务\n2015年住房公积金实缴人数和缴存额增长率分别为14.0%和13.8%。缴存职工的构成情况：按单位性质，国家机关和事业单位占18.7%，国有企业占20.2%，城镇集体企业占0.7%，外商投资企业占11.8%，城镇私营企业及其他城镇企业占36.4%，民办非企业单位和社会团体占0.7%，其他占11.5%。\n按收入水平，低收入群体（住房公积金缴存基数低于2014年本市职工平均工资）占53.1%，中等收入群体（住房公积金缴存基数介于2014年本市职工平均工资1倍-3倍之间）占38.5 %，高收入群体（住房公积金缴存基数高于2014年本市职工平均工资3倍）占8.4%。', metadata={'source': '../../data/2015北京年报.txt'})]

## 自定义提示词
还可以提供提示词和输出解析器，将结果拆分为查询列表。

In [30]:
from typing import List

from langchain.chains import LLMChain
from langchain.output_parsers import PydanticOutputParser
from langchain.prompts import PromptTemplate
from pydantic import BaseModel, Field


# Output parser will split the LLM result into a list of queries 输出解析器将把LLM结果拆分为查询列表
class LineList(BaseModel):
    # "lines" is the key (attribute name) of the parsed output
    lines: List[str] = Field(description="Lines of text")


class LineListOutputParser(PydanticOutputParser):
    def __init__(self) -> None:
        super().__init__(pydantic_object=LineList)

    def parse(self, text: str) -> LineList:
        lines = text.strip().split("\n")
        return LineList(lines=lines)


output_parser = LineListOutputParser()

QUERY_PROMPT = PromptTemplate(
    input_variables=["question"],
    template="""你是一名中文AI助手。你的任务是根据用户给定的问题生成3个不同版本从向量数据库中检索相关文档的新问题。
    需要对用户的问题进行多视角分析，你的目标是帮助用户解决相似度搜索的限制。最后的答案用中文回答,将生成的问题用换行符分隔开。
    用户给定的最初问题{question}""",
)
llm = ChatOpenAI(temperature=0)

# Chain
llm_chain = LLMChain(llm=llm, prompt=QUERY_PROMPT, output_parser=output_parser)

# Other inputs
question = "2015年提取业务的情况?"

In [31]:
# Run
retriever = MultiQueryRetriever(
    retriever=vectordb.as_retriever(), llm_chain=llm_chain, parser_key="lines"
)  # "lines" is the key (attribute name) of the parsed output

# Results
unique_docs = retriever.get_relevant_documents(
    query="2015年的提取总额?"
)
len(unique_docs)

INFO:langchain.retrievers.multi_query:Generated queries: ['1. 2015年的提取总额是多少？', '2. 请问2015年的提取总额是多少？', '3. 你知道2015年的提取总额是多少吗？']


2

In [32]:
unique_docs

[Document(page_content='（二）提取业务\n2015全年提取住房公积金1117.38万笔、920.62亿元。提取的金额中，住房消费提取占87.8%（购买、建造、翻建、大修自住住房占77.7 %，偿还购房贷款本息占8.4%，租赁住房占1.7%）；非住房消费提取占12.2%（离休和退休提取占9.8%，完全丧失劳动能力并与单位终止劳动关系提取占0.2%，户口迁出本市或出境定居占0.3%,其他占1.9%）。', metadata={'source': '../../data/2015北京年报.txt'}),
 Document(page_content='（二）提取\n2015年缴存人提取住房公积金920.62亿元，其中购房提取792.67亿元，租房提取15.87亿元，离休和退休提取90.49亿元，其他提取21.59亿元。提取占当年缴存额的比率为71%，同比增加3.6个百分点。截至2015年底，提取总额5002.76亿元，同比增长22.6%。\n为严厉打击违规提取、骗提住房公积金的行为，维护北京住房公积金管理的良好秩序，经调查核实，管理中心对存在造假违规骗提住房公积金行为的26家单位进行了查处；同时会同有关执法部门对违法行为涉及的12个电话号码依法进行了停机处理，并向社会公布，有效遏制了违法违规行为。', metadata={'source': '../../data/2015北京年报.txt'})]

## 上下文压缩
检索的一个挑战是，当您将数据摄取到系统中时，您通常不知道文档存储系统将面临的特定查询。这意味着与查询最相关的信息可能隐藏在包含大量不相关文本的文档中。在应用程序中传递完整的文档可能会导致LLM调用成本更高，响应也更差。
上下文压缩就是为了解决这个问题。其思想很简单:与其按原样立即返回检索到的文档，不如使用给定查询的上下文压缩它们，以便只返回相关信息。这里的“压缩”既指压缩单个文档的内容，也指过滤掉整个文档。
要使用上下文压缩检索器，您需要:
- 基本检索器
- 文档压缩器

上下文压缩检索器将查询传递给基本检索器，获取初始文档并通过文档压缩器传递它们。Document Compressor获取一个文档列表，并通过减少文档的内容或完全删除文档来缩短它。

In [33]:
# Helper function for printing docs


def pretty_print_docs(docs):
    print(
        f"\n{'-' * 100}\n".join(
            [f"Document {i+1}:\n\n" + d.page_content for i, d in enumerate(docs)]
        )
    )

## 使用一个寻常的RAG
让我们首先初始化一个简单的向量存储检索器，并存储文档(以块为单位)。我们可以看到，给定一个示例问题，我们的检索器返回一两个相关的文档和一些不相关的文档。即使是相关的文档也有很多不相关的信息。

In [36]:
from langchain.text_splitter import CharacterTextSplitter
from langchain_community.document_loaders import TextLoader
from langchain_community.vectorstores import FAISS
from langchain_openai import OpenAIEmbeddings

documents = TextLoader("../../data/2015北京年报.txt",encoding='utf-8').load()
text_splitter = CharacterTextSplitter(chunk_size=500, chunk_overlap=0)
texts = text_splitter.split_documents(documents)
retriever = FAISS.from_documents(texts, OpenAIEmbeddings()).as_retriever()

docs = retriever.get_relevant_documents(
    "增值收益及其收益率为多少?"
)
pretty_print_docs(docs)



Document 1:

（二）业务支出
2015全年,住房公积金业务支出共计300088.48万元，同比降低45.2%。其中，缴存职工账户余额的利息支出251072.41万元，归集手续费用支出676.66万元，委托贷款手续费支出45299.35万元，其他支出3040.06万元（主要是项目贷款应交税金）。同时，经市财政局批复后支出与住房公积金业务相关的专项经费32993.82万元（主要为公积金贷款资产委托管理费、公积金个人住房贷款贴息经费、综合信息管理系统升级改造、运维服务等业务支出费用）。

（三）增值收益
管理中心在利率连续下调的背景下，通过加强资金综合调度，提升资金运用率，优先安排个贷资金发放，减少银行存款，住房公积金增值收益大幅提高。2015全年，住房公积金增值收益788646.16万元，创历史新高，同比增长65.8%。增值收益率（增值收益与月均缴存余额的比率）2.9%，比上年同期增加 0.9个百分点。
----------------------------------------------------------------------------------------------------
Document 2:

（二）提取业务
2015全年提取住房公积金1117.38万笔、920.62亿元。提取的金额中，住房消费提取占87.8%（购买、建造、翻建、大修自住住房占77.7 %，偿还购房贷款本息占8.4%，租赁住房占1.7%）；非住房消费提取占12.2%（离休和退休提取占9.8%，完全丧失劳动能力并与单位终止劳动关系提取占0.2%，户口迁出本市或出境定居占0.3%,其他占1.9%）。
----------------------------------------------------------------------------------------------------
Document 3:

（四）购买国债
2015年，未发生新购买、兑付、转让、收回国债情况。期末国债余额4.26亿元，与上年相比无变化。

（五）资金存储
截至2015年底，管理中心结余资金存款348.31亿元，其中，活期4.02亿元，1年以内定期（含）121.15亿元，1年以上定期172.79亿元，其他(协议、协定、通知存款等)50.35亿元。

（六）资金运用率

## 使用`LLMChainExtractor`添加上下文压缩
现在让我们用一个`ContextualCompressionRetriever`来包装我们的基本检索器。我们将添加一个`LLMChainExtractor`，它将遍历最初返回的文档，并仅从每个文档中提取与查询相关的内容。

In [37]:
from langchain.retrievers import ContextualCompressionRetriever
from langchain.retrievers.document_compressors import LLMChainExtractor
from langchain_openai import OpenAI

llm = OpenAI(temperature=0)
compressor = LLMChainExtractor.from_llm(llm)
compression_retriever = ContextualCompressionRetriever(
    base_compressor=compressor, base_retriever=retriever
)

compressed_docs = compression_retriever.get_relevant_documents(
    "增值收益及其收益率为多少?"
)
pretty_print_docs(compressed_docs)



Document 1:

住房公积金增值收益788646.16万元，创历史新高，同比增长65.8%。增值收益率（增值收益与月均缴存余额的比率）2.9%，比上年同期增加 0.9个百分点。
----------------------------------------------------------------------------------------------------
Document 2:

2015全年提取住房公积金1117.38万笔、920.62亿元。提取的金额中，住房消费提取占87.8%（购买、建造、翻建、大修自住住房占77.7 %，偿还购房贷款本息占8.4%，租赁住房占1.7%）；非住房消费提取占12.2%（离休和退休提取占9.8%，完全丧失劳动能力并与单位终止劳动关系提取占0.2%，户口迁出本市或出境定居占0.3%,其他占1.9%）。
----------------------------------------------------------------------------------------------------
Document 3:

存款(含增值收益存款)利息收入157379.86万元，委托贷款利息收入930128.01万元，国债利息收入517.15万元
----------------------------------------------------------------------------------------------------
Document 4:

2015年住房公积金实缴人数和缴存额增长率分别为14.0%和13.8%。


## 更多内置压缩器:过滤器
### LLMChainFilter
`LLMChainFilter`是一个稍微简单但更健壮的压缩器，它使用LLM链来决定过滤掉哪些最初检索到的文档以及返回哪些文档，而不需要操作文档内容。

In [38]:
from langchain.retrievers.document_compressors import LLMChainFilter

_filter = LLMChainFilter.from_llm(llm)
compression_retriever = ContextualCompressionRetriever(
    base_compressor=_filter, base_retriever=retriever
)

compressed_docs = compression_retriever.get_relevant_documents(
    "增值收益及其收益率为多少?"
)
pretty_print_docs(compressed_docs)



Document 1:

（二）业务支出
2015全年,住房公积金业务支出共计300088.48万元，同比降低45.2%。其中，缴存职工账户余额的利息支出251072.41万元，归集手续费用支出676.66万元，委托贷款手续费支出45299.35万元，其他支出3040.06万元（主要是项目贷款应交税金）。同时，经市财政局批复后支出与住房公积金业务相关的专项经费32993.82万元（主要为公积金贷款资产委托管理费、公积金个人住房贷款贴息经费、综合信息管理系统升级改造、运维服务等业务支出费用）。

（三）增值收益
管理中心在利率连续下调的背景下，通过加强资金综合调度，提升资金运用率，优先安排个贷资金发放，减少银行存款，住房公积金增值收益大幅提高。2015全年，住房公积金增值收益788646.16万元，创历史新高，同比增长65.8%。增值收益率（增值收益与月均缴存余额的比率）2.9%，比上年同期增加 0.9个百分点。
----------------------------------------------------------------------------------------------------
Document 2:

（二）提取业务
2015全年提取住房公积金1117.38万笔、920.62亿元。提取的金额中，住房消费提取占87.8%（购买、建造、翻建、大修自住住房占77.7 %，偿还购房贷款本息占8.4%，租赁住房占1.7%）；非住房消费提取占12.2%（离休和退休提取占9.8%，完全丧失劳动能力并与单位终止劳动关系提取占0.2%，户口迁出本市或出境定居占0.3%,其他占1.9%）。
----------------------------------------------------------------------------------------------------
Document 3:

（四）购买国债
2015年，未发生新购买、兑付、转让、收回国债情况。期末国债余额4.26亿元，与上年相比无变化。

（五）资金存储
截至2015年底，管理中心结余资金存款348.31亿元，其中，活期4.02亿元，1年以内定期（含）121.15亿元，1年以上定期172.79亿元，其他(协议、协定、通知存款等)50.35亿元。

（六）资金运用率

### EmbeddingsFilter
对每个检索到的文档进行额外的LLM调用既昂贵又缓慢。EmbeddingsFilter通过嵌入文档和查询并只返回那些与查询具有足够相似嵌入的文档，提供了一种更便宜和更快的选择。

In [39]:
from langchain.retrievers.document_compressors import EmbeddingsFilter
from langchain_openai import OpenAIEmbeddings

embeddings = OpenAIEmbeddings()
embeddings_filter = EmbeddingsFilter(embeddings=embeddings, similarity_threshold=0.76)
compression_retriever = ContextualCompressionRetriever(
    base_compressor=embeddings_filter, base_retriever=retriever
)

compressed_docs = compression_retriever.get_relevant_documents(
    "增值收益及其收益率为多少?"
)
pretty_print_docs(compressed_docs)

Document 1:

（二）业务支出
2015全年,住房公积金业务支出共计300088.48万元，同比降低45.2%。其中，缴存职工账户余额的利息支出251072.41万元，归集手续费用支出676.66万元，委托贷款手续费支出45299.35万元，其他支出3040.06万元（主要是项目贷款应交税金）。同时，经市财政局批复后支出与住房公积金业务相关的专项经费32993.82万元（主要为公积金贷款资产委托管理费、公积金个人住房贷款贴息经费、综合信息管理系统升级改造、运维服务等业务支出费用）。

（三）增值收益
管理中心在利率连续下调的背景下，通过加强资金综合调度，提升资金运用率，优先安排个贷资金发放，减少银行存款，住房公积金增值收益大幅提高。2015全年，住房公积金增值收益788646.16万元，创历史新高，同比增长65.8%。增值收益率（增值收益与月均缴存余额的比率）2.9%，比上年同期增加 0.9个百分点。
----------------------------------------------------------------------------------------------------
Document 2:

（二）提取业务
2015全年提取住房公积金1117.38万笔、920.62亿元。提取的金额中，住房消费提取占87.8%（购买、建造、翻建、大修自住住房占77.7 %，偿还购房贷款本息占8.4%，租赁住房占1.7%）；非住房消费提取占12.2%（离休和退休提取占9.8%，完全丧失劳动能力并与单位终止劳动关系提取占0.2%，户口迁出本市或出境定居占0.3%,其他占1.9%）。
----------------------------------------------------------------------------------------------------
Document 3:

（四）购买国债
2015年，未发生新购买、兑付、转让、收回国债情况。期末国债余额4.26亿元，与上年相比无变化。

（五）资金存储
截至2015年底，管理中心结余资金存款348.31亿元，其中，活期4.02亿元，1年以内定期（含）121.15亿元，1年以上定期172.79亿元，其他(协议、协定、通知存款等)50.35亿元。

（六）资金运用率

## 将上下文压缩和文件转换器串在一起
使用`DocumentCompressorPipeline`，我们还可以很容易地按顺序组合多个压缩器。除了压缩器，我们还可以在管道中添加`BaseDocumentTransformer`，它不执行任何上下文压缩，而只是对一组文档执行一些转换。例如，`TextSplitter`可以用作文档转换器，将文档分成更小的部分，`EmbeddingsRedundantFilter`可以用于根据文档之间的嵌入相似性过滤掉冗余文档。

下面我们创建一个压缩器管道，首先将我们的文档分成更小的块，然后删除冗余的文档，然后根据与查询的相关性进行过滤。

In [42]:
from langchain.retrievers.document_compressors import DocumentCompressorPipeline
from langchain.text_splitter import CharacterTextSplitter
from langchain_community.document_transformers import EmbeddingsRedundantFilter

splitter = CharacterTextSplitter(chunk_size=300, chunk_overlap=0, separator="\n")
redundant_filter = EmbeddingsRedundantFilter(embeddings=embeddings)
relevant_filter = EmbeddingsFilter(embeddings=embeddings, similarity_threshold=0.76)
pipeline_compressor = DocumentCompressorPipeline(
    transformers=[splitter, redundant_filter, relevant_filter]
)

In [43]:
compression_retriever = ContextualCompressionRetriever(
    base_compressor=pipeline_compressor, base_retriever=retriever
)

compressed_docs = compression_retriever.get_relevant_documents(
    "增值收益及其收益率为多少?"
)
pretty_print_docs(compressed_docs)

Document 1:

管理中心在利率连续下调的背景下，通过加强资金综合调度，提升资金运用率，优先安排个贷资金发放，减少银行存款，住房公积金增值收益大幅提高。2015全年，住房公积金增值收益788646.16万元，创历史新高，同比增长65.8%。增值收益率（增值收益与月均缴存余额的比率）2.9%，比上年同期增加 0.9个百分点。
----------------------------------------------------------------------------------------------------
Document 2:

（一）业务收入
2015全年,住房公积金业务收入共计1088734.64万元，同比增长6.4%。其中，存款(含增值收益存款)利息收入157379.86万元，委托贷款利息收入930128.01万元，国债利息收入517.15万元，其他收入709.62万元。
----------------------------------------------------------------------------------------------------
Document 3:

按收入水平，低收入群体（住房公积金缴存基数低于2014年本市职工平均工资）占53.1%，中等收入群体（住房公积金缴存基数介于2014年本市职工平均工资1倍-3倍之间）占38.5 %，高收入群体（住房公积金缴存基数高于2014年本市职工平均工资3倍）占8.4%。
----------------------------------------------------------------------------------------------------
Document 4:

（二）提取业务
2015全年提取住房公积金1117.38万笔、920.62亿元。提取的金额中，住房消费提取占87.8%（购买、建造、翻建、大修自住住房占77.7 %，偿还购房贷款本息占8.4%，租赁住房占1.7%）；非住房消费提取占12.2%（离休和退休提取占9.8%，完全丧失劳动能力并与单位终止劳动关系提取占0.2%，户口迁出本市或出境定居占0.3%,其他占1.9%）。
---------------------------------------------

# 混合检索召回
`EnsembleRetriever`将检索器列表作为输入，并集成它们的`get_relevance _documents()`方法的结果，并基于互反秩融合算法对结果重新排序。
通过利用不同算法的优势，`EnsembleRetriever`可以获得比任何单一算法更好的性能。
最常见的模式是将稀疏检索器(如BM25)与密集检索器(如嵌入相似度)结合起来，因为它们的优势是互补的。它也被称为“混合搜索”。稀疏检索器擅长根据关键词找到相关文档，而密集检索器擅长根据语义相似度找到相关文档。

In [44]:
%pip install --upgrade --quiet  rank_bm25 > /dev/null

Note: you may need to restart the kernel to use updated packages.


系统找不到指定的路径。


In [61]:
from langchain.retrievers import BM25Retriever, EnsembleRetriever
from langchain_community.vectorstores import FAISS
from langchain_openai import OpenAIEmbeddings

In [72]:
doc_list_1 = [
    "I like apples",
    "I like oranges",
    "Apples and oranges are fruits",
]

# initialize the bm25 retriever and faiss retriever
bm25_retriever = BM25Retriever.from_texts(
    doc_list_1, metadatas=[{"source": 1}] * len(doc_list_1)
)
bm25_retriever.k = 2

doc_list_2 = [
    "You like apples",
    "You like oranges",
]

embedding = OpenAIEmbeddings()
faiss_vectorstore = FAISS.from_texts(
    doc_list_2, embedding, metadatas=[{"source": 2}] * len(doc_list_2)
)
faiss_retriever = faiss_vectorstore.as_retriever(search_kwargs={"k": 2})

# initialize the ensemble retriever
ensemble_retriever = EnsembleRetriever(
    retrievers=[bm25_retriever, faiss_retriever], weights=[0.5, 0.5]
)

In [73]:
docs = ensemble_retriever.invoke("apples")
docs

[Document(page_content='I like apples', metadata={'source': 1}),
 Document(page_content='You like apples', metadata={'source': 2}),
 Document(page_content='Apples and oranges are fruits', metadata={'source': 1}),
 Document(page_content='You like oranges', metadata={'source': 2})]

## 运行时配置
我们还可以在运行时配置检索器。为了做到这一点，我们需要将字段标记为可配置的

In [74]:
from langchain_core.runnables import ConfigurableField

In [75]:
"""
问题还没解决
"""
faiss_retriever = faiss_vectorstore.as_retriever(
    search_kwargs={"k": 2}
).configurable_fields(  # 添加配置后会导致EnsembleRetriever报错，如何解决
    search_kwargs=ConfigurableField(
        id="search_kwargs_faiss",
        name="Search Kwargs",
        description="The search kwargs to use",
    )
)

In [76]:
ensemble_retriever = EnsembleRetriever(
    retrievers=[bm25_retriever, faiss_retriever], weights=[0.5, 0.5]
) # 错误未解决成功

ValidationError: 1 validation error for EnsembleRetriever
retrievers -> 1
  Can't instantiate abstract class BaseRetriever with abstract method _get_relevant_documents (type=type_error)

In [77]:
config = {"configurable": {"search_kwargs_faiss": {"k": 1}}}
docs = ensemble_retriever.invoke("apples", config=config)
docs

[Document(page_content='I like apples', metadata={'source': 1}),
 Document(page_content='You like apples', metadata={'source': 2}),
 Document(page_content='Apples and oranges are fruits', metadata={'source': 1}),
 Document(page_content='You like oranges', metadata={'source': 2})]

注意，这只从FAISS检索器返回一个源，因为我们在运行时传递了相关的配置

## 长上下文重排
无论您的模型的体系结构是什么，当您包含10个以上的检索文档时，都会有很大的性能下降。简而言之:当模型必须在长上下文中访问相关信息时，它们倾向于忽略所提供的文档。看到的:
[模型长上下文检索内容消失.pdf](http://185.242.235.221:8011/python/paper/%E9%95%BF%E4%B8%8A%E4%B8%8B%E6%96%87%E5%AF%BC%E8%87%B4%E6%96%87%E6%9C%AC%E6%A8%A1%E5%9E%8B%E4%B8%A2%E5%A4%B1%E4%BF%A1%E6%81%AF.pdf)
为了避免这个问题，您可以在检索后重新排序文档，以避免性能下降。


In [78]:
%pip install --upgrade --quiet  sentence-transformers > /dev/null

Note: you may need to restart the kernel to use updated packages.


系统找不到指定的路径。


In [82]:
from langchain.chains import LLMChain, StuffDocumentsChain
from langchain.prompts import PromptTemplate
from langchain_community.document_transformers import (
    LongContextReorder,
)
from langchain_community.embeddings import HuggingFaceEmbeddings
from langchain_community.vectorstores import Chroma
from langchain_openai import OpenAI

# Get embeddings.
embeddings = HuggingFaceEmbeddings(model_name=r"G:\model\all-MiniLM-L6-v2")

texts = [
    "Basquetball is a great sport.",
    "Fly me to the moon is one of my favourite songs.",
    "The Celtics are my favourite team.",
    "This is a document about the Boston Celtics",
    "I simply love going to the movies",
    "The Boston Celtics won the game by 20 points",
    "This is just a random text.",
    "Elden Ring is one of the best games in the last 15 years.",
    "L. Kornet is one of the best Celtics players.",
    "Larry Bird was an iconic NBA player.",
    "王小明喜欢上数学课",
    "张强决定进行一个新的项目",
    "将自己的技术把控在自己的身上",
    "以前的歌曲都听够了，现在最喜欢的歌是love story",
    "本年度最佳的互动奖颁发给了郭霖俊",
    "矮人科技适合于黎乐前辈",
    "科比打输了复活赛",
    "猫雷打赢了复活赛",
    "复活赛不是谁都能打赢的"
]

# Create a retriever
retriever = Chroma.from_texts(texts, embedding=embeddings).as_retriever(
    search_kwargs={"k": 10}
)
query = "你能告诉我科比打没打赢复活赛?"

# Get relevant documents ordered by relevance score
docs = retriever.get_relevant_documents(query)
docs

InvalidDimensionException: Embedding dimension 384 does not match collection dimensionality 1536