In [1]:
from dotenv import find_dotenv,load_dotenv
_ = load_dotenv(find_dotenv())
# import os
# os.environ["OPENAI_API_KEY"] = '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'

In [2]:
from openai import OpenAI
client = OpenAI()

In [3]:
# 基于 prompt 生成文本
def get_completion(prompt, model="gpt-3.5-turbo"):      # 默认使用 gpt-3.5-turbo 模型
    messages = [{"role": "user", "content": prompt}]    # 将 prompt 作为用户输入
    response = client.chat.completions.create(
        model=model,
        messages=messages,
        temperature=0,                                  # 模型输出的随机性，0 表示随机性最小
    )
    return response.choices[0].message.content          # 返回模型生成的文本

In [4]:
# 任务描述
instruction = """
你的任务是识别用户对手机流量套餐产品的选择条件。
每种流量套餐产品包含三个属性：名称，月费价格，月流量。
根据用户输入，识别用户在上述三种属性上的倾向。
"""

# 用户输入
input_text = """
办个100G的套餐。
"""

# prompt 模版。instruction 和 input_text 会被替换为上面的内容
prompt = f"""
{instruction}

用户输入：
{input_text}
"""

# 调用大模型
response = get_completion(prompt)
print(response)

用户在流量套餐产品的选择条件上的倾向为：
- 名称：用户倾向选择100G的套餐。
- 月费价格：用户未提及对月费价格的倾向。
- 月流量：用户倾向选择100G的套餐。


# 多向量检索
在每个文档中存储多个向量通常是有益的。在许多用例中，这是有益的。LangChain有一个基本的`MultiVectorRetriever`，这使得查询这种类型的设置变得容易。很多复杂性在于如何创建每个文档的多个向量。本手册涵盖了一些创建这些向量和使用`MultiVectorRetriever`的常用方法。

每个文档创建多个矢量的方法包括:
- 更小的块:将文档分割成更小的块，并嵌入它们(这是`ParentDocumentRetriever`)。
- 摘要:为每个文档创建一个摘要，将其与文档一起嵌入(或代替)。
- 假设性问题:创建每个文档都适合回答的假设性问题，将这些问题与文档一起嵌入(或代替)。

注意，这还支持另一种添加嵌入的方法——————手动添加。这很好，因为您可以显式地添加应该导致文档被恢复的问题或查询，从而为您提供更多的控制。

In [11]:
from langchain.retrievers.multi_vector import MultiVectorRetriever

In [12]:
from langchain.storage import InMemoryByteStore
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.document_loaders import TextLoader
from langchain_community.vectorstores import Chroma
from langchain_openai import OpenAIEmbeddings

In [10]:
loaders = [
    TextLoader("../../data/2015北京年报.txt", encoding='utf-8'),
    TextLoader("../../data/2016北京年报.txt", encoding='utf-8'),
]
docs = []
for loader in loaders:
    docs.extend(loader.load())
text_splitter = RecursiveCharacterTextSplitter(chunk_size=10000)
docs = text_splitter.split_documents(docs)

## 更小的块
通常，检索较大的信息块而嵌入较小的信息块是有用的。这允许嵌入尽可能接近地捕获语义，同时尽可能多地向下游传递上下文。注意，这就是`ParentDocumentRetriever`所做的。这里我们将展示在引擎盖下发生了什么。

In [85]:
# The vectorstore to use to index the child chunks
vectorstore = Chroma(
    collection_name="full_documents", embedding_function=OpenAIEmbeddings()
)
# The storage layer for the parent documents
store = InMemoryByteStore()
id_key = "doc_id"
# The retriever (empty to start)
retriever = MultiVectorRetriever(
    vectorstore=vectorstore,
    byte_store=store,
    id_key=id_key,
)
import uuid

doc_ids = [str(uuid.uuid4()) for _ in docs]

In [86]:
# The splitter to use to create smaller chunks
child_text_splitter = RecursiveCharacterTextSplitter(chunk_size=400)

In [87]:
sub_docs = []
for i, doc in enumerate(docs):
    _id = doc_ids[i]
    _sub_docs = child_text_splitter.split_documents([doc])
    for _doc in _sub_docs:
        _doc.metadata[id_key] = _id
    sub_docs.extend(_sub_docs)

In [88]:
retriever.vectorstore.add_documents(sub_docs)
retriever.docstore.mset(list(zip(doc_ids, docs)))

In [89]:
# Vectorstore alone retrieves the small chunks
retriever.vectorstore.similarity_search("2016年管理费用支出")[0]

Document(page_content='（五）管理费用支出\n管理中心为全额拨款预算单位。按照《中华人民共和国预算法》（中华人民共和国主席令第21号）、《财政部关于住房公积金财务管理补充规定的通知》（财综字〔1999〕149号）以及《关于印发北京地区住房公积金管理机构调整实施方案的通知》（京政函〔2002〕100号）的规定，经市财政局批复，2015全年，人员经费15779.66万元（含社会保障缴费、住房公积金、住房补贴、离退休人员经费等），公用经费2360.82万元（按市财政局公用经费支出预算定额标准套算）。', metadata={'doc_id': '42d50c9f-6c99-458c-a531-fc30b3da34e4', 'source': '../../data/2015北京年报.txt'})

In [90]:
retriever.vectorstore.similarity_search("2016年管理费用支出")[1]

Document(page_content='（五）管理费用支出\n管理中心为全额拨款预算单位。按照《中华人民共和国预算法》（中华人民共和国主席令第21号）、《财政部关于住房公积金财务管理补充规定的通知》（财综字〔1999〕149号）以及《关于印发北京地区住房公积金管理机构调整实施方案的通知》（京政函〔2002〕100号）的规定，经市财政局批复，2015全年，人员经费15779.66万元（含社会保障缴费、住房公积金、住房补贴、离退休人员经费等），公用经费2360.82万元（按市财政局公用经费支出预算定额标准套算）。', metadata={'doc_id': '27330b2a-0b1e-4e99-8a9f-0a82d40431f4', 'source': '../../data/2015北京年报.txt'})

In [91]:
retriever.vectorstore.similarity_search("2016年管理费用支出")[2] # 标题切割有问题导致效果不好

Document(page_content='（五）管理费用支出\n管理中心为全额拨款预算单位。按照《中华人民共和国预算法》（中华人民共和国主席令第21号）、《财政部关于住房公积金财务管理补充规定的通知》（财综字〔1999〕149号）以及《关于印发北京地区住房公积金管理机构调整实施方案的通知》（京政函〔2002〕100号）的规定，经市财政局批复，2015全年，人员经费15779.66万元（含社会保障缴费、住房公积金、住房补贴、离退休人员经费等），公用经费2360.82万元（按市财政局公用经费支出预算定额标准套算）。', metadata={'doc_id': '884246cc-70d9-4bbb-a15d-4d7467c0912d', 'source': '../../data/2015北京年报.txt'})

In [92]:
len(retriever.get_relevant_documents("2016年管理费用支出")[0].page_content)

5638

检索器在矢量数据库上执行的默认搜索类型是相似性搜索。LangChain Vector Stores也支持通过最大边际相关性进行搜索，所以如果你想要这样做，你可以设置`search_type`属性如下:

In [93]:
from langchain.retrievers.multi_vector import SearchType

retriever.search_type = SearchType.mmr

len(retriever.get_relevant_documents("2016年管理费用支出")[0].page_content)

6223

In [94]:
retriever.get_relevant_documents("2016年管理费用支出")[0]

Document(page_content='北京住房公积金2016年年度报告\n发布日期：2017-03-29\n根据国务院《住房公积金管理条例》和住房城乡建设部、财政部、人民银行《关于健全住房公积金信息披露制度的通知》(建金〔2015〕26号)的规定，经北京住房公积金管理委员会第十七次全体会议审议通过，现将北京住房公积金2016年年度报告予以公布。\n一、机构概况\n（一) 住房公积金管理委员会\n北京住房公积金管理委员会有30名成员。第十六次管委会全体会议审议通过了2015年住房公积金归集使用计划执行情况和2016年归集使用计划，2015年住房公积金增值收益收支情况和2016年收支计划，2016年度住房公积金年度缴存比例。\n（二）住房公积金管理中心\n北京住房公积金管理中心（以下简称管理中心）为北京市政府直属的全额拨款事业单位，主要负责北京地区住房公积金的归集、管理、使用和会计核算。截至2016年底，从业人员881人，其中，在编781人，劳务派遣100人。中心共设置3个分中心，内设13个处室和工会；垂直管理20个分支机构（18个管理部和住房公积金贷款中心、结算中心）；下设3个直属事业单位：北京住房公积金客户服务中心、北京市住房贷款担保中心、北京市住房贷款个人信用信息服务中心。分支机构营业网点详情请参见北京住房公积金网http://www.bjgjj.gov.cn/。\n二、业务运行情况\n（一）缴存\n职工当月缴存的住房公积金为单位和本人月缴存额之和，金额为职工上一年月平均工资乘以缴存比例。经北京住房公积金管理委员会第十六次全体会议审议通过，并报市政府批准，根据《住房城乡建设部 发展改革委财政部 人民银行关于规范和阶段性适当降低住房公积金缴存比例的通知》（建金〔2016〕74号）的要求，自2016年5月1日起实施，北京地区企业住房公积金缴存比例调整为5%—12%,企业可根据自身经济情况，在规定范围内确定具体缴存比例。其他单位缴存比例为12%。单位和个人缴存上限分别为2015年北京市职工月平均工资的3倍乘以缴存比例，职工和单位月缴存额上限均为2551元。\n按照《北京住房公积金管理中心关于北京市2016年最低工资标准和基本生活费涉及住房公积金有关问题的通知》（京房公积金发〔2016〕26 号），2016住房公积金年度（2016年7月1日至2017年6月30日）

## 总结
通常，摘要可以更准确地提炼出一个块的内容，从而更好地检索。这里我们将展示如何创建摘要，然后嵌入这些摘要。

In [9]:
import uuid

from langchain_core.documents import Document
from langchain_core.output_parsers import StrOutputParser
from langchain_core.prompts import ChatPromptTemplate
from langchain_openai import ChatOpenAI

In [13]:
# 文本重新分割后总结文本,不然会超长
loaders = [
    TextLoader("../../data/2015北京年报.txt", encoding='utf-8'),
    TextLoader("../../data/2016北京年报.txt", encoding='utf-8'),
]
docs = []
for loader in loaders:
    docs.extend(loader.load())
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500)
docs = text_splitter.split_documents(docs)

In [14]:
docs

[Document(page_content='北京住房公积金2015年年度报告\n发布日期：2016-03-31\n根据国务院《住房公积金管理条例》和住房城乡建设部、财政部、人民银行《关于健全住房公积金信息披露制度的通知》(建金〔2015〕26号)的规定，经北京住房公积金管理委员会审议通过，现将北京住房公积金2015年年度报告予以公布。\n\n一、机构概况\n（一) 住房公积金管理委员会\n北京住房公积金管理委员会（以下简称管委会）有32名成员。第十五次管委会全体会议审议通过了2014年住房公积金归集使用计划执行情况和2015年归集使用计划，2014年住房公积金增值收益收支情况和2015年收支计划，2015年度住房公积金年度缴存比例。', metadata={'source': '../../data/2015北京年报.txt'}),
 Document(page_content='一、机构概况\n（一) 住房公积金管理委员会\n北京住房公积金管理委员会（以下简称管委会）有32名成员。第十五次管委会全体会议审议通过了2014年住房公积金归集使用计划执行情况和2015年归集使用计划，2014年住房公积金增值收益收支情况和2015年收支计划，2015年度住房公积金年度缴存比例。\n\n（二）住房公积金管理中心\n北京住房公积金管理中心（以下简称管理中心）为北京市政府直属的全额拨款事业单位，主要负责北京地区住房公积金的归集、管理、使用和会计核算。目前中心设置3个分中心，内设13个处室和工会；垂直管理20个分支机构（18个管理部和住房公积金贷款中心、结算中心）；下设3个直属事业单位：北京住房公积金客户服务中心、北京市住房贷款担保中心、北京市住房贷款个人信用信息服务中心。分支机构营业网点详情请参见北京住房公积金网http://www.bjgjj.gov.cn/。', metadata={'source': '../../data/2015北京年报.txt'}),
 Document(page_content='二、业务运行情况\n（一）缴存\n职工当月缴存的住房公积金为单位和本人月缴存额之和，金额为职工上一年月平均工资乘以缴存比例。2015住房公积金年度缴存比例为12%。单位和个人缴存上限分别为2014年北京市职工月平均工资的3倍乘以缴存比例，职工和单位月缴存额上限均为23

In [16]:
chain = (
    {"doc": lambda x: x.page_content}
    | ChatPromptTemplate.from_template("Summarize the following document:\n\n{doc}")
    | ChatOpenAI(max_retries=0)
    | StrOutputParser()
)

In [17]:
summaries = chain.batch(docs, {"max_concurrency": 5})

In [18]:
# The vectorstore to use to index the child chunks
vectorstore = Chroma(collection_name="summaries", embedding_function=OpenAIEmbeddings())
# The storage layer for the parent documents
store = InMemoryByteStore()
id_key = "doc_id"
# The retriever (empty to start)
retriever = MultiVectorRetriever(
    vectorstore=vectorstore,
    byte_store=store,
    id_key=id_key,
)
doc_ids = [str(uuid.uuid4()) for _ in docs]

In [19]:
summary_docs = [
    Document(page_content=s, metadata={id_key: doc_ids[i]})
    for i, s in enumerate(summaries)
]

In [20]:
retriever.vectorstore.add_documents(summary_docs)
retriever.docstore.mset(list(zip(doc_ids, docs)))

In [21]:
# # We can also add the original chunks to the vectorstore if we so want 如果愿意，我们也可以将原始块添加到vectorstore中
# for i, doc in enumerate(docs):
#     doc.metadata[id_key] = doc_ids[i]
# retriever.vectorstore.add_documents(docs)

In [23]:
sub_docs = vectorstore.similarity_search("2016年管理费用支出")

In [24]:
sub_docs[0]

Document(page_content='The document provides financial data for the Housing Provident Fund in 2016. The business revenue for the year was 1,078,866.08 million yuan, a decrease of 0.9% compared to the previous year. The revenue sources include interest from deposits (including investment income deposits), interest from entrusted loans, interest from national bonds, and other income. \n\nOn the other hand, the business expenses for the year totaled 582,778.93 million yuan, an increase of 94.2% compared to the previous year. The expenses include interest payments for the Housing Provident Fund, collection fees, loan processing fees for entrusted loans, and other expenses. Additionally, 31,522.3 million yuan was allocated for specific expenses related to the Housing Provident Fund business, such as loan asset management fees, housing loan interest subsidies, information system upgrades, and operational services. \n\nOverall, the document highlights the financial performance of the Housing 

In [25]:
retrieved_docs = retriever.get_relevant_documents("2016年管理费用支出")

In [26]:
len(retrieved_docs[0].page_content)

362

## 假设的查询
LLMS还可以用来生成一系列针对特定文档的假设性问题。然后可以嵌入这些问题

In [15]:
functions = [
    {
        "name": "hypothetical_questions",
        "description": "Generate hypothetical questions",
        "parameters": {
            "type": "object",
            "properties": {
                "questions": {
                    "type": "array",
                    "items": {"type": "string"},
                },
            },
            "required": ["questions"],
        },
    }
]

In [16]:
from langchain.output_parsers.openai_functions import JsonKeyOutputFunctionsParser

chain = (
    {"doc": lambda x: x.page_content}
    # Only asking for 3 hypothetical questions, but this could be adjusted
    | ChatPromptTemplate.from_template(
        "生成三个和文档相关的假定问题的列表，下面的文档可以用来回答这些问题:\n\n{doc}"
    )
    | ChatOpenAI(max_retries=0, model="gpt-4").bind(
        functions=functions, function_call={"name": "hypothetical_questions"}
    )
    | JsonKeyOutputFunctionsParser(key_name="questions")
)

In [17]:
docs[0]

Document(page_content='北京住房公积金2015年年度报告\n发布日期：2016-03-31\n根据国务院《住房公积金管理条例》和住房城乡建设部、财政部、人民银行《关于健全住房公积金信息披露制度的通知》(建金〔2015〕26号)的规定，经北京住房公积金管理委员会审议通过，现将北京住房公积金2015年年度报告予以公布。\n\n一、机构概况\n（一) 住房公积金管理委员会\n北京住房公积金管理委员会（以下简称管委会）有32名成员。第十五次管委会全体会议审议通过了2014年住房公积金归集使用计划执行情况和2015年归集使用计划，2014年住房公积金增值收益收支情况和2015年收支计划，2015年度住房公积金年度缴存比例。', metadata={'source': '../../data/2015北京年报.txt'})

In [18]:
chain.invoke(docs[0])

['如果2015年的住房公积金归集使用计划没有执行成功，会有什么后果？',
 '如果北京住房公积金管理委员会的成员人数发生变化，对年度报告的影响会是什么？',
 '假设2015年的住房公积金增值收益收支情况出现问题，那么会对2016年的住房公积金有何影响？']

In [19]:
hypothetical_questions = chain.batch(docs, {"max_concurrency": 5})

In [25]:
hypothetical_questions

[['如果你是北京住房公积金管理委员会的一员，你将如何影响2015年归集使用计划？',
  '假设你要根据2014年住房公积金增值收益收支情况调整2015年的收支计划，你将如何做？',
  '如果你有能力改变2015年度住房公积金年度缴存比例，你会选择什么样的比例并为什么？'],
 ['如果我想了解北京住房公积金管理中心的工作内容，我应该在哪里查找？',
  '假设我想要了解北京住房公积金管理委员会的成员数量，文档中包含这些信息吗？',
  '如果我想查看北京住房公积金管理中心的分支机构营业网点，我应该去哪里查看？'],
 ['如果一个职工的上一年月平均工资是5000元，那么他在2015年每个月需要缴纳多少住房公积金？',
  '如果一个单位的月工资平均工资是10000元，那么他们在2015年每个月可以缴纳的公积金上限是多少？',
  '如果一个单位在2015年没有缴纳公积金，那么会有什么结果？'],
 ['如果一个单位不依法办理住房公积金缴存登记，或者不为职工设立住房公积金账户，会发生什么？',
  '如果有一个单位不缴或者少缴住房公积金，如何处理？',
  '如果管理中心想要更改办理住房公积金缴存业务的银行，可能会带来哪些影响？'],
 ['如果购房提取的金额增加了10%，那么这将对提取总额有何影响？',
  '假设查处违规行为的单位数量增加到40家，这将如何影响住房公积金管理的秩序？',
  '如果租房提取的金额减少了5%，那么这将如何影响当年的提取占缴存额的比率？'],
 ['如果住房公积金个人贷款的发放金额减少了20%，那么会对北京地区的住房市场产生什么影响？',
  '如果北京地区的住房公积金个人贷款率下降到70%，那么会对职工基本住房需求有何影响？',
  '如果突然停止发放贴息贷款，那么会对北京地区的住房购买有何影响？'],
 ['假设北京地区的贴息贷款继续以2015年的速度增长，到2020年底，累计发放的贴息贷款和涉及的住房数量会是多少？',
  '如果北京地区的住房公积金个人贷款率继续以2015年的速度增长，到2020年底，该比率会是多少？',
  '如果在2015年1月1日之后，个人贷款最高额度再次调整，调整为150万元，这将如何影响北京地区的住房公积金个人贷款业务？'],
 ['如果个人贷款最高额度没有从80万元调整为120万元，那会有什么影

In [20]:
# The vectorstore to use to index the child chunks
vectorstore = Chroma(
    collection_name="hypo-questions", embedding_function=OpenAIEmbeddings()
)
# The storage layer for the parent documents
store = InMemoryByteStore()
id_key = "doc_id"
# The retriever (empty to start)
retriever = MultiVectorRetriever(
    vectorstore=vectorstore,
    byte_store=store,
    id_key=id_key,
)
doc_ids = [str(uuid.uuid4()) for _ in docs]

In [21]:
question_docs = []
for i, question_list in enumerate(hypothetical_questions):
    question_docs.extend(
        [Document(page_content=s, metadata={id_key: doc_ids[i]}) for s in question_list]
    )

In [22]:
retriever.vectorstore.add_documents(question_docs)
retriever.docstore.mset(list(zip(doc_ids, docs)))

In [23]:
sub_docs = vectorstore.similarity_search("2016年管理费用支出") # 提示词还需调整，效果不好

In [24]:
sub_docs

[Document(page_content='如果2016年的归集手续费用支出减少了20%，这会对总的业务支出产生什么影响？', metadata={'doc_id': 'ef04a22b-4e20-41e5-b310-c71fa0ef7572'}),
 Document(page_content='如果2015年的归集手续费用支出增加了20%，那么总的业务支出会增加多少？', metadata={'doc_id': 'c637c7db-60e0-40f8-9b93-65aa9906b8ae'}),
 Document(page_content='如果2016年的委托贷款利息收入和住房公积金利息支出都下降了5%，这将如何影响总的业务收入和业务支出？', metadata={'doc_id': 'ef04a22b-4e20-41e5-b310-c71fa0ef7572'}),
 Document(page_content='如果2016年调剂资金归还了一部分，调剂资金余额会是多少？', metadata={'doc_id': '461b0c7a-bf73-40c3-a6be-b68ab352c386'})]