### RAG
检索增强生成(Retrieval-Augmented Generation, RAG)和Agent应该是目前LLM最火的两个方向，当然这两个方向也不是完全独立的，他们各自能解决各自的问题。我们先来聊聊RAG，引申出langchain中和RAG相关的六个组件。

先从一个问题开始：假设我们有一些特别的知识，比如我们室组内部有一个上线的流程规范，这个流程规范可能在文档中以文字，表格，甚至图片的形式存在着的。但是如果我去问一个模型，和这个流程规范相关的任何问题，它要么告诉你不知道，要么就胡说八道，不可能给我们正确的答案。这时候我们可以构造如下的提示词给到模型，那么凭借语言模型的强大泛化能力就可以回答问题：
```
请根据以下文本回答反引号`中的问题:
XXXXX(这里是室组上线流程的具体规范文字)
`室组上线之前需要经过哪些步骤，哪些需要通过组长审核`
```
这其实就是RAG的核心。但是RAG虽然看起来简单，其实细节非常多，虽然我们上面看所谓RAG不过就是把知识当做提示词一部分给到模型然后提问吗。但是我们需要考虑的问题有很多：
1. 知识是以各种形式存在的，有些是文档，有些是表格，有些是图片，甚至有些是网页，那么如果给这些知识一个统一的抽象
2. 统一抽象的这些知识以什么形式存在哪里
3. 我们知道模型窗口是有上下文大小限制的，那么我们就不可能说把所有的知识全部塞给模型，这样既不高效，也不现实，因此我们只能从里面选择一部分和问题相关的片段出来。那么我们如何将知识划分片段又如何去选择哪些片段是和问题相关的
4. 得到相关的片段之后，我们又该如何组合这些文档片段，成为一个完整的文字交给模型

这些问题其实就是langchain和RAG相关模块帮我们做的：Document Loader，Text Splitters，Embedding Models，Vector Stores和Retrievers。我们来一个个看看。
#### Document Loader
首先langchain将所有支持抽象成了Document对象，里面是一个带有内容的包装类，同时langchain提供了各种各样的加载器，我们不可能一个个全部过一遍，所以你可以[自己去看看](https://python.langchain.com/v0.1/docs/integrations/document_loaders/)，我们这里介绍一个稍微简单点的Loader:WebBaseLoader。
假设我们的问题就是询问和langchain相关的问题，我们先来看看直接询问会是什么样的结果

In [12]:
from libs.llm.qwen import qwen
from langchain_core.output_parsers import StrOutputParser
from langchain.prompts import ChatPromptTemplate, HumanMessagePromptTemplate

prompt_template = ChatPromptTemplate.from_messages([
    HumanMessagePromptTemplate.from_template('什么是langchain')
])
chain = prompt_template | qwen | StrOutputParser()
chain.invoke({})

'抱歉，我并不了解"langchain"这个术语。可能您想要询问的是“language chain”或者“LangChain”，但是没有足够的信息让我给出准确的定义。如果您的意思是与自然语言处理（NLP）或区块链技术相关的概念，请提供更多的上下文，我会尽力为您提供帮助。'

可以看出，对于模型来说，它并不懂什么是langchain，这可能是因为模型训练的时候langchain还不存在，或者没有使用到任何和langchain相关的数据去进行训练。我们通过RAG的手段给它一段外挂知识来将它一步步优化。首先就是langchain的知识去哪里找，当然是langchain的官方文档，也就是我们需要一个能直接从网页读取数据的loader，而WebBaseLoader就是这么一个Loader。

In [13]:
# WebBaseLoader.ts
from langchain_community.document_loaders import WebBaseLoader
import bs4

loader = WebBaseLoader(
    web_path='https://python.langchain.com/v0.2/docs/concepts/',
    bs_kwargs=dict(parse_only=bs4.SoupStrainer(
        class_="docItemContainer_Djhp"
    )),
    proxies={'http': 'http://localhost:7890', 'https': 'http://localhost:7890'}
)
doc = loader.load()
print(doc)

[Document(page_content='Conceptual guideOn this pageConceptual guideThis section contains introductions to key parts of LangChain.Architecture\u200bLangChain as a framework consists of a number of packages.langchain-core\u200bThis package contains base abstractions of different components and ways to compose them together.\nThe interfaces for core components like LLMs, vector stores, retrievers and more are defined here.\nNo third party integrations are defined here.\nThe dependencies are kept purposefully very lightweight.Partner packages\u200bWhile the long tail of integrations are in langchain-community, we split popular integrations into their own packages (e.g. langchain-openai, langchain-anthropic, etc).\nThis was done in order to improve support for these important integrations.langchain\u200bThe main langchain package contains chains, agents, and retrieval strategies that make up an application\'s cognitive architecture.\nThese are NOT third party integrations.\nAll chains, age

在文档完成加载后我们需要对文档进行切分，这时候就需要text splitter
#### Text Splitters
前面已经解释过为啥要对文档进行切分了，但是很明显，对于文档切分应该会有很多策略，不同策略会有不同的效果。langchain的Text Splitters模块就提供了各种切分文档的策略。分割的策略对RAG来说非常重要，总的来说我们要降数据块变小的同时还要让数据块的语义相关，这两者其实本来就很矛盾。比如我有个句子"William曾经做过两年python工程师，他后来又干了7年前端工程师"。如果句子被切割为"William曾经做过两年python工程师"和"他后来又干了7年前端工程师"，那么你在提问"William都干过些什么工作"的时候，可能就只能找到第一条信息，得出他干过两年python的结论。而第二条信息因为他的指代，很可能在向量召回的时候并不能被召回。所以文档的分割需要根据应用场景进行权衡考虑。在langchain中提供了很多的Text Splitters，其中一些很直观，也很简单，比如ChatTextSplitter可以通过你提供的一个字符串(比如\n\t这种)，对文档进行分割。又或者NLTKTextSplitter和SpacyTextSplitter这种，可以以句子为单位进行分割。这些分割方法在合适的场景都有合适的用处，但是他们没有考虑语义，没有考虑前后两个块是否有语义上的关联，是否需要合并为一个chunk，因此langchain又实现了一个语义分割SemanticChunker，文档分割方法可以[参考文档](https://python.langchain.com/v0.1/docs/modules/data_connection/document_transformers/)。我们这里以RecursiveCharacterTextSplitter为例来进行演示

In [14]:
# Splitter.ts
from langchain_text_splitters import RecursiveCharacterTextSplitter

splitter = RecursiveCharacterTextSplitter(
    chunk_size=512,
    chunk_overlap=10,
    separators=['.', ' ', '\n']
)
print(splitter.split_text(doc[0].page_content))

['Conceptual guideOn this pageConceptual guideThis section contains introductions to key parts of LangChain.Architecture\u200bLangChain as a framework consists of a number of packages.langchain-core\u200bThis package contains base abstractions of different components and ways to compose them together.\nThe interfaces for core components like LLMs, vector stores, retrievers and more are defined here.\nNo third party integrations are defined here.\nThe dependencies are kept purposefully very lightweight', ".Partner packages\u200bWhile the long tail of integrations are in langchain-community, we split popular integrations into their own packages (e.g. langchain-openai, langchain-anthropic, etc).\nThis was done in order to improve support for these important integrations.langchain\u200bThe main langchain package contains chains, agents, and retrieval strategies that make up an application's cognitive architecture.\nThese are NOT third party integrations", '.\nAll chains, agents, and retrie

其中chunk_size表示分割后块的大小的最大值，分割后块大小不会超过这个值。chunk_overlap指的是两个相邻文档块的最大重合字符数。比如之前的例子：

In [15]:
# Splitter.ts
from langchain_text_splitters import RecursiveCharacterTextSplitter

splitter = RecursiveCharacterTextSplitter(
    chunk_size=40,
    chunk_overlap=14,
    separators=['。']
)
splitter.split_text('William曾经做过两年python工程师。他后来又干了七年前端工程师。现在他学起了java。')

['William曾经做过两年python工程师。他后来又干了七年前端工程师', '。他后来又干了七年前端工程师。现在他学起了java。']

#### Embedding和Vector Store
Embedding之前在分享Wolfram的《这就是ChatGPT》的时候就详细介绍过了，因此这里只是简单说下，Embedding模型就是一种向量化的算法模型，它向量化的对象可以是文档，可以是音频，视频，它可以提取对象的特定特征，虽然并不能解释它的特征具体是啥，但是它具有相似的对象在向量上也有更近相似度的特点。embedding模型的选型可以参考Huggingface的[LeaderBoard](https://huggingface.co/spaces/mteb/leaderboard)，我们这里演示为了方便采用的是通义千问的embedding模型text-embedding-v2。

In [16]:
# Embedding.ts
from langchain_community.embeddings import DashScopeEmbeddings

embeddings = DashScopeEmbeddings(
    model='text-embedding-v2',
    dashscope_api_key='sk-90cba3edc3e1412b84547915475dca30'
)
v = embeddings.embed_query("William曾经做过两年python工程师。他后来又干了七年前端工程师。现在他学起了java。")
len(v)

1536

关于向量数据库，目前也有很多选择，这次我们使用的是Pinecone，因为它是我接触的第一个向量数据库，是以服务方式提供，有免费资源，也有UI界面可以清楚看到结果，比较适合初学。在上手之后可以去学习一些开源的离线部署的向量库，比如milvus，Lancedb，chroma这种。langchain也支持了市面上几乎所有的向量库的连接，具体库的连接就[参考文档](https://python.langchain.com/v0.2/docs/integrations/vectorstores/)

In [17]:
# RAGOffline.ts
import bs4
import os
from langchain_community.document_loaders import WebBaseLoader
from langchain_community.embeddings import DashScopeEmbeddings
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_pinecone import PineconeVectorStore
import getpass

if os.environ.get('PINECONE_API_KEY') is None:
    os.environ['PINECONE_API_KEY'] = getpass.getpass('PINECONE_API_KEY: ')

index_name = 'share-langchain-rag'

loader = WebBaseLoader(
    web_path='https://www.gov.cn/flfg/2013-02/08/content_2332395.htm',
    bs_kwargs=dict(parse_only=bs4.SoupStrainer(
        class_="p1"
    ))
)
documents = loader.load()
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=100)
docs = text_splitter.split_documents(documents)
embeddings = DashScopeEmbeddings(
    model='text-embedding-v2',
    dashscope_api_key='sk-90cba3edc3e1412b84547915475dca30'
)
docsearch = PineconeVectorStore.from_documents(
    docs,
    embeddings,
    index_name=index_name
)

In [18]:
docsearch.similarity_search("根据我国著作权保护法，软件保护期是多久", k=10)

[Document(page_content='法人或者其他组织的软件著作权，保护期为50年，截止于软件首次发表后第50年的12月31日，但软件自开发完成之日起50年内未发表的，本条例不再保护。\n\xa0\xa0\xa0 第十五条 软件著作权属于自然人的，该自然人死亡后，在软件著作权的保护期内，软件著作权的继承人可以依照《中华人民共和国继承法》的有关规定，继承本条例第八条规定的除署名权以外的其他权利。\n\xa0\xa0\xa0\xa0软件著作权属于法人或者其他组织的，法人或者其他组织变更、终止后，其著作权在本条例规定的保护期内由承受其权利义务的法人或者其他组织享有；没有承受其权利义务的法人或者其他组织的，由国家享有。\n\xa0\xa0\xa0 第十六条 软件的合法复制品所有人享有下列权利：\n\xa0\xa0\xa0 （一）根据使用的需要把该软件装入计算机等具有信息处理能力的装置内；\n\xa0\xa0\xa0 （二）为了防止复制品损坏而制作备份复制品。这些备份复制品不得通过任何方式提供给他人使用，并在所有人丧失该合法复制品的所有权时，负责将备份复制品销毁；\n\xa0\xa0\xa0 （三）为了把该软件用于实际的计算机应用环境或者改进其功能、性能而进行必要的修改；但是，除合同另有约定外，未经该软件著作权人许可，不得向任何第三方提供修改后的软件。\n\xa0\xa0\xa0 第十七条 为了学习和研究软件内含的设计思想和原理，通过安装、显示、传输或者存储软件等方式使用软件的，可以不经软件著作权人许可，不向其支付报酬。\n第三章 软件著作权的许可使用和转让\xa0\n\xa0\xa0\xa0\xa0第十八条 许可他人行使软件著作权的，应当订立许可使用合同。\n\xa0\xa0\xa0 许可使用合同中软件著作权人未明确许可的权利，被许可人不得行使。\n\xa0\xa0\xa0 第十九条 许可他人专有行使软件著作权的，当事人应当订立书面合同。\n\xa0\xa0\xa0 没有订立书面合同或者合同中未明确约定为专有许可的，被许可行使的权利应当视为非专有权利。\n\xa0\xa0\xa0 第二十条 转让软件著作权的，当事人应当订立书面合同。\n\xa0\xa0\xa0 第二十一条 订立许可他人专有行使软件著作权的许可合同，或者订立转让软件著作权合同，可以向国务院著作权行政

上面已经实现了从文档数据分片，然后向量化，然后存放到向量库，最后通过问题相识度搜索召回相关文档片段的过程了。这部分基本就是RAG的离线部分。在完成这些之后，用户就会询问问题，然后将问题也向量化，检索出相关文档，将检索出来的文档给模型然后回答问题，就是RAG的在线部分。而这部分就需要用到Retriever了。
#### Retriever
前面已经通过相似度搜索召回了k个和问题相关的片段了，但是真实的情况远不止这么简单。我们要考虑如何召回相关度最高的k个文档，又或者召回和问题关联度超过一定值的文档。召回的文档如果太多了，全部给模型可能会导致超过窗口大小，那么又如何处理。langchain内置了非常多的Retriever用于解决数据召回，我们这次因为只是总览一下langchain，只介绍其中最简单和常用的一个VectorStoreRetriever，其他可以查阅[文档](https://python.langchain.com/v0.1/docs/modules/data_connection/retrievers/)

In [19]:
# RAGOnline.ts
from langchain_pinecone import PineconeVectorStore

index_name = 'share-langchain-rag'
embeddings = DashScopeEmbeddings(
    model='text-embedding-v2',
    dashscope_api_key='sk-90cba3edc3e1412b84547915475dca30'
)
vector_store = PineconeVectorStore(index_name=index_name, embedding=embeddings)
retriever = vector_store.as_retriever(search_type='similarity', search_kwargs={'k': 3})
# retriever = vector_store.as_retriever(search_type='similarity_score_threshold',search_kwargs={'k': 3, 'score_threshold': 0.8})
# retriever = vector_store.as_retriever(search_type='mmr',search_kwargs={'k': 3})
retriever.invoke("根据我国著作权保护法，软件保护期是多久")

[Document(page_content='法人或者其他组织的软件著作权，保护期为50年，截止于软件首次发表后第50年的12月31日，但软件自开发完成之日起50年内未发表的，本条例不再保护。\n\xa0\xa0\xa0 第十五条 软件著作权属于自然人的，该自然人死亡后，在软件著作权的保护期内，软件著作权的继承人可以依照《中华人民共和国继承法》的有关规定，继承本条例第八条规定的除署名权以外的其他权利。\n\xa0\xa0\xa0\xa0软件著作权属于法人或者其他组织的，法人或者其他组织变更、终止后，其著作权在本条例规定的保护期内由承受其权利义务的法人或者其他组织享有；没有承受其权利义务的法人或者其他组织的，由国家享有。\n\xa0\xa0\xa0 第十六条 软件的合法复制品所有人享有下列权利：\n\xa0\xa0\xa0 （一）根据使用的需要把该软件装入计算机等具有信息处理能力的装置内；\n\xa0\xa0\xa0 （二）为了防止复制品损坏而制作备份复制品。这些备份复制品不得通过任何方式提供给他人使用，并在所有人丧失该合法复制品的所有权时，负责将备份复制品销毁；\n\xa0\xa0\xa0 （三）为了把该软件用于实际的计算机应用环境或者改进其功能、性能而进行必要的修改；但是，除合同另有约定外，未经该软件著作权人许可，不得向任何第三方提供修改后的软件。\n\xa0\xa0\xa0 第十七条 为了学习和研究软件内含的设计思想和原理，通过安装、显示、传输或者存储软件等方式使用软件的，可以不经软件著作权人许可，不向其支付报酬。\n第三章 软件著作权的许可使用和转让\xa0\n\xa0\xa0\xa0\xa0第十八条 许可他人行使软件著作权的，应当订立许可使用合同。\n\xa0\xa0\xa0 许可使用合同中软件著作权人未明确许可的权利，被许可人不得行使。\n\xa0\xa0\xa0 第十九条 许可他人专有行使软件著作权的，当事人应当订立书面合同。\n\xa0\xa0\xa0 没有订立书面合同或者合同中未明确约定为专有许可的，被许可行使的权利应当视为非专有权利。\n\xa0\xa0\xa0 第二十条 转让软件著作权的，当事人应当订立书面合同。\n\xa0\xa0\xa0 第二十一条 订立许可他人专有行使软件著作权的许可合同，或者订立转让软件著作权合同，可以向国务院著作权行政

现在我们基本上完成了RAG需要的所有步骤了，我们实现一般会将离线和在线部分分离开，因为离线部分主要是完成数据的准备，用户侧不会调用，而且一般也是非实时的。而在线部分基本都是用户的访问插叙，一般也要求延迟不要太低。我们将目前的在线部分全部实现出来就是：

In [20]:
# CompleteDemoRAG.ts
from langchain.prompts import ChatPromptTemplate
from langchain.schema.runnable import RunnablePassthrough
from langchain.schema.output_parser import StrOutputParser
from langchain_pinecone import PineconeVectorStore
from langchain_community.embeddings import DashScopeEmbeddings
from libs.llm.ollama import ollama
import getpass
import os

if os.environ.get('PINECONE_API_KEY') is None:
    os.environ['PINECONE_API_KEY'] = getpass.getpass('PINECONE_API_KEY: ')

template = """
你是一个用于问答任务的助手。
使用以下检索到的内容来回答问题。
如果你不知道答案，就说你不知道。
保持答案的简洁
问题: 
-------
{question}
------- 

上下文: 
-------
{context} 
-------
回答:
"""
prompt = ChatPromptTemplate.from_template(template)

index_name = 'share-langchain-rag'
embeddings = DashScopeEmbeddings(
    model='text-embedding-v2',
    dashscope_api_key='sk-90cba3edc3e1412b84547915475dca30'
)
vector_store = PineconeVectorStore(index_name=index_name, embedding=embeddings)
retriever = vector_store.as_retriever(search_type='similarity_score_threshold',
                                      search_kwargs={'k': 3, 'score_threshold': 0.7})
rag_chain = (
        {"context": retriever, "question": RunnablePassthrough()}
        | prompt
        | ollama
        | StrOutputParser()
)
rag_chain.invoke("根据我国著作权保护法，软件保护期是多久")

'根据上述法律条文，自然人的软件著作权保护期为自生或者终生以来的50年，到50年之日。此外，如果软件是合作开发的，则由各合作开发人单独享有对他们开发贡献的权利；而若无书面合同约定，则可能出现分割使用的情形。法人或其他组织的著作权保护期为50年，但如果软件未在开发完成之日以来发表，则本条适用不再。\n\n自然人在法人或其他组织中任职期间的奖励权利包�ited有：\n\n1. 对于明确指定的开发目标所开发的软件，\n\n2. 该软件是从事本职工作活动预见的结果或自然的结果，\n\n3. 主要使用了法人或其他组织的资金、专用设备或未公开的专门信息等物质技术条件。\n\n此外，软件著作权自发现之日起保护期为自生以来50年，直到50年之日。'