## LangChain是什么？
LangChain 是一个用于开发由语言模型驱动的应用程序的框架。 

TLDR：LangChain 使使用 AI 模型工作和构建的复杂部分变得更加容易。它以两种方式帮助做到这一点：

集成- 将外部数据（例如您的文件、其他应用程序和 api 数据）引入您的 LLM
机构- 允许您的法学硕士通过决策与其环境互动。使用 LLM 帮助决定下一步要采取的行动

### 主要用例
* 摘要- 表达有关文本正文或聊天交互的最重要事实
* 通过文档问答- 使用文档中包含的信息来回答问题或查询
* 提取——从文本正文或用户查询中提取结构化数据
* 评估- 了解应用程序的输出质量
* 查询表格数据- 从数据库或其他表格源中提取数据
* 代码理解- 原因和摘要代码
* Interacting with APIs - 查询API并与外界交互
* Chatbots - 一种与用户进行来回交互并结合聊天界面中的记忆的框架
* 代理- 使用 LLM 来决定下一步该做什么。使用工具启用这些决策。

在本教程中，我们将使用 OpenAI 的各种模型。LangChain 可以轻松替换 LLM，因此您可以根据需要更换其他的 LLM模型

In [211]:
openai_api_key='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'

In [None]:
# 如果你想让你的显示器更宽,运行这个单元格
from IPython.display import display, HTML
display(HTML("<style>.container { width:90% !important; }</style>"))

## LangChain 用例

### Summarization
LangChain 和 LLM 最常见的用例之一是摘要。您可以总结任何一段文本，但用例包括总结电话、文章、书籍、学术论文、法律文件、用户历史、表格或财务文件。拥有一个可以快速汇总信息的工具非常有帮助。

* 深潜- （即将推出）
* 示例-总结 B2B 销售电话
* 用例- 总结文章、成绩单、聊天记录、Slack/Discord、客户互动、医学论文、法律文件、播客、推文线程、代码库、产品评论、财务文件

### 短文本摘要
对于短文的摘要，方法很简单，其实你不需要做任何花哨的事情，只需简单的提示说明即可

In [2]:
from langchain.llms import OpenAI
from langchain import PromptTemplate

# 请注意，默认模型已经是“text-davinci-003”，但我在这里明确指出它，以便您以后知道在何处更改它（如果需要）
llm = OpenAI(temperature=0, model_name='text-davinci-003', openai_api_key=openai_api_key)

# Create our template
template = """
%指示:
请总结下面的一段文字。
以 5 岁儿童能理解的方式回答。

%文本:
{text}
"""

# Create a LangChain prompt template that we can insert values to later
prompt = PromptTemplate(
    input_variables=["text"],
    template=template,
)

In [3]:
# 让我们在网上找一个容易混淆的文字。
confusing_text = """
近日深圳市人民政府办公厅正式印发了《深圳市数字孪生先锋城市建设行动计划（2023）》（简称：“计划”），其中对于如何建设城市级数字孪生底座、如何打造万亿级核心产业增加值数字经济高地都列出了执行方式。

深圳市一直是国内数字孪生城市建设的“排头兵”，此次“计划”的发布，表明深圳市将在打造“标杆性”数字孪生城市方面继续布局发力，并给出了更加具体的执行措施。

在该“计划”发布之前，已有多项数字孪生相关国家级、省级、市级政策文件发布，包括《数字中国建设整体布局规划》、《国务院关于加强数字政府建设的指导意见》（国发〔2022〕14号）、《广东省数字政府改革建设“十四五”规划》（粤府〔2021〕44号）、《深圳市数字政府和智慧城市“十四五”发展规划》（深政数〔2022〕38号）。

此次“计划”的总体目标是相对量化具体的，总共分为四个大的方向：建设一个一体协同的数字孪生底座、构建不少于十类数据相融合的孪生数据底板、上线承载超百个场景、超千项指标的数字孪生应用、打造万亿级核心产业增加值数字经济高地。

接着，“计划”详细阐释了要如何完成这四大目标，具体要做哪些事，同时，“计划”明确了完成每项目标的牵头单位和责任单位，整体来看，牵头单位和责任单位主要以政府部门和国企为主。

在建设一体协同的城市级数字孪生底座方面，深圳将建设市区协同、统分结合的全市域时空信息平台（CIM平台），要按照“两级平台、四级应用”架构，打造“1+11+N”CIM平台体系，建设11个区级平台，N个部门级、行业级、重点片区级平台。

为了构建泛在实时、全域覆盖的物联感知体系，深圳将实现城市管理、交通、水务、生态环境、应急安全等领域不少于30万个物联感知终端接入，逐步推进28万路摄像头信息融入CIM平台。

在上线承载超百个场景、超千项指标的多跨协同数字孪生应用方面，深圳将建设城市级智能网联汽车统一监管平台，推动智能网联汽车高质量集聚发展；深圳将围绕政务服务、出行、住房、医疗、教育、养老等民生服务场景，深度挖掘数字孪生应用场景，让市民群众在智慧城市和数字政府建设中更有获得感。

最后，在打造信创驱动、数字赋能的万亿级核心产业增加值数字经济高地方面，深圳将加快推进数字孪生城市建设所需软硬件和底层技术国产化适配，探索鹏城云脑为城市级仿真推演和人工智能应用提供海量图形渲染及AI算力支撑。"""

In [4]:
# 下面看看LLM会发什么提示
print ("------- Prompt Begin -------")

final_prompt = prompt.format(text=confusing_text)
print(final_prompt)

print ("------- Prompt End -------")

------- Prompt Begin -------

%指示:
请总结下面的一段文字。
以 5 岁儿童能理解的方式回答。

%文本:

近日深圳市人民政府办公厅正式印发了《深圳市数字孪生先锋城市建设行动计划（2023）》（简称：“计划”），其中对于如何建设城市级数字孪生底座、如何打造万亿级核心产业增加值数字经济高地都列出了执行方式。

深圳市一直是国内数字孪生城市建设的“排头兵”，此次“计划”的发布，表明深圳市将在打造“标杆性”数字孪生城市方面继续布局发力，并给出了更加具体的执行措施。

在该“计划”发布之前，已有多项数字孪生相关国家级、省级、市级政策文件发布，包括《数字中国建设整体布局规划》、《国务院关于加强数字政府建设的指导意见》（国发〔2022〕14号）、《广东省数字政府改革建设“十四五”规划》（粤府〔2021〕44号）、《深圳市数字政府和智慧城市“十四五”发展规划》（深政数〔2022〕38号）。

此次“计划”的总体目标是相对量化具体的，总共分为四个大的方向：建设一个一体协同的数字孪生底座、构建不少于十类数据相融合的孪生数据底板、上线承载超百个场景、超千项指标的数字孪生应用、打造万亿级核心产业增加值数字经济高地。

接着，“计划”详细阐释了要如何完成这四大目标，具体要做哪些事，同时，“计划”明确了完成每项目标的牵头单位和责任单位，整体来看，牵头单位和责任单位主要以政府部门和国企为主。

在建设一体协同的城市级数字孪生底座方面，深圳将建设市区协同、统分结合的全市域时空信息平台（CIM平台），要按照“两级平台、四级应用”架构，打造“1+11+N”CIM平台体系，建设11个区级平台，N个部门级、行业级、重点片区级平台。

为了构建泛在实时、全域覆盖的物联感知体系，深圳将实现城市管理、交通、水务、生态环境、应急安全等领域不少于30万个物联感知终端接入，逐步推进28万路摄像头信息融入CIM平台。

在上线承载超百个场景、超千项指标的多跨协同数字孪生应用方面，深圳将建设城市级智能网联汽车统一监管平台，推动智能网联汽车高质量集聚发展；深圳将围绕政务服务、出行、住房、医疗、教育、养老等民生服务场景，深度挖掘数字孪生应用场景，让市民群众在智慧城市和数字政府建设中更有获得感。

最后，在打造信创驱动、数字赋能的万亿级核心产业增加值数字经济高地方面，深圳将加快推进数字孪生城

In [5]:
output = llm(final_prompt)
print (output)


%总结:
深圳市发布了一个计划，要建设一个城市级的数字孪生底座，构建不少于十类数据的孪生数据底板，上线承载超百个场景和超千项指标的数字孪生应用，打造万亿级核心产业增加值数字经济高地。深圳将建设一个全市域时空信息平台，实现城市管理、交通、


> 此方法工作正常，但对于较长的文本，管理起来可能会很痛苦，并且您会遇到令牌限制。幸运的是，LangChain 通过他们的load_summarize_chain开箱即用地支持不同的总结方法。

### 较长文本的摘要
注意：此方法也适用于短文本

摘要涉及创建多个较长文档的较小摘要。这对于将长文档提炼成核心信息很有用。

开始使用汇总链的推荐方法是：

In [22]:
from langchain.llms import OpenAI
from langchain.chains.summarize import load_summarize_chain
from langchain.text_splitter import RecursiveCharacterTextSplitter

llm = OpenAI(temperature=0,openai_api_key=openai_api_key)


In [23]:
with open('data/scene.md', 'r',encoding="utf-8") as file:
    text = file.read()

# Printing the first 285 characters as a preview
print (text[:285])

Three.js 的核心可以说是它的场景图（scene graph）。场景图在 3D 引擎是一个图中节点的层次结构，其中每个节点代表了一个局部空间（local space）。

![img](https://threejs-1251830808.cos.ap-guangzhou.myqcloud.com/1668255050506-f555a8bb-c062-4de2-a988-03aed8966992.png)

这有点抽象，所以我们试着举一些例子。

比如这样一个例子：太阳系、太阳、地球、月亮。


 ![img](https://threejs-125183


In [24]:
num_tokens = llm.get_num_tokens(text)

print (f"There are {num_tokens} tokens in your file")

There are 14041 tokens in your file


虽然您可能会在提示中填充此文本，但让我们假设它太大并且需要另一种方法。

首先，我们需要将其拆分。此过程称为“分块”或“拆分”您的文本为更小的部分。我喜欢RecursiveCharacterTextSplitter，因为它很容易控制，但有很多你可以尝试

In [28]:
text_splitter = RecursiveCharacterTextSplitter(separators=["\n\n", "\n"], chunk_size=4000, chunk_overlap=350)
docs = text_splitter.create_documents([text])

print (f"You now have {len(docs)} docs intead of 1 piece of text")

You now have 7 docs intead of 1 piece of text


接下来我们需要加载一个链，它将为我们连续调用 LLM。想看看下面链中使用的提示吗？查看LangChain 文档

有关链类型之间差异的信息，请观看有关令牌限制解决方法的视频：https://www.youtube.com/watch?v=f9_BWhCI4Zo

注意：您也可以花点时间让 map_reduce 的前 4 次调用也并行运行

In [31]:
# Get your chain ready to use
chain = load_summarize_chain(llm=llm, chain_type='map_reduce',verbose=True) # verbose=True 可选，以查看发送到 LLM 的内容

In [32]:
# 这将运行 4 个文档,总结块,然后得到摘要的摘要。
output = chain.run(docs)
print (output)

Error in on_chain_start callback: 'name'
Error in on_chain_start callback: 'name'


Prompt after formatting:
[32;1m[1;3mWrite a concise summary of the following:


"Three.js 的核心可以说是它的场景图（scene graph）。场景图在 3D 引擎是一个图中节点的层次结构，其中每个节点代表了一个局部空间（local space）。

![img](https://threejs-1251830808.cos.ap-guangzhou.myqcloud.com/1668255050506-f555a8bb-c062-4de2-a988-03aed8966992.png)

这有点抽象，所以我们试着举一些例子。

比如这样一个例子：太阳系、太阳、地球、月亮。


 ![img](https://threejs-1251830808.cos.ap-guangzhou.myqcloud.com/1668255063500-37a35468-6933-4cc7-a291-10a37f4513ca.png)


 地球绕着太阳转，月球绕着地球转，月球绕着地球转了一圈。从月球的角度看，它是在地球的 "局部空间 "中旋转。尽管它相对于太阳的运动是一些疯狂的像螺线图一样的曲线，但从月球的角度来看，它只需要关注自身围绕地球这个局部空间的旋转即可。

![img](https://threejs-1251830808.cos.ap-guangzhou.myqcloud.com/1668255129171-8c6e7ccf-1e31-4bbf-815a-8bf63ac64ed9.gif)

换个角度想，生活在地球上的你，不用思考关于地球自转和绕太阳公转的问题。你只是走路或开车或游泳或跑步，好像地球从未移动或者旋转。你走路、开车、游泳、跑步、生活在地球这个 "局部空间"，即使相对于太阳来说，你是以每小时 1000 英里的速度绕着地球旋转，并以每小时 6 万 7 千英里的速度围绕太阳旋转。你在太阳系中的位置与头上的月亮相似，但你不必担心自己的位置。你只需担心你在地球 "局部空间 "中相对于地球的位置。

让我们一步一步来吧。想象一下，我们要做一个太阳、地球和月亮的图。我们先从太阳开始，只需制作一个球体，并将其置于原点。注意：我们用太阳、地球、月亮来演示如何使用场景图。当然，真正的太阳、

Error in on_chain_start callback: 'name'
Error in on_chain_start callback: 'name'



[1m> Finished chain.[0m
Prompt after formatting:
[32;1m[1;3mWrite a concise summary of the following:


" Three.js's core is its scene graph, which is a hierarchical structure of nodes in a 3D engine, each node representing a local space. An example is given of the sun, earth, and moon, and how the moon rotates around the earth in its own local space. The camera is set up to look down from above, and objects are added to the scene graph and rotated in a render loop. The earth is made a child node of the sun, which causes it to scale up and move further away. To fix this, an empty scene graph node is added and both the sun and earth are made child nodes of it.



本文介绍了如何使用 Three.js 创建一个太阳系模型，包括太阳、地球和月亮。文中提到了如何使用 Object3D 和 Mesh 来创建节点，以及如何使用 AxesHelper 和 GridHelper 来可视化场景图中的节点。文中还介绍了如何使用 lil-gui 来控制节点。

 

使用 lil-gui，一个在 three.js 项目中非常流行的 UI 库，可以自动生成 UI 来操作某个对象的命名属性，根据属性的类型创建不同的 UI。我们创建了一个 AxisGridHelper 类，它有一个属性绑定了 getter 和 setter，让 lil-gui 认为它在操作一个单一的属性，但是在内部我们可以为一个节点设置 AxesHelper

## 使用文档作为上下文的问答
LangChain问答文档

为了使用 LLM 进行问​​答，我们必须：

1.通过LLM相关上下文它需要回答一个问题
2.将我们想要回答的问题传递给它
简化后，这个过程看起来像这样“llm（你的背景+你的问题）=你的答案”

Deep Dive -
* 问一本书，向您的自定义文件提问，
* 聊聊您的数据 JS（1000 页财务报告），LangChain 问答网络研讨会
* 示例- ChatPDF
* 用例- 聊天您的文档、对学术论文提出问题、创建学习指南、参考医疗信息

### 简单问答示例
在这里让我们回顾一下约定llm(your context + your question) = your answer

In [50]:
from langchain.llms import OpenAI

llm = OpenAI(temperature=0, openai_api_key=openai_api_key,model_name="gpt-3.5-turbo-0613",)

In [51]:
context = """
1:可口可乐，价格4元
2:百事可乐，价格4.5元
3:雪碧，价格3.5元
4:脉动,价格6元
5:果趣，价格7元
6:果粒橙，价格5元
"""

question = "从中找一个最贵的饮料"

In [52]:
output = llm(context + question)

# 我剥离文本以删除前导和尾随空格
print (output.strip())

果趣300ml，价格7元是最贵的饮料。


随着我们提高我们的复杂性，我们将更多地利用这个约定。

当您需要选择将哪些数据放入上下文中时，困难的部分就出现了。这个研究领域被称为“文档检索”，并与 AI Memory 紧密结合。

## 使用嵌入


目标是从我们的长文本中选择相关的块，但是我们要提取哪些块？最流行的方法是基于比较向量嵌入来提取相似的文本。

In [53]:
from langchain import OpenAI

# 我们将使用的 vectorstore
from langchain.vectorstores import FAISS

# 我们将用来获取文档的 LangChain 组件
from langchain.chains import RetrievalQA

# 简单的文本文档加载器
from langchain.document_loaders import TextLoader

# 将我们的文本转换为向量的嵌入引擎
from langchain.embeddings.openai import OpenAIEmbeddings

llm = OpenAI(temperature=0, openai_api_key=openai_api_key)

让我们加载一个更长的文档

In [56]:
loader = TextLoader('./data/falcon.txt',encoding="utf-8")
doc = loader.load()
print (f"You have {len(doc)} document")
print (f"You have {len(doc[0].page_content)} characters in that document")

You have 1 document
You have 2188 characters in that document


In [57]:
text_splitter = RecursiveCharacterTextSplitter(chunk_size=3000, chunk_overlap=400)
docs = text_splitter.split_documents(doc)

In [58]:
# 获取字符总数,以便稍后查看平均值
num_total_characters = sum([len(x.page_content) for x in docs])

print (f"Now you have {len(docs)} documents that have an average of {num_total_characters / len(docs):,.0f} characters (smaller pieces)")

Now you have 1 documents that have an average of 2,188 characters (smaller pieces)


In [59]:
# 准备好你的嵌入引擎
embeddings = OpenAIEmbeddings(openai_api_key=openai_api_key)

# 嵌入您的文档并与伪数据库中的原始文本结合。注意:这将对 OpenAI 进行 API 调用
docsearch = FAISS.from_documents(docs, embeddings)

In [60]:
# 创建您的检索引擎
qa = RetrievalQA.from_chain_type(llm=llm, chain_type="stuff", retriever=docsearch.as_retriever())

现在是时候问一个问题了。检索器会去获取类似的文件，并结合你的问题让 LLM 进行推理。

注意：看起来可能不多，但这里的神奇之处在于我们不必传递完整的原始文档。

In [61]:
query = "什么是falcon"
qa.run(query)

' Falcon 是一个由阿联酋阿布扎比的技术创新研究所（TII）开源的 400 亿参数的因果解码器模型，它在 RefinedWeb 的 1 万亿个 token 上进行了训练，并使用精选数据集增强。'

## Extraction
### LangChain 提取文档
https://python.langchain.com/en/latest/use_cases/extraction.html

提取是从一段文本中解析数据的过程。这通常与输出解析一起使用，以构建我们的数据。

深入研究-使用 LLM 从文本中提取数据（专家级文本提取，OpenAI 的结构化输出（清理脏数据）

* 示例- OpeningAttributes
* 用例：从句子中提取结构化行以插入数据库，从长文档中提取多行以插入数据库，从用户查询中提取参数以进行 API 调用
* 一个流行的提取库是Kor。我们今天不会介绍它，但我强烈建议检查它以进行高级提取。Kor 会生成一个提示，将其发送到指定的 LLM 并解析出输出。

In [115]:
# 帮助构建我们的聊天消息
from langchain.schema import HumanMessage
from langchain.prompts import PromptTemplate, ChatPromptTemplate, HumanMessagePromptTemplate

# 我们将使用聊天模型,默认为 gpt-3.5-turbo
from langchain.chat_models import ChatOpenAI

# 解析输出并取回结构化数据
from langchain.output_parsers import StructuredOutputParser, ResponseSchema

chat_model = ChatOpenAI(temperature=0, model_name='gpt-3.5-turbo', openai_api_key=openai_api_key)

### 提取

让我们从一个简单的例子开始。在这里,我只是提供一个提示,其中包含我想要的输出类

In [116]:
instructions = """
你将得到一个带有水果名称的句子,提取这些水果名称并为其分配一个表情符号
在 python 字典中返回水果名称和表情符号
"""

fruit_names = """
苹果,梨,这是奇异果
"""

In [117]:
# 制作结合说明和水果名称的提示
prompt = (instructions + fruit_names)

# Call the LLM
output = chat_model([HumanMessage(content=prompt)])

print (output.content)
print (type(output.content))

{
  "苹果": "🍎",
  "梨": "🍐",
  "奇异果": "🥝"
}
<class 'str'>


In [65]:
# 让我们把它变成一个合适的 python 字典
output_dict = eval(output.content)

print (output_dict)
print (type(output_dict))

{'苹果': '🍎', '梨': '🍐', '奇异果': '🥝'}
<class 'dict'>


虽然这一次有效，但对于更高级的用例来说，这不是一个长期可靠的方法

## 使用 LangChain 的响应模式
LangChain 的响应模式会为我们做两件事：

1. 使用真正的格式指令自动生成提示。这很棒，因为我不需要担心提示工程方面的问题，我会把它留给 LangChain！

2. 读取 LLM 的输出并将其转换为适合我的 python 对象

在这里我定义了我想要的模式。我将从伪聊天消息中提取用户想要播放的歌曲和艺术家。

In [67]:
# 设置结构
response_schemas = [
    ResponseSchema(name="artist", description="音乐艺术家的名字"),
    ResponseSchema(name="song", description="艺术家演奏的歌曲名称")
]

# 架构中查找 LLM 输出并将其返回给我的解析器
output_parser = StructuredOutputParser.from_response_schemas(response_schemas)

In [68]:
# LangChain 制作的格式指令。让我们看看他们
format_instructions = output_parser.get_format_instructions()
print(format_instructions)

The output should be a markdown code snippet formatted in the following schema, including the leading and trailing "```json" and "```":

```json
{
	"artist": string  // 音乐艺术家的名字
	"song": string  // 艺术家演奏的歌曲名称
}
```


In [69]:
# 将所有内容整合在一起的提示模板
# 注意:这是一个与以前不同的提示模板,因为我们使用的是聊天模型

prompt = ChatPromptTemplate(
    messages=[
        HumanMessagePromptTemplate.from_template("根据用户的命令,提取艺术家和歌曲名称\n\ {format_instructions}\n{user_prompt}")  
    ],
    input_variables=["user_prompt"],
    partial_variables={"format_instructions": format_instructions}
)

In [71]:
fruit_query = prompt.format_prompt(user_prompt="我真的很喜欢林俊杰的美人鱼！")
print (fruit_query.messages[0].content)

根据用户的命令,提取艺术家和歌曲名称
\ The output should be a markdown code snippet formatted in the following schema, including the leading and trailing "```json" and "```":

```json
{
	"artist": string  // 音乐艺术家的名字
	"song": string  // 艺术家演奏的歌曲名称
}
```
我真的很喜欢林俊杰的美人鱼！


In [73]:
fruit_output = chat_model(fruit_query.to_messages())
output = output_parser.parse(fruit_output.content)

print (output)
print (type(output))

{'artist': '林俊杰', 'song': '美人鱼'}
<class 'dict'>


太棒了，现在我们有了一本字典，以后可以使用

警告：解析器以特定格式查找 LLM 的输出。您的模型可能不会每次都输出相同的格式。确保处理这个错误。GPT4 和未来的迭代将更加可靠。

如需更高级的解析，请查看Kor

## Evaluation
### LangChain 评估文档

评估是对应用程序的输出进行质量检查的过程。正常的、确定性的代码有我们可以运行的测试，但由于自然语言的不可预测性和可变性，判断 LLM 的输出更加困难。LangChain 提供的工具可以帮助我们完成这一旅程。

* 深潜- 即将推出
* 示例- Lance Martin 的 Advaned Auto-Evaluator
* 用例：对您的摘要或问答管道运行质量检查，检查您的摘要管道的输出

In [118]:
# 嵌入、存储和检索
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.vectorstores import FAISS
from langchain.chains import RetrievalQA

# 模型和文档加载器
from langchain import OpenAI
from langchain.document_loaders import TextLoader

# 评估!
from langchain.evaluation.qa import QAEvalChain
# gpt-3.5-turbo-16k,model_name='gpt-3.5-turbo'
llm = OpenAI(temperature=0, openai_api_key=openai_api_key)

In [146]:
# Our long essay from before
loader = TextLoader('data/falcon.txt',encoding="utf-8")
doc = loader.load()

print (f"You have {len(doc)} document")
print (f"You have {len(doc[0].page_content)} characters in that document")

You have 1 document
You have 2188 characters in that document


In [147]:
text_splitter = RecursiveCharacterTextSplitter(chunk_size=800, chunk_overlap=400)
docs = text_splitter.split_documents(doc)

# 获取字符总数,以便稍后查看平均值
num_total_characters = sum([len(x.page_content) for x in docs])

print (f"Now you have {len(docs)} documents that have an average of {num_total_characters / len(docs):,.0f} characters (smaller pieces)")

Now you have 6 documents that have an average of 661 characters (smaller pieces)


In [148]:
# 嵌入和文档库
embeddings = OpenAIEmbeddings(openai_api_key=openai_api_key)
docsearch = FAISS.from_documents(docs, embeddings)

制作你的检索链。注意我input_key现在有一个参数。
这告诉链我提供的字典中的哪个键包含我的提示/查询。我指定question匹配下面字典中的问题


In [149]:
chain = RetrievalQA.from_chain_type(llm=llm, chain_type="stuff", retriever=docsearch.as_retriever(), input_key="question")

现在，我将向 LLM 传递我知道正确的问题列表和基本事实答案（我将它们作为人类进行了验证）。

In [150]:
question_answers = [
    {'question' : "Falcon是哪个国家研发的", 'answer' : '阿拉伯联合酋长国'},
    {'question' : "爱丁堡大学博士生符尧觉得Falcon不会比LLaMA 好", 'answer' : '是的'}
]

我将chain.apply分别一个一个地回答我的两个问题。

其中一个很酷的部分是我将取回我的问答词典列表，但词典中还有另一个键，result它将是 LLM 的输出。

注意：我特意让我的第二个问题模棱两可，很难一次性回答，所以 LLM 会把它弄错

In [151]:
predictions = chain.apply(question_answers)
predictions

[{'question': 'Falcon是哪个国家研发的',
  'answer': '阿拉伯联合酋长国',
  'result': ' Falcon是阿联酋阿布扎比的技术创新研究所（TII）开发的。'},
 {'question': '爱丁堡大学博士生符尧觉得Falcon不会比LLaMA 好',
  'answer': '是的',
  'result': ' 是的，爱丁堡大学博士生符尧在推特上表示：「Falcon 真的比 LLaMA 好吗？简而言之：可能不会。」'}]

然后我们让 LLM 将我的真实答案（answer）与 LLM 的结果（result）进行比较。

或者简单地说，我们要求 LLM 自行评分。

In [152]:
# 启动您的评估链
eval_chain = QAEvalChain.from_llm(llm)

# 让它自己评分。下面的代码帮助 eval_chain 知道不同部分在哪里
graded_outputs = eval_chain.evaluate(question_answers,
                                     predictions,
                                     question_key="question",
                                     prediction_key="result",
                                     answer_key='answer')

In [153]:
graded_outputs

[{'text': ' CORRECT'}, {'text': ' CORRECT'}]

## 查询表格数据
### LangChain查询表格数据文档

世界上最常见的数据类型以表格形式存在（好的，好的，除了非结构化数据）。能够使用 LangChain 查询此数据并将其传递给 LLM 是非常强大的

用例：使用 LLM 查询有关用户的数据，进行数据分析，从您的数据库中获取实时信息
如需进一步阅读，请查看“Agents + Tabular Data”（Pandas、SQL、CSV）

让我们用自然语言查询 SQLite 数据库。我们将查看San Francisco Trees数据集。

In [154]:
from langchain import OpenAI, SQLDatabase, SQLDatabaseChain

llm = OpenAI(temperature=0, openai_api_key=openai_api_key)

In [155]:
sqlite_db_path = 'data/San_Francisco_Trees.db'
db = SQLDatabase.from_uri(f"sqlite:///{sqlite_db_path}")

In [157]:
db_chain = SQLDatabaseChain(llm=llm, database=db, verbose=True)



In [158]:
db_chain.run("旧金山有多少种树")

Error in on_chain_start callback: 'name'


旧金山有多少种树
SQLQuery:[32;1m[1;3mSELECT COUNT(DISTINCT qSpecies) FROM SFTrees;[0m
SQLResult: [33;1m[1;3m[(578,)][0m
Answer:[32;1m[1;3m旧金山有578种树。[0m
[1m> Finished chain.[0m


'旧金山有578种树。'

这太棒了！实际上这里有几个步骤。

### 脚步：

* 查找要使用的表
* 查找要使用的列
* 构造正确的sql查询
* 执行该查询
* 得到结果
* 返回自然语言响应
*让我们通过熊猫确认



In [159]:
import sqlite3
import pandas as pd

# Connect to the SQLite database
connection = sqlite3.connect(sqlite_db_path)

# Define your SQL query
query = "SELECT count(distinct qSpecies) FROM SFTrees"

# Read the SQL query into a Pandas DataFrame
df = pd.read_sql_query(query, connection)

# Close the connection
connection.close()

In [None]:
# 在第一列第一个单元格中显示结果
print(df.iloc[0,0])

## 代码理解
LangChain代码理解文档

LLM 最令人兴奋的能力之一是理解代码。由于 AI 的帮助，世界各地的人们都在提高速度和质量。其中很大一部分是拥有可以理解代码并帮助您完成特定任务的llm。


* 用例：类似Co-Pilot 的功能，可以帮助回答来自特定库的问题，帮助您生成新代码

In [212]:
# 读取本地文件的助手
import os

# 矢量支持
from langchain.vectorstores import FAISS
from langchain.embeddings.openai import OpenAIEmbeddings

# 模型
from langchain.chat_models import ChatOpenAI

# 文本分割器
from langchain.text_splitter import CharacterTextSplitter
from langchain.document_loaders import TextLoader

llm = ChatOpenAI(model_name='gpt-3.5-turbo', openai_api_key=openai_api_key)

In [213]:
#使用向量存储字节
embeddings = OpenAIEmbeddings(disallowed_special=(), openai_api_key=openai_api_key)

我在这个 repo 的数据文件夹中放了一个小的 python 包The Fuzz （个人独立开发者最喜欢的）。

下面的循环将遍历库中的每个文件并将其作为文档加载

In [214]:
root_dir = 'data/thefuzz'
docs = []

# Go through each folder
for dirpath, dirnames, filenames in os.walk(root_dir):
    
    # Go through each file
    for file in filenames:
        try: 
            # Load up the file as a doc and split
            loader = TextLoader(os.path.join(dirpath, file), encoding='utf-8')
            docs.extend(loader.load_and_split())
        except Exception as e: 
            pass

In [215]:
print (f"You have {len(docs)} documents\n")
print ("------ Start Document ------")
print (docs[0].page_content[:300])

You have 15 documents

------ Start Document ------
#!/usr/bin/env python
import platform

try:
    from .StringMatcher import StringMatcher as SequenceMatcher
except ImportError:
    if platform.python_implementation() != "PyPy":


In [216]:
docsearch = FAISS.from_documents(docs, embeddings)

In [217]:
# Get our retriever ready
qa = RetrievalQA.from_chain_type(llm=llm, chain_type="stuff", retriever=docsearch.as_retriever())

In [218]:
query = "如果我想在项目列表中找到最相似的项目,我应该使用什么功能?"
output = qa.run(query)

In [219]:
print (output)

您可以使用Python中的模糊匹配库中的函数来比较项目名称的相似度，例如Levenshtein、fuzzywuzzy或difflib。这些库可以计算两个字符串之间的相似度得分，并且可以根据不同的算法和参数进行配置。您可以使用其中一个库中的函数来计算项目名称之间的相似度得分，然后选择最高得分的项目作为最相似的项目。例如，您可以使用fuzzywuzzy库中的`process.extractOne()`函数来找到最相似的项目。


In [220]:
query = "您可以编写代码来使用process.extractOne()函数?只用代码回应。没有其他文字和解释"
output = qa.run(query)

In [221]:
print (output)

```python
from fuzzywuzzy import process

query = "apple"
choices = ["banana", "orange", "grape"]

result = process.extractOne(query, choices)

print(result)
```


## 与 API 交互
### LangChain API 交互文档

如果您需要的数据或操作在 API 之后，您将需要 LLM 才能与 API 交互


* 用例：了解用户的请求并执行操作，能够自动化更多真实世界的工作流程

https://python.langchain.com/en/latest/use_cases/apis.html

本主题与代理和插件密切相关，尽管我们将在本节中查看一个简单的用例。

In [224]:
from langchain.chains import APIChain
from langchain.llms import OpenAI

llm = OpenAI(temperature=0, openai_api_key=openai_api_key)

LangChain 的 APIChain 具有读取 API 文档并了解它需要调用哪个端点的能力。

在这种情况下，我编写了（故意草率的）API 文档来演示它是如何工作的

In [225]:
api_docs = """

BASE URL: https://restcountries.com/

API Documentation:

The API endpoint /v3.1/name/{name} Used to find informatin about a country. All URL parameters are listed below:
    - name: Name of country - Ex: italy, france
    
The API endpoint /v3.1/currency/{currency} Uesd to find information about a region. All URL parameters are listed below:
    - currency: 3 letter currency. Example: USD, COP
    
Woo! This is my documentation
"""

chain_new = APIChain.from_llm_and_api_docs(llm, api_docs, verbose=True)

In [226]:
# 让我们尝试进行一个针对国家端点的 API 调用
chain_new.run('可以告诉我朝鲜的信息吗?')

Error in on_chain_start callback: 'name'


[32;1m[1;3m https://restcountries.com/v3.1/name/korea[0m
[33;1m[1;3m[{"name":{"common":"South Korea","official":"Republic of Korea","nativeName":{"kor":{"official":"대한민국","common":"한국"}}},"tld":[".kr",".한국"],"cca2":"KR","ccn3":"410","cca3":"KOR","cioc":"KOR","independent":true,"status":"officially-assigned","unMember":true,"currencies":{"KRW":{"name":"South Korean won","symbol":"₩"}},"idd":{"root":"+8","suffixes":["2"]},"capital":["Seoul"],"altSpellings":["KR","Korea, Republic of","Republic of Korea","남한","남조선"],"region":"Asia","subregion":"Eastern Asia","languages":{"kor":"Korean"},"translations":{"ara":{"official":"جمهورية كوريا","common":"كوريا الجنوبية"},"bre":{"official":"Republik Korea","common":"Korea ar Su"},"ces":{"official":"Korejská republika","common":"Jižní Korea"},"cym":{"official":"Republic of Korea","common":"South Korea"},"deu":{"official":"Republik Korea","common":"Südkorea"},"est":{"official":"Korea Vabariik","common":"Lõuna-Korea"},"fin":{"official":"Korean tas

' 朝鲜是一个独立的国家，位于亚洲东部，首都是平壤，有25778815人口，使用朝鲜圆和朝鲜元作为货币，官方语言是韩语，国旗由红色、蓝色和白色三条横幅组成，红色横幅上有一颗红色五角星。'

In [228]:
chain_new.run('你能告诉我有关CNY的信息吗？,请使用中文回答')

Error in on_chain_start callback: 'name'


[32;1m[1;3mhttps://restcountries.com/v3.1/currency/CNY[0m
[33;1m[1;3m[{"name":{"common":"China","official":"People's Republic of China","nativeName":{"zho":{"official":"中华人民共和国","common":"中国"}}},"tld":[".cn",".中国",".中國",".公司",".网络"],"cca2":"CN","ccn3":"156","cca3":"CHN","cioc":"CHN","independent":true,"status":"officially-assigned","unMember":true,"currencies":{"CNY":{"name":"Chinese yuan","symbol":"¥"}},"idd":{"root":"+8","suffixes":["6"]},"capital":["Beijing"],"altSpellings":["CN","Zhōngguó","Zhongguo","Zhonghua","People's Republic of China","中华人民共和国","Zhōnghuá Rénmín Gònghéguó"],"region":"Asia","subregion":"Eastern Asia","languages":{"zho":"Chinese"},"translations":{"ara":{"official":"جمهورية الصين الشعبية","common":"الصين"},"bre":{"official":"Republik Pobl Sina","common":"Sina"},"ces":{"official":"Čínská lidová republika","common":"Čína"},"cym":{"official":"Gweriniaeth Pobl Tsieina","common":"Tsieina"},"deu":{"official":"Volksrepublik China","common":"China"},"est":{"official"

' 中国的货币是人民币（CNY），符号为¥。'

## FIN
哇！你一直走到底部。

你从这里去哪里？

人工智能的世界是巨大的，用例将继续增长。我个人对我们还不知道的用例的想法感到最兴奋。

我们还应该在这个列表中添加什么？