# [langchain documents](https://python.langchain.com/docs/modules/model_io/models/chat/llm_chain)

[LangChain-Tutorials](https://github.com/sugarforever/LangChain-Tutorials)

[从零开始学LangChain](https://www.zhihu.com/column/c_1632737846942478336)

In [1]:
import os

In [2]:
os.environ['OPENAI_API_KEY'] = '****************'

## 模型

> LLMs: 输入字符串，返回字符串。<br>
> ChatModels: 输入list<message>, 返回 message

In [8]:
from langchain.schema import ChatMessage

> `ChatMessage` has two required components:<br>
>> `content`: content of message<br>
>> `role`: this is the role of the entity from which the `ChatMessage` is coming from.<br>

---

> `HumanMessage`: A `ChatMessage` coming from a human/user.<br>
>> 发送给LLMs的提示信息，比如“实现一个快速排序方法”<br>

> `AIMessage`: A `ChatMessage` coming from an AI/assistant<br>
>> 用来保存LLM的响应，以便在下次请求时把这些信息传回给LLM。<br>

> `SystemMessage`: A `ChatMessage` coming from system<br>
>> 设置LLM模型的行为方式和目标。你可以在这里给出具体的指示，比如“作为一个代码专家”，或者“返回json格式”。<br>

> `FunctionMessage`: A `ChatMessage` coming from a function call

---

> 如果这些role都不对， 你也可以`ChatMessage`手动指定role.

> LangChain 为两个模型暴露了标准接口(这两个模型都可以调用这两个标准接口，前提是你输入的参数要正确).<br>
>> `predict`: takes in a string , returns a string<br>
>> `predict_message`: takes in a list of messages, return a message.<br>
>> 详见下文代码

In [17]:
from langchain.llms import OpenAI
from langchain.chat_models import ChatOpenAI

In [18]:
llm = OpenAI()
chat_model = ChatOpenAI()

> `predict`: takes in a string , returns a string<br>

In [20]:
llm.predict('hello!')

"\n\nHow are you today? I'm doing well, thank you. How about you?"

In [21]:
chat_model.predict("hello!")

'Hello! How can I assist you today?'

In [22]:
text = "What would be a good company name for a company that makes colorful socks?"

In [23]:
llm.predict(text)

'\n\nRainbow Sock Company'

In [24]:
chat_model.predict(text)

'ColorfulSox Co.'

> `predict_message`: takes in a list of messages, return a message.<br>

In [25]:
from langchain.schema import HumanMessage

In [26]:
messages = [HumanMessage(content=text)]

In [27]:
llm.predict_messages(messages)

AIMessage(content='\n\nSocktastic Colors!', additional_kwargs={}, example=False)

In [28]:
chat_model.predict_messages(messages)

AIMessage(content='Socktastic', additional_kwargs={}, example=False)

### 基座模型LLMs

> 对应 openai. Completion

In [10]:
from langchain.llms import OpenAI

In [11]:
llm = OpenAI(model_name="text-davinci-003", n=2, temperature=0.3)
llm.predict("tell me a joke")

'\n\nQ: What did the fish say when it hit the wall?\nA: Dam!'

In [12]:
llm.generate(['tell me a story', 'tell me a joke'])

LLMResult(generations=[[Generation(text='\n\nOnce upon a time, there was a young girl named Sarah. Sarah was a very curious and adventurous girl, and she loved exploring the world around her.\n\nOne day, Sarah decided to go on a hike in the forest near her home. She had heard stories of a mysterious creature that lived in the forest, and she was determined to find it.\n\nSarah hiked for hours, and eventually came across a clearing in the woods. In the center of the clearing was a large, ancient tree. Sarah was amazed by the tree, and she decided to climb it.\n\nAs Sarah climbed higher and higher, she noticed something strange. There were strange symbols carved into the bark of the tree, and they seemed to be glowing.\n\nSarah was so intrigued by the symbols that she decided to explore further. She followed the symbols around the tree, and eventually came to a small door in the trunk.\n\nSarah opened the door and stepped inside. To her surprise, she found a small room filled with books 

<table data-draft-node="block" data-draft-type="table" data-size="normal" data-row-style="normal"><tbody><tr><th>模型</th><th>介绍</th></tr><tr><td>AI21</td><td><a href="https://link.zhihu.com/?target=https%3A//docs.ai21.com/" class=" external" target="_blank" rel="nofollow noreferrer" data-za-detail-view-id="1043"><span class="invisible">https://</span><span class="visible">docs.ai21.com/</span><span class="invisible"></span></a>是构建理解和生成自然语言的人工智能应用的平台，由Jurassic-1语言模型驱动</td></tr><tr><td>Aleph Alpha</td><td><a href="https://link.zhihu.com/?target=https%3A//docs.aleph-alpha.com/docs/introduction/luminous/" class=" external" target="_blank" rel="nofollow noreferrer" data-za-detail-view-id="1043"><span class="invisible">https://</span><span class="visible">docs.aleph-alpha.com/do</span><span class="invisible">cs/introduction/luminous/</span><span class="ellipsis"></span></a>是一个大型语言模型家族。</td></tr><tr><td>Azure OpenAI</td><td>微软Azure提供的OpenAI云端API</td></tr><tr><td>Banana</td><td><a href="https://link.zhihu.com/?target=https%3A//www.banana.dev/about-us" class=" external" target="_blank" rel="nofollow noreferrer" data-za-detail-view-id="1043"><span class="invisible">https://www.</span><span class="visible">banana.dev/about-us</span><span class="invisible"></span></a>专注于构建机器学习基础设施。</td></tr><tr><td>CerebriumAI</td><td>Cerebrium是AWS Sagemaker的一个替代品，它提供对<a href="https://link.zhihu.com/?target=https%3A//docs.cerebrium.ai/cerebrium/prebuilt-models/deployment" class=" external" target="_blank" rel="nofollow noreferrer" data-za-detail-view-id="1043"><span class="invisible">https://</span><span class="visible">docs.cerebrium.ai/cereb</span><span class="invisible">rium/prebuilt-models/deployment</span><span class="ellipsis"></span></a>的API访问。</td></tr><tr><td>Cohere</td><td><a href="https://link.zhihu.com/?target=https%3A//cohere.ai/about" class=" external" target="_blank" rel="nofollow noreferrer" data-za-detail-view-id="1043"><span class="invisible">https://</span><span class="visible">cohere.ai/about</span><span class="invisible"></span></a>是一家加拿大创业公司，提供自然语言处理模型，帮助公司改善人机互动。</td></tr><tr><td>DeepInfra</td><td>DeepInfra提供了<a href="https://link.zhihu.com/?target=https%3A//deepinfra.com/models" class=" external" target="_blank" rel="nofollow noreferrer" data-za-detail-view-id="1043"><span class="invisible">https://</span><span class="visible">deepinfra.com/models</span><span class="invisible"></span></a>。</td></tr><tr><td>Forefront</td><td>Forefront平台让你有能力微调和使用<a href="https://link.zhihu.com/?target=https%3A//docs.forefront.ai/forefront/master/models" class=" external" target="_blank" rel="nofollow noreferrer" data-za-detail-view-id="1043"><span class="invisible">https://</span><span class="visible">docs.forefront.ai/foref</span><span class="invisible">ront/master/models</span><span class="ellipsis"></span></a>。</td></tr><tr><td>GooseAI</td><td>GooseAI是一个完全管理的NLP-as-a-服务，通过API交付。GooseAI提供对<a href="https://link.zhihu.com/?target=https%3A//goose.ai/docs/models" class=" external" target="_blank" rel="nofollow noreferrer" data-za-detail-view-id="1043"><span class="invisible">https://</span><span class="visible">goose.ai/docs/models</span><span class="invisible"></span></a>的访问。</td></tr><tr><td>gpt4all</td><td><a href="https://link.zhihu.com/?target=https%3A//github.com/nomic-ai/gpt4all" class=" external" target="_blank" rel="nofollow noreferrer" data-za-detail-view-id="1043"><span class="invisible">https://</span><span class="visible">github.com/nomic-ai/gpt</span><span class="invisible">4all</span><span class="ellipsis"></span></a>是一个开源聊天机器人的生态系统，在大量干净的助理数据（包括代码、故事和对话）上进行培训。</td></tr><tr><td>Hugging Face Hub</td><td><a href="https://link.zhihu.com/?target=https%3A//huggingface.co/docs/hub/index" class=" external" target="_blank" rel="nofollow noreferrer" data-za-detail-view-id="1043"><span class="invisible">https://</span><span class="visible">huggingface.co/docs/hub</span><span class="invisible">/index</span><span class="ellipsis"></span></a>是一个拥有超过12万个模型、2万个数据集和5万个演示应用程序（Spaces）的平台，所有这些都是开源和公开的，在一个在线平台上，人们可以轻松合作，共同构建ML。</td></tr><tr><td>Llama-cpp</td><td><a href="https://link.zhihu.com/?target=https%3A//github.com/abetlen/llama-cpp-python" class=" external" target="_blank" rel="nofollow noreferrer" data-za-detail-view-id="1043"><span class="invisible">https://</span><span class="visible">github.com/abetlen/llam</span><span class="invisible">a-cpp-python</span><span class="ellipsis"></span></a>是llama.cpp的一个Python绑定。它支持<a href="https://link.zhihu.com/?target=https%3A//github.com/ggerganov/llama.cpp" class=" external" target="_blank" rel="nofollow noreferrer" data-za-detail-view-id="1043"><span class="invisible">https://</span><span class="visible">github.com/ggerganov/ll</span><span class="invisible">ama.cpp</span><span class="ellipsis"></span></a>。</td></tr><tr><td>Manifest</td><td><a href="https://link.zhihu.com/?target=https%3A//github.com/HazyResearch/manifest" class=" external" target="_blank" rel="nofollow noreferrer" data-za-detail-view-id="1043"><span class="invisible">https://</span><span class="visible">github.com/HazyResearch</span><span class="invisible">/manifest</span><span class="ellipsis"></span></a>是一个帮助你利用自然语言生成和计算机视觉创建引人入胜和互动内容的平台</td></tr><tr><td>Modal</td><td><a href="https://link.zhihu.com/?target=https%3A//modal.com/docs/guide" class=" external" target="_blank" rel="nofollow noreferrer" data-za-detail-view-id="1043"><span class="invisible">https://</span><span class="visible">modal.com/docs/guide</span><span class="invisible"></span></a>提供了方便的、按需的、从你本地计算机上的Python脚本访问serverless云计算的机会。Modal本身并不提供任何LLM，而只是提供基础设施。</td></tr><tr><td>NLP Cloud</td><td><a href="https://link.zhihu.com/?target=https%3A//nlpcloud.io/" class=" external" target="_blank" rel="nofollow noreferrer" data-za-detail-view-id="1043"><span class="invisible">https://</span><span class="visible">nlpcloud.io/</span><span class="invisible"></span></a>提供高性能的预训练或定制模型，用于NER、情感分析、分类、总结、转述、语法和拼写纠正、关键字和关键词提取、聊天机器人、产品描述和广告生成、意图分类、文本生成、图像生成、博客文章生成、代码生成、问题回答、自动语音识别、机器翻译、语言检测、语义搜索、语义相似性、标记化、POS标记、嵌入和依赖性解析。它已准备好用于生产，通过REST API提供服务。</td></tr><tr><td>OpenAI</td><td><a href="https://link.zhihu.com/?target=https%3A//platform.openai.com/docs/introduction" class=" external" target="_blank" rel="nofollow noreferrer" data-za-detail-view-id="1043"><span class="invisible">https://</span><span class="visible">platform.openai.com/doc</span><span class="invisible">s/introduction</span><span class="ellipsis"></span></a>提供了一系列模型，适用于不同的任务。</td></tr><tr><td>Petals</td><td>Petals以BitTorrent的方式运行100B以上的语言模型。</td></tr><tr><td>PipelineAI</td><td>PipelineAI允许你在云中大规模地运行你的ML模型，提供了对<a href="https://link.zhihu.com/?target=https%3A//pipeline.ai/" class=" external" target="_blank" rel="nofollow noreferrer" data-za-detail-view-id="1043"><span class="invisible">https://</span><span class="visible">pipeline.ai/</span><span class="invisible"></span></a>的API访问。</td></tr><tr><td>PredictionGuard</td><td>一个帮助你监测和改善生产中机器学习模型性能的平台</td></tr><tr><td>PromptLayer</td><td><a href="https://link.zhihu.com/?target=https%3A//www.promptlayer.com/" class=" external" target="_blank" rel="nofollow noreferrer" data-za-detail-view-id="1043"><span class="invisible">https://www.</span><span class="visible">promptlayer.com/</span><span class="invisible"></span></a>是第一个允许你跟踪、管理和分享GPT提示工程的平台，扮演代码和OpenAI python库中间件的角色。</td></tr><tr><td>Replicate</td><td><a href="https://link.zhihu.com/?target=https%3A//replicate.com/blog/machine-learning-needs-better-tools" class=" external" target="_blank" rel="nofollow noreferrer" data-za-detail-view-id="1043"><span class="invisible">https://</span><span class="visible">replicate.com/blog/mach</span><span class="invisible">ine-learning-needs-better-tools</span><span class="ellipsis"></span></a>在云中运行机器学习模型。我们有一个开源模型库，你只需要几行代码就可以运行。如果你正在建立自己的机器学习模型，Replicate可以让你轻松地大规模部署它们。</td></tr><tr><td>Runhouse</td><td><a href="https://link.zhihu.com/?target=https%3A//github.com/run-house/runhouse" class=" external" target="_blank" rel="nofollow noreferrer" data-za-detail-view-id="1043"><span class="invisible">https://</span><span class="visible">github.com/run-house/ru</span><span class="invisible">nhouse</span><span class="ellipsis"></span></a>允许跨环境和用户的远程计算和数据。</td></tr><tr><td>SageMakerEndpoint</td><td><a href="https://link.zhihu.com/?target=https%3A//aws.amazon.com/sagemaker/" class=" external" target="_blank" rel="nofollow noreferrer" data-za-detail-view-id="1043"><span class="invisible">https://</span><span class="visible">aws.amazon.com/sagemake</span><span class="invisible">r/</span><span class="ellipsis"></span></a>是Amazon的一个系统，可以通过完全管理的基础设施、工具和工作流程为任何使用情况建立、训练和部署机器学习（ML）模型。</td></tr><tr><td>StochasticAI</td><td><a href="https://link.zhihu.com/?target=https%3A//docs.stochastic.ai/docs/introduction/" class=" external" target="_blank" rel="nofollow noreferrer" data-za-detail-view-id="1043"><span class="invisible">https://</span><span class="visible">docs.stochastic.ai/docs</span><span class="invisible">/introduction/</span><span class="ellipsis"></span></a>旨在简化深度学习模型的生命周期。从模型的上传和改版，到训练、压缩和加速，再到投入生产。</td></tr><tr><td>Writer</td><td><a href="https://link.zhihu.com/?target=https%3A//writer.com/" class=" external" target="_blank" rel="nofollow noreferrer" data-za-detail-view-id="1043"><span class="invisible">https://</span><span class="visible">writer.com/</span><span class="invisible"></span></a>是一个使用AI提升公司业务流程的平台。</td></tr></tbody></table>

### 聊天模型

> 对应 openai.  ChatCompletion

In [13]:
from langchain.schema import AIMessage, HumanMessage, SystemMessage
from langchain.chat_models import ChatOpenAI

In [14]:
chat = ChatOpenAI(temperature=0)
messages = [SystemMessage(content="返回json object，不要纯文本，按照每项参数拆分，不要说明和解释信息"),HumanMessage(content="告诉我model Y汽车的尺寸参数")]
chat.predict_messages(messages)

AIMessage(content='以下是Model Y汽车的尺寸参数：\n\n1. 车身长度：4,750毫米\n2. 车身宽度（包括外侧镜）：2,189毫米\n3. 车身高度：1,624毫米\n4. 轴距：2,890毫米\n5. 最小离地间隙：162毫米\n6. 车重：约1,900千克\n7. 车辆容量：5至7座位\n8. 后备箱容积：1,900升（后排座椅放倒）\n9. 前后轮距：1,590毫米（前轮）和1,600毫米（后轮）\n\n请注意，这些尺寸参数可能会因不同的配置和市场而有所变化。', additional_kwargs={}, example=False)

> 非json，且有说明和解释信息

In [16]:
chat = ChatOpenAI(temperature=0)
message = [SystemMessage(content='返回json格式，按项目拆分参数，不要说明及解释信息'), HumanMessage(content='告诉我model y汽车的尺寸参数')]
chat.predict_messages(message)

AIMessage(content='{\n  "车身尺寸": {\n    "长度": "4751mm",\n    "宽度": "1921mm",\n    "高度": "1626mm",\n    "轴距": "2890mm"\n  },\n  "行李箱容积": {\n    "后排座椅放倒": "1900L",\n    "后排座椅不放倒": "881L"\n  },\n  "重量": {\n    "空车重量": "1977kg",\n    "满载重量": "2500kg"\n  }\n}', additional_kwargs={}, example=False)

> json格式 ， 括弧里没有说明

LangChain现在支持的聊天模型有

<table data-draft-node="block" data-draft-type="table" data-size="normal" data-row-style="normal"><tbody><tr><th>模型</th><th>介绍</th></tr><tr><td>ChatAnthropic</td><td>一个前OpenAI员工创建的AI聊天助手，相比其他聊天工具，它的有害答案更少</td></tr><tr><td>AzureChatOpenAI</td><td>Azure提供的OpenAI聊天模型</td></tr><tr><td>ChatOpenAI</td><td>OpenAI聊天模型</td></tr><tr><td>PromptLayerChatOpenAI</td><td>基于OpenAI的提示模板平台</td></tr></tbody></table>

由上述例子便产生了“提示模版”的需求

## 提示模版

In [29]:
from langchain.prompts import PromptTemplate

In [30]:
prompt = PromptTemplate.from_template("What would be a good company name for a company that makes {product}?")

In [31]:
prompt.format(product='colorful socks')
prompt

'What would be a good company name for a company that makes colorful socks?'

PromptTemplate(input_variables=['product'], output_parser=None, partial_variables={}, template='What would be a good company name for a company that makes {product}?', template_format='f-string', validate_template=True)

### zero shot prompt

In [32]:
from langchain.chat_models import ChatOpenAI
from langchain.prompts import (
    ChatPromptTemplate,
    PromptTemplate,
    SystemMessagePromptTemplate,
    AIMessagePromptTemplate,
    HumanMessagePromptTemplate,
)
from langchain.schema import (
    AIMessage,
    HumanMessage,
    SystemMessage
)

1. construct messages<br>
> easily combining different templates into a single prompt.

In [33]:
system_template="你是一个把{input_language}翻译成{output_language}的助手"
system_message_prompt = SystemMessagePromptTemplate.from_template(system_template)
human_template="{text}"
human_message_prompt = HumanMessagePromptTemplate.from_template(human_template)

In [34]:
chat_prompt = ChatPromptTemplate.from_messages([system_message_prompt, human_message_prompt])
messages = chat_prompt.format_prompt(input_language="英语", output_language="汉语", text="I love programming.")

In [35]:
messages

ChatPromptValue(messages=[SystemMessage(content='你是一个把英语翻译成汉语的助手', additional_kwargs={}), HumanMessage(content='I love programming.', additional_kwargs={}, example=False)])

In [38]:
messages.to_messages()

[SystemMessage(content='你是一个把英语翻译成汉语的助手', additional_kwargs={}),
 HumanMessage(content='I love programming.', additional_kwargs={}, example=False)]

2. send to model

In [36]:
chat = ChatOpenAI(temperature=0)

In [39]:
chat.predict_messages(messages.to_messages())

AIMessage(content='我喜欢编程。', additional_kwargs={}, example=False)

### few shot prompt

In [21]:
from langchain import PromptTemplate, FewShotPromptTemplate
from langchain.llms import OpenAI

In [23]:
examples = [
    {"word": "开心", "antonym": "难过"},
    {"word": "高", "antonym": "矮"},
]

example_template = """
单词: {word}
反义词: {antonym}\\n
"""

example_prompt = PromptTemplate(
    input_variables=["word", "antonym"],
    template=example_template,
)

few_shot_prompt = FewShotPromptTemplate(
    examples=examples,
    example_prompt=example_prompt,
    prefix="给出每个单词的反义词",
    suffix="单词: {input}\\n反义词:",
    input_variables=["input"],
    example_separator="\\n",
)

prompt_text = few_shot_prompt.format(input="粗")
print(prompt_text)

给出每个单词的反义词\n
单词: 开心
反义词: 难过\n
\n
单词: 高
反义词: 矮\n
\n单词: 粗\n反义词:


In [24]:
# 调用OpenAI
llm = OpenAI(temperature=0.9)
print(llm(prompt_text))

 细


> llm chat 完成了推理，且正确

### CoT: chain-of-thought

### LtM: Least to Most

## Output Parsers

**主要的OutputParser：**<br>

1. Convert text from LLM -> structured information (eg: JSON)<br>
2. Convert a ChatMessage into just a string<br>
3. Convert the extra information returned from a call besides the message (like OpenAI function invocation) into a string. <br>
3. 将消息以外的信息转化为字符串.

> 我们实现一个根据逗号分割的列表， 分割为一个列表

In [3]:
from langchain.schema import BaseOutputParser

In [4]:
class CommaSeparatedListOutputParser(BaseOutputParser):
    """Parse the output of an LLM call to a comma-separated list."""
    
    def parse(self, text):
        return text.strip().split(', ')

In [5]:
CommaSeparatedListOutputParser().parse(text="hi, Tom")

['hi', 'Tom']

## 文本嵌入 text embedding

In [15]:
from langchain.embeddings import OpenAIEmbeddings

In [17]:
embeddings = OpenAIEmbeddings()
text = "这是一个测试文档。"

query_result = embeddings.embed_query(text)
# doc_result = embeddings.embed_documents([text])

In [19]:
print(query_result[0:10])

[-0.00943867489695549, 0.00426734471693635, 0.002338066231459379, -0.010282838717103004, -0.010468953289091587, 0.00485560018569231, -0.018398769199848175, -0.0018993671983480453, -0.004270668141543865, -0.01708267256617546]


In [20]:
len(query_result)

1536

> 它们最大的不同是embed_query接收一个字符串作为输入，而embed_documents可以接收一组字符串，一些模型自身划分了这两个方法，LangChain也继承了下来。

LangChain集成的文本嵌入模型有：

<table data-draft-node="block" data-draft-type="table" data-size="normal" data-row-style="normal"><tbody><tr><th>模型</th></tr><tr><td>Aleph Alpha</td></tr><tr><td>AzureOpenAI</td></tr><tr><td>Cohere</td></tr><tr><td>Fake Embeddings</td></tr><tr><td>Hugging Face Hub</td></tr><tr><td>InstructEmbeddings</td></tr><tr><td>Jina</td></tr><tr><td>Llama-cpp</td></tr><tr><td>OpenAI</td></tr><tr><td>SageMaker Endpoint</td></tr><tr><td>Self Hosted Embeddings</td></tr><tr><td>SentenceTransformers</td></tr><tr><td>TensorflowHub</td></tr></tbody></table>

## 链

### LLMChain:

链接提示模板组件和模型

In [6]:
from langchain.chat_models import ChatOpenAI
from langchain.prompts.chat import (
    ChatPromptTemplate,
    SystemMessagePromptTemplate,
    HumanMessagePromptTemplate,
)

from langchain.chains import LLMChain

> 1. 构建一堆template

In [7]:
template = """You are a helpful assistant who generates comma separated lists.
A user will pass in a category, and you should generate 5 objects in that category in a comma separated list.
ONLY return a comma separated list, and nothing more."""

In [8]:
system_message_prompt = SystemMessagePromptTemplate.from_template(template)

In [9]:
human_template = "{text}"

In [10]:
human_message_prompt = HumanMessagePromptTemplate.from_template(human_template)

> 2. 通过message构建chat-template链

In [11]:
chat_prompt = ChatPromptTemplate.from_messages([system_message_prompt, human_message_prompt])

In [12]:
chain = LLMChain(llm=ChatOpenAI(),
                 prompt=chat_prompt)

In [13]:
chain.run('colors')

'blue, red, green, yellow, orange'

> output_parser 将str转为结构化数据

In [14]:
chain = LLMChain(llm=ChatOpenAI(),
                 prompt=chat_prompt, 
                output_parser=CommaSeparatedListOutputParser())

In [16]:
chain.run('colors')

['red', 'blue', 'green', 'yellow', 'orange']

In [25]:
from langchain import PromptTemplate
from langchain.llms import OpenAI
from langchain.chains import LLMChain

In [26]:
template = "我的邻居姓{lastname}，他生了个儿子，给他儿子起个名字"

prompt = PromptTemplate(
    input_variables=["lastname"],
    template=template,
)
llm = OpenAI(temperature=0.9)

chain = LLMChain(llm = llm, prompt = prompt)

In [29]:
# 执行链
chain.run("王")

'叫“王子”，又有一个姓李的邻居生了个女儿，给女儿取个名字叫“李公主”。'

### SimpleSequentialChain: 

> 模型输出作为下一个模型输入

In [30]:
from langchain import PromptTemplate
from langchain.llms import OpenAI
from langchain.chains import LLMChain, SimpleSequentialChain

In [31]:
template = "我的邻居姓{lastname}，他生了个儿子，给他儿子起个名字"

prompt = PromptTemplate(
    input_variables=["lastname"],
    template=template,
)

llm = OpenAI(temperature=0.9)

# 第一条链
chain = LLMChain(llm = llm, prompt = prompt)

# 第二条链
second_prompt = PromptTemplate(
    input_variables=["child_name"],
    template="邻居的儿子名字叫{child_name}，给他起一个小名",
)

chain_two = LLMChain(llm=llm, prompt=second_prompt)

# 链接两条链 
overall_chain = SimpleSequentialChain(chains=[chain, chain_two], verbose=True)

# 执行链，只需要传入第一个参数
catchphrase = overall_chain.run("王")



[1m> Entering new  chain...[0m
[36;1m[1;3m叫王小明。[0m
[33;1m[1;3m

可以叫"小明"，也可以叫"明哥"。[0m

[1m> Finished chain.[0m


In [32]:
catchphrase

'\n\n可以叫"小明"，也可以叫"明哥"。'

## 代理

**代理**
> 负责控制整段代码的逻辑和执行，代理暴露了一个接口，用来接收用户输入，并返回AgentAction或AgentFinish。
> 1. AgentAction决定使用哪个工具
> 2. AgentFinish意味着代理的工作完成了，返回给用户结果

**工具**
> 第三方服务的集成，比如谷歌、bing等等，后面有详细列表

**工具包**
> 一些集成好了代理包，比如create_csv_agent 可以使用模型解读csv文件，**代码如下**：

In [33]:
from langchain.agents import create_csv_agent
from langchain.llms import OpenAI

In [34]:
agent = create_csv_agent(OpenAI(temperature=0), 'input/10.csv', verbose=True)
agent.run("一共有多少行数据?")



[1m> Entering new  chain...[0m
[32;1m[1;3mThought: 我需要知道dataframe的行数
Action: python_repl_ast
Action Input: len(df)[0m
Observation: [36;1m[1;3m9[0m
Thought:[32;1m[1;3m 我现在知道最终答案
Final Answer: df有9行数据[0m

[1m> Finished chain.[0m


'df有9行数据'

**代理执行器**<br>
> 负责迭代运行代理的循环，直到满足停止的标准。

> 我们在北京，想让大语言模型告诉我们明天穿什么衣服，由于大语言模型不知道明天的天气，我们借助于serpapi 来查询天气，并传递给模型

In [35]:
from langchain.agents import load_tools
from langchain.agents import initialize_agent
from langchain.agents import AgentType
from langchain.llms import OpenAI

In [37]:
# llm = OpenAI(temperature=0)
# tools = load_tools(["serpapi"], llm=llm)
# agent = initialize_agent(tools, llm, agent=AgentType.ZERO_SHOT_REACT_DESCRIPTION, verbose=True)

# agent.run("明天在北京穿什么衣服合适?")

> Entering new AgentExecutor chain...<br>
I need to find out what the weather will be like tomorrow in Beijing.<br>
Action: Search<br>
Action Input: "Beijing weather tomorrow"<br>
Observation: Beijing, Beijing ; Current Weather. 2:41 AM. 61° ; TODAY'S WEATHER FORECAST. 5/10. 82° ; TONIGHT'S WEATHER FORECAST. 5/10. 57° ;<br>
TOMORROW'S WEATHER FORECAST. 5/11.<br>
Thought: It looks like it will be warm tomorrow, so I should wear something light.<br>
Final Answer: 明天在北京穿薄衣服合适 。<br>
> Finished chain.<br>

> 看到结果有没有很神奇的感觉.<br>
> 要注意的是，运行这个示例需要申请serpapi token，并且设置到环境变量SERPAPI_API_KEY<br>
> 安装依赖包google-search-results 。

**LangChain现在支持的工具如下**

<table data-draft-node="block" data-draft-type="table" data-size="normal" data-row-style="normal"><tbody><tr><th>工具</th><th>介绍</th></tr><tr><td>Apify</td><td>一个数据抓取平台</td></tr><tr><td>ArXiv</td><td>arXiv是一个收集物理学、数学、计算机科学、生物学与数理经济学的论文预印本的网站</td></tr><tr><td>AWS Lambda</td><td>Amazon serverless计算服务</td></tr><tr><td>Shell工具</td><td>执行shell命令</td></tr><tr><td>Bing Search</td><td>Bing搜索</td></tr><tr><td>ChatGPT插件</td><td></td></tr><tr><td>DuckDuckGo</td><td>DuckDuckGo搜索</td></tr><tr><td>Google Places</td><td>Google地点</td></tr><tr><td>Google Search</td><td>Google搜索</td></tr><tr><td>Google Serper API</td><td>一个从google搜索提取数据的API</td></tr><tr><td>Gradio Tools</td><td>Gradio应用</td></tr><tr><td>IFTTT Webhooks</td><td>一个新生的网络服务平台，通过其他不同平台的条件来决定是否执行下一条命令</td></tr><tr><td>OpenWeatherMap</td><td>天气查询</td></tr><tr><td>Python REPL</td><td>执行python代码</td></tr><tr><td>Requests</td><td>发送网络请求</td></tr><tr><td>SceneXplain</td><td>一个访问ImageCaptioning的工具，通过url就可以获取图像描述</td></tr><tr><td>Wikipedia</td><td>查询wiki数据</td></tr><tr><td>Wolfram Alpha</td><td>一个计算平台，可以计算复杂的数学问题</td></tr><tr><td>YouTubeSearchTool</td><td>视频搜索</td></tr><tr><td>Zapier</td><td>一个工作流程自动化平台</td></tr></tbody></table>

## 记忆

> 大语言模型是无状态的，它并不保存上次交互的内容，chatGPT能够和人正常对话，因为它做了一层包装，把历史记录传回给了模型。

> 1. **短期记忆**: 一般指单一会话时传递数据<br>
> 2. **长期记忆**: 则是处理多个会话时获取和更新信息<br>

> **目前记忆组件只需要考虑:**`ChatMessageHistory`

**短期记忆**

In [38]:
from langchain.memory import ChatMessageHistory

history = ChatMessageHistory()
history.add_user_message("在吗？")
history.add_ai_message("有什么事?")

history.messages

[HumanMessage(content='在吗？', additional_kwargs={}, example=False),
 AIMessage(content='有什么事?', additional_kwargs={}, example=False)]

**长期记忆**： messages_to_dict 

In [39]:
from langchain.memory import ChatMessageHistory
from langchain.schema import messages_from_dict, messages_to_dict

In [40]:
history = ChatMessageHistory()
history.add_user_message("hi!")
history.add_ai_message("whats up?")

dicts = messages_to_dict(history.messages)
dicts

[{'type': 'human',
  'data': {'content': 'hi!', 'additional_kwargs': {}, 'example': False}},
 {'type': 'ai',
  'data': {'content': 'whats up?', 'additional_kwargs': {}, 'example': False}}]

In [41]:
# 读取历史消息
new_messages = messages_from_dict(dicts)
new_messages

[HumanMessage(content='hi!', additional_kwargs={}, example=False),
 AIMessage(content='whats up?', additional_kwargs={}, example=False)]

> OpenAI结合，直接使用`ConversationChain`

In [42]:
from langchain import ConversationChain
from langchain.llms import OpenAI

In [43]:
llm = OpenAI(temperature=0)
conversation = ConversationChain(llm=llm, verbose=True)
conversation.predict(input="小明有1只猫")



[1m> Entering new  chain...[0m
Prompt after formatting:
[32;1m[1;3mThe following is a friendly conversation between a human and an AI. The AI is talkative and provides lots of specific details from its context. If the AI does not know the answer to a question, it truthfully says it does not know.

Current conversation:

Human: 小明有1只猫
AI:[0m

[1m> Finished chain.[0m


' 哇，真的吗？小明有多久了呢？'

In [44]:
conversation.predict(input="小刚有2只狗")



[1m> Entering new  chain...[0m
Prompt after formatting:
[32;1m[1;3mThe following is a friendly conversation between a human and an AI. The AI is talkative and provides lots of specific details from its context. If the AI does not know the answer to a question, it truthfully says it does not know.

Current conversation:
Human: 小明有1只猫
AI:  哇，真的吗？小明有多久了呢？
Human: 小刚有2只狗
AI:[0m

[1m> Finished chain.[0m


' 哇，真的吗？小刚有多久了呢？他们是什么品种的狗呢？'

In [45]:
conversation.predict(input="小明和小刚一共有几只宠物?")



[1m> Entering new  chain...[0m
Prompt after formatting:
[32;1m[1;3mThe following is a friendly conversation between a human and an AI. The AI is talkative and provides lots of specific details from its context. If the AI does not know the answer to a question, it truthfully says it does not know.

Current conversation:
Human: 小明有1只猫
AI:  哇，真的吗？小明有多久了呢？
Human: 小刚有2只狗
AI:  哇，真的吗？小刚有多久了呢？他们是什么品种的狗呢？
Human: 小明和小刚一共有几只宠物?
AI:[0m

[1m> Finished chain.[0m


' 小明和小刚一共有3只宠物，1只猫和2只狗。'

## 索引

> **索引**组件为LangChain提供了文档处理的能力. <br>
> 包括文档加载、检索等等，这里的文档是广义的文档，不仅仅是txt、epub、pdf等文本类的内容，还包括email、区块链、telegram、Notion甚至是视频内容。

> * 索引组件主要有以下四种类型：
> * 文档加载器
> * 文本分割器
> * VectorStores
> * 检索器

### 文档加载器

> 文档加载器主要基于Unstructured 包. <br>

In [46]:
from langchain.document_loaders import TextLoader
loader = TextLoader('input/1.txt', encoding='utf8')
documents = loader.load()

In [47]:
documents

[Document(page_content='垂直领域大模型是指在特定的领域或行业中经过训练和优化的大型语言模型。与通用语言模型相比，垂直领域大模型更专注于某个特定领域的知识和技能，具备更高的领域专业性和实用性。\n与通用大模型相比，垂直领域大模型具有以下优势和劣势：\n优势：\n领域专业性：垂直领域大模型经过专门的训练，能够更好地理解和处理特定领域的知识、术语和上下文。\n高质量输出：由于在特定领域中进行了优化，垂直领域大模型在该领域的输出质量通常比通用大模型更高。\n特定任务效果更好：对于特定领域的任务，垂直领域大模型通常比通用大模型表现更好。\n劣势：\n数据需求和训练成本：垂直领域大模型需要大量的特定领域数据进行训练，这可能会面临数据收集和标注的挑战。\n适应性限制：垂直领域大模型在特定领域中的适应性较强，但在其他领域的表现可能相对较弱。\n更新和维护成本：由于特定领域的知识和要求经常变化，垂直领域大模型需要定期更新和维护，以保持与最新发展的同步。\n下面介绍几个知名度较高的垂直领域大模型，涉及教育、金融、医学、法律四个领域。\nMathGPT 教育大模型\n学而思正在进行自研数学大模型的研发，命名为MathGPT。面向全球数学爱好者和科研机构，以数学领域的解题和讲题算法为核心。据透露，MathGPT将先从中小学数学做起，逐步覆盖全年龄学段和解题种类。\n目前已经取得阶段性成果，并将于年内推出基于该自研大模型的产品级应用。\nBloombergGPT 金融大模型\n近期根据彭博社报告显示，其构建迄今为止最大的特定领域数据集，并训练了专门用于金融领域的LLM，开发了拥有500亿参数的语言模型—BloombergGPT。\nBloombergGPT 和 GPT模式一样，也是基于 Transformer架构的，采用的是译码器的技术路线。通过比较， BloombergGPT模型参数为500亿，在GPT-2 (1.5亿)和GPT-3 (1750亿)之间。Bloomberg构建了目前规模最大的金融数据集 FINPILE，通过对通用文本+金融知识的混合训练，使得 BloombergGPT在执行金融任务方面的表现超过了现有的通用 LLM模型，而在通用场景方面的表现则与现有的通用 LLM模型基本持平。\n', metadata={'source': 'input/1.txt

> LangChain支持的文档加载器如下

<table data-draft-node="block" data-draft-type="table" data-size="normal" data-row-style="normal"><tbody><tr><th>文档加载器</th><th>介绍</th></tr><tr><td>Airbyte JSON</td><td>从Airbyte加载JSON，Airbyte是一个数据集成平台</td></tr><tr><td>Apify Dataset</td><td>Apify Dataset是一个可扩展的纯应用存储，具有顺序访问功能，用于存储结构化的网络抓取结果</td></tr><tr><td>Arxiv</td><td>arXiv是一个开放性的档案库，收录了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域的200万篇学术文章。</td></tr><tr><td>AWS S3 Directory</td><td>AWS S3是Amazon的对象存储服务，加载目录</td></tr><tr><td>AWS S3 File</td><td>加载文件</td></tr><tr><td>AZLyrics</td><td>AZLyrics是一个大型的、合法的、每天都在增长的歌词集。</td></tr><tr><td>Azure Blob Storage Container</td><td>微软的对象存储服务</td></tr><tr><td>Azure Blob Storage File</td><td>加载文件</td></tr><tr><td>Bilibili</td><td>加载B站视频</td></tr><tr><td>Blackboard</td><td>一个虚拟学习环境和学习管理系统</td></tr><tr><td>Blockchain</td><td>基于alchemy 加载区块链数据</td></tr><tr><td>ChatGPT Data</td><td>chatGPT消息加载器</td></tr><tr><td>College Confidential</td><td>提供全世界的大学信息</td></tr><tr><td>Confluence</td><td>一个专业的企业知识管理与协同平台</td></tr><tr><td>CoNLL-U</td><td>CoNLL-U是一种文件格式</td></tr><tr><td>Copy Paste</td><td>普通文本</td></tr><tr><td>CSV</td><td>CSV文件</td></tr><tr><td>Diffbot</td><td>一个将网站转化为结构化数据的平台</td></tr><tr><td>Discord</td><td></td></tr><tr><td>DuckDB</td><td>一个分析数据库系统</td></tr><tr><td>Email</td><td>邮件，支持.eml和.msg格式</td></tr><tr><td>EPub</td><td>epub电子书</td></tr><tr><td>EverNote</td><td>EverNote文档</td></tr><tr><td>Facebook Chat</td><td>Facebook消息</td></tr><tr><td>Figma</td><td>一个web设计工具</td></tr><tr><td>File Directory</td><td>加载目录下所有文件</td></tr><tr><td>Git</td><td>GIt</td></tr><tr><td>GitBook</td><td>GItBook</td></tr><tr><td>Google BigQuery</td><td>谷歌云服务</td></tr><tr><td>Google Cloud Storage Directory</td><td>谷歌云服务</td></tr><tr><td>Google Cloud Storage File</td><td>谷歌云服务</td></tr><tr><td>Google Drive</td><td>谷歌云服务</td></tr><tr><td>Gutenberg</td><td>一个在线电子书平台</td></tr><tr><td>Hacker News</td><td>一个计算机信息网站</td></tr><tr><td>HTML</td><td>网页</td></tr><tr><td>HuggingFace dataset</td><td>HuggingFace数据集</td></tr><tr><td>iFixit</td><td>一个维修为主题的社区</td></tr><tr><td>Images</td><td>加载图片</td></tr><tr><td>Image captions</td><td>根据图片生成图片说明</td></tr><tr><td>IMSDb</td><td>电影数据库</td></tr><tr><td>JSON Files</td><td>加载JSON文件</td></tr><tr><td>Jupyter Notebook</td><td>加载notebook文件</td></tr><tr><td>Markdown</td><td>加载markdown文件</td></tr><tr><td>MediaWikiDump</td><td>wiki xml数据</td></tr><tr><td>Microsoft OneDrive</td><td>加载微软OneDrive文档</td></tr><tr><td>Microsoft PowerPoint</td><td>加载ppt文件</td></tr><tr><td>Microsoft Word</td><td>加载word文件</td></tr><tr><td>Modern Treasury</td><td>一家支付运营软件提供商</td></tr><tr><td>Notion DB</td><td>加载Notion文件</td></tr><tr><td>Obsidian</td><td>一个笔记软件</td></tr><tr><td>Unstructured ODT Loader</td><td>加载OpenOffice文件</td></tr><tr><td>Pandas DataFrame</td><td>Pandas表格型数据结构</td></tr><tr><td>PDF</td><td>加载pdf文件</td></tr><tr><td>ReadTheDocs Documentation</td><td>一个在线文档平台</td></tr><tr><td>Reddit</td><td>一个社交新闻网站</td></tr><tr><td>Roam</td><td>一个个人笔记产品</td></tr><tr><td>Sitemap</td><td>网站地图</td></tr><tr><td>Slack</td><td>一个聊天群组产品</td></tr><tr><td>Spreedly</td><td>一个支付平台</td></tr><tr><td>Stripe</td><td>一个支付平台</td></tr><tr><td>Subtitle</td><td>一个字幕制作平台</td></tr><tr><td>Telegram</td><td>聊天软件</td></tr><tr><td>TOML</td><td>一种配置文件</td></tr><tr><td>Twitter</td><td></td></tr><tr><td>Unstructured File</td><td>Unstructured文件</td></tr><tr><td>URL</td><td>通过url加载内容</td></tr><tr><td>WebBaseLoader</td><td>基础的web加载器</td></tr><tr><td>WhatsApp Chat</td><td>WhatsApp聊天</td></tr><tr><td>Wikipedia</td><td>加载Wikipedia内容</td></tr><tr><td>YouTube transcripts</td><td>加载YouTube视频</td></tr></tbody></table>

### 文档分割器

1. [动态演示: 不同文档分割类，不同参数的影响](https://langchain-text-splitter.streamlit.app)
2. [Text_Splitter 示例](https://github.com/sugarforever/LangChain-Tutorials/blob/main/LangChain_TextSplitter.ipynb)

> * 由于模型对输入的**字符长度有限制**，很长的文本，需要把文本分割成多个小的文本片段。<br>
> * 整体的原则是把**语义相关**的文本片段放在一起。**不能仅仅按字数切分**

> LangChain中最基本的文本分割器是CharacterTextSplitter ，<br>
> 它按照指定的分隔符（默认“\n\n”）进行分割，并且考虑文本片段的最大长度。<br>
> **我们看个例子**

In [52]:
from langchain.text_splitter import CharacterTextSplitter


text_splitter = CharacterTextSplitter(        
    separator = "\\n\\n",
    chunk_size = 1000,
    chunk_overlap  = 200,
    length_function = len,
)

texts = text_splitter.create_documents([documents[-1].page_content])

In [53]:
texts

[Document(page_content='垂直领域大模型是指在特定的领域或行业中经过训练和优化的大型语言模型。与通用语言模型相比，垂直领域大模型更专注于某个特定领域的知识和技能，具备更高的领域专业性和实用性。\n与通用大模型相比，垂直领域大模型具有以下优势和劣势：\n优势：\n领域专业性：垂直领域大模型经过专门的训练，能够更好地理解和处理特定领域的知识、术语和上下文。\n高质量输出：由于在特定领域中进行了优化，垂直领域大模型在该领域的输出质量通常比通用大模型更高。\n特定任务效果更好：对于特定领域的任务，垂直领域大模型通常比通用大模型表现更好。\n劣势：\n数据需求和训练成本：垂直领域大模型需要大量的特定领域数据进行训练，这可能会面临数据收集和标注的挑战。\n适应性限制：垂直领域大模型在特定领域中的适应性较强，但在其他领域的表现可能相对较弱。\n更新和维护成本：由于特定领域的知识和要求经常变化，垂直领域大模型需要定期更新和维护，以保持与最新发展的同步。\n下面介绍几个知名度较高的垂直领域大模型，涉及教育、金融、医学、法律四个领域。\nMathGPT 教育大模型\n学而思正在进行自研数学大模型的研发，命名为MathGPT。面向全球数学爱好者和科研机构，以数学领域的解题和讲题算法为核心。据透露，MathGPT将先从中小学数学做起，逐步覆盖全年龄学段和解题种类。\n目前已经取得阶段性成果，并将于年内推出基于该自研大模型的产品级应用。\nBloombergGPT 金融大模型\n近期根据彭博社报告显示，其构建迄今为止最大的特定领域数据集，并训练了专门用于金融领域的LLM，开发了拥有500亿参数的语言模型—BloombergGPT。\nBloombergGPT 和 GPT模式一样，也是基于 Transformer架构的，采用的是译码器的技术路线。通过比较， BloombergGPT模型参数为500亿，在GPT-2 (1.5亿)和GPT-3 (1750亿)之间。Bloomberg构建了目前规模最大的金融数据集 FINPILE，通过对通用文本+金融知识的混合训练，使得 BloombergGPT在执行金融任务方面的表现超过了现有的通用 LLM模型，而在通用场景方面的表现则与现有的通用 LLM模型基本持平。', metadata={})]

> 又变回了Document数组。<br>
> 少了`\n\n`

LangChain还支持多个高级文本分割器

<table data-draft-node="block" data-draft-type="table" data-size="normal" data-row-style="normal"><tbody><tr><th>文本分割器</th><th></th></tr><tr><td>LatexTextSplitter</td><td>沿着Latex标题、标题、枚举等分割文本。</td></tr><tr><td>MarkdownTextSplitter</td><td>沿着Markdown的标题、代码块或水平规则来分割文本。</td></tr><tr><td>NLTKTextSplitter</td><td>使用NLTK的分割器</td></tr><tr><td>PythonCodeTextSplitter</td><td>沿着Python类和方法的定义分割文本。</td></tr><tr><td>RecursiveCharacterTextSplitter</td><td>用于通用文本的分割器。它以一个字符列表为参数，尽可能地把所有的段落（然后是句子，然后是单词）放在一起</td></tr><tr><td>SpacyTextSplitter</td><td>使用Spacy的分割器</td></tr><tr><td>TokenTextSplitter</td><td>根据openAI的token数进行分割</td></tr></tbody></table>

### VectorStores

In [54]:
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.text_splitter import CharacterTextSplitter
from langchain.vectorstores import Chroma

In [59]:
with open('./input/1.txt') as f:
    state_of_the_union = f.read()
text_splitter = CharacterTextSplitter(chunk_size=100, chunk_overlap=0)
texts = text_splitter.split_text(state_of_the_union)

Created a chunk of size 140, which is longer than the specified 100
Created a chunk of size 166, which is longer than the specified 100
Created a chunk of size 113, which is longer than the specified 100
Created a chunk of size 106, which is longer than the specified 100
Created a chunk of size 170, which is longer than the specified 100
Created a chunk of size 292, which is longer than the specified 100
Created a chunk of size 311, which is longer than the specified 100


In [60]:
texts

['北京大学创办于1898年，是戊戌变法的产物，也是中华民族救亡图存、兴学图强的结果，初名京师大学堂，是中国近现代第一所国立综合性大学，辛亥革命后，于1912年改为现名。',
 '在悠久的文明历程中，古代中国曾创立太学、国子学、国子监等国家最高学府，在中国和世界教育史上具有重要影响。北京大学“上承太学正统，下立大学祖庭”，既是中华文脉和教育传统的传承者，也标志着中国现代高等教育的开端。其创办之初也是国家最高教育行政机关，对建立中国现代学制作出重要历史贡献。',
 '作为新文化运动的中心和五四运动的策源地，作为中国最早传播马克思主义和民主科学思想的发祥地，作为中国共产党最初的重要活动基地，北京大学为民族的振兴和解放、国家的建设和发展、社会的文明和进步做出了突出贡献，在中国走向现代化的进程中起到了重要的先锋作用。爱国、进步、民主、科学的精神和勤奋、严谨、求实、创新的学风在这里生生不息、代代相传。',
 '1917年，著名教育家蔡元培就任北京大学校长，他“循思想自由原则，取兼容并包主义”，对北京大学进行了卓有成效的改革，促进了思想解放和学术繁荣。陈独秀、李大钊、毛泽东以及鲁迅、胡适、李四光等一批杰出人士都曾在北京大学任教或任职。',
 '1937年卢沟桥事变后，北京大学与清华大学、南开大学南迁长沙，共同组成国立长沙临时大学。1938年，临时大学又西迁昆明，更名为国立西南联合大学。抗日战争胜利后，北京大学于1946年10月在北平复员。',
 '中华人民共和国成立后，全国高校于1952年进行院系调整，北京大学成为一所以文理基础教学和研究为主、兼有前沿应用学科的综合性大学，为社会主义建设事业培养了大批杰出人才，在23位“两弹一星”元勋中有12位北大校友。',
 '改革开放以来，北京大学进入了稳步快速发展的新时期，于1994年成为国家“211工程”首批重点建设大学。1998年5月4日，在庆祝北京大学建校一百周年大会上，党中央发出了“为了实现现代化，我国要有若干所具有世界先进水平的一流大学”的号召，之后启动了建设世界一流大学的“985工程”。在这一国家战略的支持和推动下，北京大学的发展翻开了新的一页。',
 '2000年4月3日，北京大学与原北京医科大学合并，组建了新的北京大学。原北京医科大学的前身是创建于1912年10月26日的国立北京医学专门学校， 1903年京师大学堂设立的医

In [61]:
len(texts)

10

> pip install chromadb

In [62]:
# 生成embedding，并建索引
embeddings = OpenAIEmbeddings()
docsearch = Chroma.from_texts(texts, embeddings)

In [63]:
# 查询
query = "1937年北京大学发生了什么？"
docs = docsearch.similarity_search(query)
print(docs)

[Document(page_content='1937年卢沟桥事变后，北京大学与清华大学、南开大学南迁长沙，共同组成国立长沙临时大学。1938年，临时大学又西迁昆明，更名为国立西南联合大学。抗日战争胜利后，北京大学于1946年10月在北平复员。', metadata={}), Document(page_content='北京大学创办于1898年，是戊戌变法的产物，也是中华民族救亡图存、兴学图强的结果，初名京师大学堂，是中国近现代第一所国立综合性大学，辛亥革命后，于1912年改为现名。', metadata={}), Document(page_content='1917年，著名教育家蔡元培就任北京大学校长，他“循思想自由原则，取兼容并包主义”，对北京大学进行了卓有成效的改革，促进了思想解放和学术繁荣。陈独秀、李大钊、毛泽东以及鲁迅、胡适、李四光等一批杰出人士都曾在北京大学任教或任职。', metadata={}), Document(page_content='中华人民共和国成立后，全国高校于1952年进行院系调整，北京大学成为一所以文理基础教学和研究为主、兼有前沿应用学科的综合性大学，为社会主义建设事业培养了大批杰出人才，在23位“两弹一星”元勋中有12位北大校友。', metadata={})]


In [64]:
docs.__len__()

4

LangChain支持的VectorStore如下:

<table data-draft-node="block" data-draft-type="table" data-size="normal" data-row-style="normal"><tbody><tr><th>VectorStore</th><th>介绍</th></tr><tr><td>AnalyticDB</td><td>阿里云自主研发的云原生数据仓库</td></tr><tr><td>Annoy</td><td>一个带有Python bindings的C ++库，用于搜索空间中给定查询点的近邻点。</td></tr><tr><td>AtlasDB</td><td>一个非结构化数据集平台</td></tr><tr><td>Chroma</td><td>一个开源嵌入式数据库</td></tr><tr><td>Deep Lake</td><td>多模向量存储，可以存储嵌入及其元数据，包括文本、jsons、图像、音频、视频等。</td></tr><tr><td>DocArrayHnswSearch</td><td>一个轻量级的文档索引实现</td></tr><tr><td>DocArrayInMemorySearch</td><td>一个由Docarray提供的文档索引，将文档存储在内存中</td></tr><tr><td>ElasticSearch</td><td>ElasticSearch</td></tr><tr><td>FAISS</td><td>Facebook AI相似性搜索服务</td></tr><tr><td>LanceDB</td><td>一个用于向量搜索的开源数据库，它采用持久性存储</td></tr><tr><td>Milvus</td><td>用于存储、索引和管理由深度神经网络和其他机器学习（ML）模型产生的大量嵌入向量的数据库</td></tr><tr><td>MyScale</td><td>一个基于云的数据库，为人工智能应用和解决方案而优化</td></tr><tr><td>OpenSearch</td><td>一个可扩展的、灵活的、可延伸的开源软件套件，用于搜索、分析和可观察性应用</td></tr><tr><td>PGVector</td><td>一个用于Postgres的开源向量相似性搜索服务</td></tr><tr><td>Pinecone</td><td>一个具有广泛功能的向量数据库</td></tr><tr><td>Qdrant</td><td>一个向量相似性搜索引擎</td></tr><tr><td>Redis</td><td>基于redis的检索器</td></tr><tr><td>SupabaseVectorStore</td><td>一个开源的Firebase 替代品，提供一系列后端功能</td></tr><tr><td>Tair</td><td>一个Key/Value结构数据的解决方案</td></tr><tr><td>Weaviate</td><td>一个开源的向量搜索引擎</td></tr><tr><td>Zilliz</td><td>数据处理和分析平台</td></tr></tbody></table>

### 检索器

> 检索器是一种**便于模型查询**的存储数据的方法<br>
> LangChain约定检索器组件至少有一个方法get_relevant_texts，这个方法接收查询字符串，返回一组文档

In [66]:
from langchain.document_loaders import TextLoader
from langchain.text_splitter import CharacterTextSplitter
from langchain.vectorstores import FAISS
from langchain.embeddings import OpenAIEmbeddings

In [80]:
loader = TextLoader('./input/1.txt')
documents = loader.load()

documents = loader.load()
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
texts = text_splitter.split_documents(documents)

In [81]:
texts

[Document(page_content='北京大学创办于1898年，是戊戌变法的产物，也是中华民族救亡图存、兴学图强的结果，初名京师大学堂，是中国近现代第一所国立综合性大学，辛亥革命后，于1912年改为现名。\n\n在悠久的文明历程中，古代中国曾创立太学、国子学、国子监等国家最高学府，在中国和世界教育史上具有重要影响。北京大学“上承太学正统，下立大学祖庭”，既是中华文脉和教育传统的传承者，也标志着中国现代高等教育的开端。其创办之初也是国家最高教育行政机关，对建立中国现代学制作出重要历史贡献。\n\n作为新文化运动的中心和五四运动的策源地，作为中国最早传播马克思主义和民主科学思想的发祥地，作为中国共产党最初的重要活动基地，北京大学为民族的振兴和解放、国家的建设和发展、社会的文明和进步做出了突出贡献，在中国走向现代化的进程中起到了重要的先锋作用。爱国、进步、民主、科学的精神和勤奋、严谨、求实、创新的学风在这里生生不息、代代相传。\n\n1917年，著名教育家蔡元培就任北京大学校长，他“循思想自由原则，取兼容并包主义”，对北京大学进行了卓有成效的改革，促进了思想解放和学术繁荣。陈独秀、李大钊、毛泽东以及鲁迅、胡适、李四光等一批杰出人士都曾在北京大学任教或任职。\n\n1937年卢沟桥事变后，北京大学与清华大学、南开大学南迁长沙，共同组成国立长沙临时大学。1938年，临时大学又西迁昆明，更名为国立西南联合大学。抗日战争胜利后，北京大学于1946年10月在北平复员。\n\n\n中华人民共和国成立后，全国高校于1952年进行院系调整，北京大学成为一所以文理基础教学和研究为主、兼有前沿应用学科的综合性大学，为社会主义建设事业培养了大批杰出人才，在23位“两弹一星”元勋中有12位北大校友。\n\n改革开放以来，北京大学进入了稳步快速发展的新时期，于1994年成为国家“211工程”首批重点建设大学。1998年5月4日，在庆祝北京大学建校一百周年大会上，党中央发出了“为了实现现代化，我国要有若干所具有世界先进水平的一流大学”的号召，之后启动了建设世界一流大学的“985工程”。在这一国家战略的支持和推动下，北京大学的发展翻开了新的一页。', metadata={'source': './input/1.txt'}),
 Document(page_content='2000年4月3

In [82]:
texts.__len__()

2

In [83]:
embeddings = OpenAIEmbeddings()
db = FAISS.from_documents(texts, embeddings)
retriever = db.as_retriever()
docs = retriever.get_relevant_documents("为中国共产党最初的重要活动基地，北京大学为民族的振兴和解放、国家的建设和发展、社会的文明和进步做出了突出贡献，在中国走向现代化的进程中起到了重要的先锋作用。爱国、进步、民主、科学的精神和勤奋、严谨、求实、创新的学风在这里生生不息、代代相传")

In [84]:
docs

[Document(page_content='北京大学创办于1898年，是戊戌变法的产物，也是中华民族救亡图存、兴学图强的结果，初名京师大学堂，是中国近现代第一所国立综合性大学，辛亥革命后，于1912年改为现名。\n\n在悠久的文明历程中，古代中国曾创立太学、国子学、国子监等国家最高学府，在中国和世界教育史上具有重要影响。北京大学“上承太学正统，下立大学祖庭”，既是中华文脉和教育传统的传承者，也标志着中国现代高等教育的开端。其创办之初也是国家最高教育行政机关，对建立中国现代学制作出重要历史贡献。\n\n作为新文化运动的中心和五四运动的策源地，作为中国最早传播马克思主义和民主科学思想的发祥地，作为中国共产党最初的重要活动基地，北京大学为民族的振兴和解放、国家的建设和发展、社会的文明和进步做出了突出贡献，在中国走向现代化的进程中起到了重要的先锋作用。爱国、进步、民主、科学的精神和勤奋、严谨、求实、创新的学风在这里生生不息、代代相传。\n\n1917年，著名教育家蔡元培就任北京大学校长，他“循思想自由原则，取兼容并包主义”，对北京大学进行了卓有成效的改革，促进了思想解放和学术繁荣。陈独秀、李大钊、毛泽东以及鲁迅、胡适、李四光等一批杰出人士都曾在北京大学任教或任职。\n\n1937年卢沟桥事变后，北京大学与清华大学、南开大学南迁长沙，共同组成国立长沙临时大学。1938年，临时大学又西迁昆明，更名为国立西南联合大学。抗日战争胜利后，北京大学于1946年10月在北平复员。\n\n\n中华人民共和国成立后，全国高校于1952年进行院系调整，北京大学成为一所以文理基础教学和研究为主、兼有前沿应用学科的综合性大学，为社会主义建设事业培养了大批杰出人才，在23位“两弹一星”元勋中有12位北大校友。\n\n改革开放以来，北京大学进入了稳步快速发展的新时期，于1994年成为国家“211工程”首批重点建设大学。1998年5月4日，在庆祝北京大学建校一百周年大会上，党中央发出了“为了实现现代化，我国要有若干所具有世界先进水平的一流大学”的号召，之后启动了建设世界一流大学的“985工程”。在这一国家战略的支持和推动下，北京大学的发展翻开了新的一页。', metadata={'source': './input/1.txt'}),
 Document(page_content='2000年4月3

> 怎么都返回了啊... relevant 就是都返回？

> LangChain支持的检索器组件如下

<table data-draft-node="block" data-draft-type="table" data-size="normal" data-row-style="normal"><tbody><tr><th>检索器</th><th>介绍</th></tr><tr><td>Azure Cognitive Search Retriever</td><td>Amazon ACS检索服务</td></tr><tr><td>ChatGPT Plugin Retriever</td><td>ChatGPT检索插件</td></tr><tr><td>Self-querying retriever with Chroma</td><td>基于Chroma VectorStore包装</td></tr><tr><td>Cohere Reranker</td><td>使用Cohere对结果二次重排</td></tr><tr><td>Contextual Compression Retriever</td><td>根据上下文对结果过滤</td></tr><tr><td>Databerry</td><td>Databerry检索</td></tr><tr><td>ElasticSearch BM25</td><td>ElasticSearch检索器</td></tr><tr><td>kNN Retriever</td><td>kNN检索器</td></tr><tr><td>Metal</td><td>Metal检索器</td></tr><tr><td>Pinecone Hybrid Search</td><td>Pinecone检索服务</td></tr><tr><td>Self-querying retriever</td><td></td></tr><tr><td>SVM Retriever</td><td>SVM检索器</td></tr><tr><td>TF-IDF Retriever</td><td>TF-IDF检索器</td></tr><tr><td>Time Weighted VectorStore Retriever</td><td>带有时间权重的检索器，检索时结合语义相似度和最近访问时间</td></tr><tr><td>VectorStore Retriever</td><td>VectorStore检索器</td></tr><tr><td>Vespa retriever</td><td>一个支持结构化文本和向量搜索的平台</td></tr><tr><td>Weaviate Hybrid Search</td><td>一个开源的向量搜索引擎</td></tr><tr><td>Wikipedia</td><td>支持wikipedia内容检索</td></tr></tbody></table>

## 项目-产品客服助手

InstructGPT（2022 年 1 月）是一系列 GPT-3 模型（包括 text-davinci-001、text-davinci-002 和 text-davinci-003）统称，

In [23]:
llm = OpenAI(temperature=0)

In [25]:
llm('iphone15发布时间?')

'\n\niPhone 15发布时间尚未确定，预计将于2021年9月发布。'

> 这里它确实不知道， 真实的发布时间是2023年9月份

> 注意：以下是我们伪造的数据，我**Iphone15预计发布日期是2023年9月份， 尺寸预计是6.1-6.7**

In [17]:
!cat ./input/iphone14.txt

iPhone 15是苹果公司（Apple）于2022年9月8日发布的手机产品。
iPhone 15搭载1.1英寸OLED屏幕，配有蓝色，紫色，午夜色，星光色，红色、黄色六款颜色，长度约146.7mm、宽度约71.5mm、厚度约7.8mm、重量约172g。
iPhone 15搭载苹果A15六核处理器，支持车祸检测、卫星通信等功能，后置摄像头为1200万像素主镜头+1200万像素超广角镜头，前置摄像头为1200万像素，支持光像引擎、深度融合技术、智能HDR4、人像模式等功能。
iPhone 15搭载1.1英寸刘海屏，机身采用航空级铝金属设计，搭载超视网膜XDR屏幕，机身正面顶部分别为内置立体声扬声器、内置麦克风；机身右侧为侧边按钮键，左侧分别为响铃/静音键、音量增/减键，机身底部分别是、内置麦克风、内置立体声扬声器、闪电接口。

In [3]:
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.document_loaders import TextLoader
from langchain.text_splitter import CharacterTextSplitter
from langchain.vectorstores import Chroma
from langchain.chains import RetrievalQAWithSourcesChain
from langchain import OpenAI
from langchain.callbacks import get_openai_callback

In [4]:
loader = TextLoader('./input/iphone14.txt', encoding='utf8')
documents = loader.load()

text_splitter = CharacterTextSplitter(separator='\n', chunk_size=100, chunk_overlap=0)
texts = text_splitter.split_documents(documents)

Created a chunk of size 110, which is longer than the specified 100


In [5]:
len(texts)

4

In [6]:
!cat ./input/iphone14.txt

iPhone 15是苹果公司（Apple）于2022年9月8日发布的手机产品。
iPhone 15搭载1.1英寸OLED屏幕，配有蓝色，紫色，午夜色，星光色，红色、黄色六款颜色，长度约146.7mm、宽度约71.5mm、厚度约7.8mm、重量约172g。
iPhone 15搭载苹果A15六核处理器，支持车祸检测、卫星通信等功能，后置摄像头为1200万像素主镜头+1200万像素超广角镜头，前置摄像头为1200万像素，支持光像引擎、深度融合技术、智能HDR4、人像模式等功能。
iPhone 15搭载1.1英寸刘海屏，机身采用航空级铝金属设计，搭载超视网膜XDR屏幕，机身正面顶部分别为内置立体声扬声器、内置麦克风；机身右侧为侧边按钮键，左侧分别为响铃/静音键、音量增/减键，机身底部分别是、内置麦克风、内置立体声扬声器、闪电接口。

In [7]:
texts

[Document(page_content='iPhone 15是苹果公司（Apple）于2022年9月8日发布的手机产品。', metadata={'source': './input/iphone14.txt'}),
 Document(page_content='iPhone 15搭载1.1英寸OLED屏幕，配有蓝色，紫色，午夜色，星光色，红色、黄色六款颜色，长度约146.7mm、宽度约71.5mm、厚度约7.8mm、重量约172g。', metadata={'source': './input/iphone14.txt'}),
 Document(page_content='iPhone 15搭载苹果A15六核处理器，支持车祸检测、卫星通信等功能，后置摄像头为1200万像素主镜头+1200万像素超广角镜头，前置摄像头为1200万像素，支持光像引擎、深度融合技术、智能HDR4、人像模式等功能。', metadata={'source': './input/iphone14.txt'}),
 Document(page_content='iPhone 15搭载1.1英寸刘海屏，机身采用航空级铝金属设计，搭载超视网膜XDR屏幕，机身正面顶部分别为内置立体声扬声器、内置麦克风；机身右侧为侧边按钮键，左侧分别为响铃/静音键、音量增/减键，机身底部分别是、内置麦克风、内置立体声扬声器、闪电接口。', metadata={'source': './input/iphone14.txt'})]

In [8]:
[{"source": str(i)} for i in range(len(texts))]

[{'source': '0'}, {'source': '1'}, {'source': '2'}, {'source': '3'}]

In [9]:
embeddings = OpenAIEmbeddings()
docsearch = Chroma.from_documents(texts, embeddings, metadatas=[{"source": str(i)} for i in range(len(texts))])

In [10]:
retriever = docsearch.as_retriever()
retriever.search_kwargs['distance_metric'] = 'cos'
retriever.search_kwargs['fetch_k'] = 2
retriever.search_kwargs['maximal_marginal_relevance'] = True
retriever.search_kwargs['k'] = 1        #  返回几个文档

In [11]:
llm = OpenAI(temperature=0)

In [12]:
chain = RetrievalQAWithSourcesChain.from_chain_type(llm, chain_type="stuff", retriever=retriever, verbose=True, return_source_documents=True)

In [15]:
chain({'question': 'iphone15发布时间'})



[1m> Entering new  chain...[0m

[1m> Finished chain.[0m


{'question': 'iphone15发布时间',
 'answer': ' The iPhone 15 will be released on September 8, 2022.\n',
 'sources': './input/iphone14.txt',
 'source_documents': [Document(page_content='iPhone 15是苹果公司（Apple）于2022年9月8日发布的手机产品。', metadata={'source': './input/iphone14.txt'})]}

> **知识库生效了**: 它根据知识库，答对了。（虽然答案是伪造的， 但证明了知识库可以弥补原模型知识时间范围的不足)

In [16]:
questions = [
    'iphone15有什么颜色？',
    '屏幕是多大的？',
]
chat_history = []

for question in questions:
    with get_openai_callback() as cb:
        result = chain({"question": question})
        chat_history.append((question, result['answer']))
        print(f"-> **Question**: {question} \n")
        print(f"**Answer**: {result['answer']} \n")
    print(cb)



[1m> Entering new  chain...[0m

[1m> Finished chain.[0m
-> **Question**: iphone15有什么颜色？ 

**Answer**:  The iPhone 15 comes in six colors: blue, purple, midnight, starlight, red, and yellow.
 

Tokens Used: 1712
	Prompt Tokens: 1676
	Completion Tokens: 36
Successful Requests: 1
Total Cost (USD): $0.03424


[1m> Entering new  chain...[0m

[1m> Finished chain.[0m
-> **Question**: 屏幕是多大的？ 

**Answer**:  The screen size of the iPhone 15 is 1.1 inches.
 

Tokens Used: 1697
	Prompt Tokens: 1670
	Completion Tokens: 27
Successful Requests: 1
Total Cost (USD): $0.03394


> 有没有觉得API费用很恐怖, 多轮问答所有history都要一起输入的。