下面是对使用LangChain进行信息提取链的步骤逐步解释，每个步骤后都有详细的说明和必要的类比，帮助更好地理解。

### 1. 设置环境

#### 1.1 安装LangChain
你需要先安装LangChain库。可以使用以下命令通过pip或conda进行安装：
```bash
pip install langchain
```
或者
```bash
conda install langchain -c conda-forge
```

这种安装步骤类似于你在厨房准备做饭，首先需要确保所有的工具和食材都准备好。

### 2. 定义Schema（模式）

#### 2.1 使用Pydantic定义Schema
你需要定义一个模式（schema），描述你想从文本中提取的信息。这就像设计一个模具，告诉机器要提取哪些具体的信息。以下是一个示例，用于提取个人信息：
```python
from typing import Optional
from langchain_core.pydantic_v1 import BaseModel, Field

class Person(BaseModel):
    name: Optional[str] = Field(default=None, description="The name of the person")
    hair_color: Optional[str] = Field(default=None, description="The color of the person's hair")
    height_in_meters: Optional[str] = Field(default=None, description="Height measured in meters")
```

这里的`Optional`表示这个字段是可选的，这样模型在没有足够信息时可以返回`None`，而不是编造一个值。

一种容易理解的方式描述，也许可以使用日常类比：
想象一下你在填写一个表格，这个表格有多个字段，例如名字、发色和身高。如果你不知道某个字段的信息，你可以留空。这里的模式就像是这个表格的模板。

### 3. 创建提取器

#### 3.1 定义提示模板（Prompt Template）
提示模板告诉语言模型如何提取信息。我们使用以下代码来定义一个简单的提示模板：
```python
from langchain_core.prompts import ChatPromptTemplate
from langchain_openai import ChatOpenAI

prompt = ChatPromptTemplate.from_messages([
    ("system", "You are an expert extraction algorithm. Extract relevant information from the text. If an attribute is unknown, return null."),
    ("human", "{text}")
])
```

这种提示模板类似于给机器下达一个明确的任务指令：你是一个信息提取专家，从文本中提取相关信息，如果某个属性未知，就返回空值。

一种容易理解的方式描述，也许可以使用日常类比：
想象你是一个调查员，老板告诉你：“如果你在调查中遇到某些信息，不确定的话就不要乱填，直接标注为空。”

#### 3.2 创建可运行对象（Runnable）
使用上面的提示模板和语言模型来创建一个可运行的提取器：
```python
llm = ChatOpenAI(model="gpt-4", temperature=0)
runnable = prompt | llm.with_structured_output(schema=Person)
```

这里的`runnable`表示一个可以运行的链条，结合了提示模板和语言模型。

### 4. 调用链条

#### 4.1 测试提取链条
提供一些文本并调用链条进行测试：
```python
text = "Alan Smith is 6 feet tall and has blond hair."
result = runnable.invoke({"text": text})
print(result)
# Output: Person(name='Alan Smith', hair_color='blond', height_in_meters='1.8288')
```

这里我们输入了一些文本，并使用我们定义的链条进行信息提取。结果是一个`Person`对象，包含提取的信息。

一种容易理解的方式描述，也许可以使用日常类比：
这就像是你向一个智能助手描述一个人，并让它告诉你这个人的详细信息。

### 5. 提取多个实体

#### 5.1 定义嵌套模式
为了提取多个实体，可以使用嵌套模型。以下是一个示例：
```python
from typing import List

class Data(BaseModel):
    people: List[Person]

runnable = prompt | llm.with_structured_output(schema=Data)
text = "Jeff has black hair and is 6 feet tall. Anna has the same hair color."
result = runnable.invoke({"text": text})
print(result)
# Output: Data(people=[Person(name='Jeff', hair_color='black', height_in_meters='1.8288'), Person(name='Anna', hair_color='black', height_in_meters=None)])
```

这种嵌套模式允许提取多个实体的信息。

一种容易理解的方式描述，也许可以使用日常类比：
想象你在一个派对上遇到几个人，记下了每个人的名字和一些信息，现在你需要把这些信息整理成一个列表。

### 6. 提高性能

#### 6.1 使用参考示例
通过使用参考示例和最佳实践，可以提高提取质量。提供详细的文档和可选属性，以防止模型生成错误信息。

这种提高性能的步骤类似于在调查前先进行培训，确保调查员知道如何处理各种情况，以提高信息的准确性。

通过这些步骤，你可以使用LangChain构建一个强大的信息提取链条，自动从文本中提取结构化信息。

In [1]:
#!/usr/bin/env python
from typing import List

from fastapi import FastAPI
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser

from langserve import add_routes

# 1. Create prompt template
system_template = "Take a deep breath and let's work it out step by step to make sure we get the right answer.  If there's a perfect solution, I tip $200!，Translate the following into {language}:"
prompt_template = ChatPromptTemplate.from_messages(
    [("system", system_template), ("user", "{text}")]
)

# 2. Create model
"""For basic init and call"""
import os

from langchain_community.llms import QianfanLLMEndpoint

# Set environment variables for authentication
os.environ["QIANFAN_AK"] = "l9aif31SHOoS9qcQIF3zEevQ"
os.environ["QIANFAN_SK"] = "2YURLkXroE5VMZZOuyb7YXYNx7eoE4Yy"



model = QianfanLLMEndpoint(
    streaming=True,
    model="Yi-34B-Chat",
    endpoint="eb-instant",
)
res = model.invoke("hi")

print(res)

# 3. Create parser
parser = StrOutputParser()

# 4. Create chain
chain = prompt_template | model | parser


# 4. App definition
app = FastAPI(
  title="LangChain Server",
  version="1.0",
  description="A simple API server using LangChain's Runnable interfaces",
)

# 5. Adding chain route

add_routes(
    app,
    chain,
    path="/chain",
)

if __name__ == "__main__":
    import uvicorn

    uvicorn.run(app, host="localhost", port=1234)

[INFO][2024-07-13 22:16:29.629] oauth.py:228 [t:37696]: trying to refresh access_token for ak `l9aif3***`
[INFO][2024-07-13 22:16:30.162] oauth.py:243 [t:37696]: sucessfully refresh access_token


您好！您想让我做什么呢？我很乐意帮助您。请告诉我您的需求，我会尽力回答您的问题。


RuntimeError: asyncio.run() cannot be called from a running event loop