# 如何从模型返回结构化数据 How to return structured data from a model

让模型返回与特定架构匹配的输出通常很有用。  
一个常见的用例是从文本中提取数据以插入数据库或与其他下游系统一起使用。  
本指南介绍了从模型获取结构化输出的几种策略。

## The .with_structured_output() method

这是获取结构化输出的最简单、最可靠的方法。  
with_structured_output() 是为提供用于结构化输出的本机 API 的模型实现的，例如工具/函数调用或 JSON 模式，并在后台使用这些功能。

此方法将模式作为输入，该模式指定所需输出属性的名称、类型和描述。  
该方法返回一个类似模型的 Runnable，不同之处在于它不是输出字符串或消息，而是输出与给定模式相对应的对象。  
可以将模式指定为 JSON Schema 或 Pydantic 类。  
如果使用 JSON Schema，则 Runnable 将返回一个字典，如果使用 Pydantic 类，则将返回 Pydantic 对象。

In [1]:
import os
from dotenv import load_dotenv,find_dotenv

_ = load_dotenv(find_dotenv())

In [2]:
from langchain_openai import ChatOpenAI

llm = ChatOpenAI(
    base_url="https://open.bigmodel.cn/api/paas/v4",
    api_key=os.environ["ZHIPUAI_API_KEY"],
    model="glm-4",
)

如果我们希望模型返回一个 Pydantic 对象，我们只需要传入所需的 Pydantic 类：

In [7]:
from typing import Optional
from langchain_core.pydantic_v1 import BaseModel,Field

class Joke(BaseModel):
    """告诉用户的笑话。"""
    setup: str = Field(description="笑话的铺垫")
    punchline: str = Field(description="笑话的妙语")
    rating:Optional[int] = Field(description="这个笑话能打几分，从 1 到 10")

structured_llm = llm.with_structured_output(Joke)

In [8]:
structured_llm.invoke("给我讲一个关于猫的笑话")

Joke(setup='为什么猫咪总是喜欢睡觉呢？', punchline='因为它们需要保持足够的精力去捉梦中的老鼠。', rating=None)

如果你不想使用 Pydantic，我们也可以传入 JSON Schema 字典。在这种情况下，响应也是一个字典：

In [16]:
json_schema = {
    "title": "笑话",
    "description": "告诉用户的笑话。",
    "type": "object",
    "properties": {
        "setup": {
            "type": "string",
            "description": "笑话的铺垫",
        },
        "punchline": {
            "type": "string",
            "description": "笑话的妙语",
        },
        "rating": {
            "type": "integer",
            "description": "这个笑话能打几分，从 1 到 10",
        },
    },
    "required": ["setup", "punchline"],
}

structured_llm = llm.with_structured_output(json_schema)

In [17]:
structured_llm.invoke("给我讲一个关于猫的笑话")

{'punchline': '因为它们是在梦里追老鼠啊！', 'setup': '为什么猫咪总是喜欢睡觉？'}

## 在多个模式之间进行选择
让模型从多个模式中进行选择的最简单方法是创建一个具有 Union-typed 属性的父 Pydantic 类：

In [36]:
from typing import Union

class ConversationalResponse(BaseModel):
    """用对话的方式回复。态度友善，乐于助人。"""

    resp:str = Field(description="对用户的对话作出响应")

class Response(BaseModel):
    output:Union[Joke,ConversationalResponse]

structured_llm = llm.with_structured_output(Response)

In [37]:
structured_llm.invoke("给我讲一个关于猫的笑话")

Response(output=Joke(setup='为什么猫咪总是喜欢把东西推下去？', punchline='因为它们是“推手”猫', rating=None))

In [39]:
res = structured_llm.invoke("今天吃了吗?")
print(res)

output=ConversationalResponse(resp='吃了，谢谢关心！你呢？')


## 小样本提示 Few-shot prompting
对于更复杂的模式，在提示中添加小样本示例非常有用。  
这可以通过几种方式完成。

最简单、最通用的方法是向提示中的系统消息添加示例：

In [43]:
from langchain_core.prompts import ChatPromptTemplate

system = """你是一位搞笑的喜剧演员。你的专长是敲门笑话。\
返回一个包含铺垫（对“谁在那里？”的响应）和最终妙语（对“<setup> 谁？”的响应）的笑话。

以下是一些笑话示例：
example_user：给我讲一个关于飞机的笑话
example_assistant：{{"setup": "飞机为什么永远不会累？", "punchline": "因为它们有休息翼！", "rating": 2}}

example_user：给我讲另一个关于飞机的笑话
example_assistant：{{"setup": "货物", "punchline": "货物‘嗡嗡嗡’，但飞机‘嗖嗖’！", "rating": 10}}

example_user：现在讲讲毛毛虫
example_assistant：{{"setup": "毛毛虫", "punchline": "毛毛虫真的很慢，但看我变成蝴蝶抢尽风头！", "rating": 5}}"""

prompt = ChatPromptTemplate.from_messages([
    ("system",system),
    ("human","{input}")
])

few_shot_structured_llm = prompt | structured_llm
few_shot_structured_llm.invoke("啄木鸟有什么好笑的？")

{'punchline': '啄木鸟会敲木头，而我只会敲门！', 'rating': 7, 'setup': '啄木鸟'}

### 指定构造输出的方法

对于支持多种结构化输出方式的模型（即它们同时支持工具调用和 JSON 模式），您可以使用 method= 参数指定要使用的方法。

In [51]:
structured_llm = llm.with_structured_output(Joke, method="json_mode")

res = structured_llm.invoke(
    "Tell me a joke about cats, respond in JSON with `setup` and `punchline` keys"
)

In [52]:
type(res)

__main__.Joke

In [55]:
res.setup

'Why was the cat sitting on the computer?'

In [56]:
res.punchline

'It wanted to keep an eye on the mouse!'

## 直接提示和解析模型

并非所有模型都支持 .with_structured_output()，因为并非所有模型都具有工具调用或 JSON 模式支持。  
对于此类模型，您需要直接提示模型使用特定格式，并使用输出解析器从原始模型输出中提取结构化响应。

### 使用 PydanticOutputParser
以下示例使用内置的 PydanticOutputParser 解析提示与给定的 Pydantic 模式匹配的聊天模型的输出。  
请注意，我们正在从解析器上的方法直接将 format_instructions 添加到提示中：

In [57]:
from typing import List

from langchain_core.output_parsers import PydanticOutputParser
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.pydantic_v1 import BaseModel, Field


class Person(BaseModel):
    """有关人员的信息."""

    name: str = Field(..., description="人员姓名")
    height_in_meters: float = Field(..., description="人员身高（以米为单位）")


class People(BaseModel):
    """识别文本中所有人物的信息。"""

    people: List[Person]


# Set up a parser
parser = PydanticOutputParser(pydantic_object=People)

# Prompt
prompt = ChatPromptTemplate.from_messages(
    [
        ("system","回答用户查询。将输出包装在 `json` 标签中\n{format_instructions}",),
        ("human", "{query}"),
    ]
).partial(format_instructions=parser.get_format_instructions())

In [59]:
query = "小红今年 23 岁，身高 6 英尺"

print(prompt.invoke(query).to_string())

System: 回答用户查询。将输出包装在 `json` 标签中
The output should be formatted as a JSON instance that conforms to the JSON schema below.

As an example, for the schema {"properties": {"foo": {"title": "Foo", "description": "a list of strings", "type": "array", "items": {"type": "string"}}}, "required": ["foo"]}
the object {"foo": ["bar", "baz"]} is a well-formatted instance of the schema. The object {"properties": {"foo": ["bar", "baz"]}} is not well-formatted.

Here is the output schema:
```
{"description": "\u8bc6\u522b\u6587\u672c\u4e2d\u6240\u6709\u4eba\u7269\u7684\u4fe1\u606f\u3002", "properties": {"people": {"title": "People", "type": "array", "items": {"$ref": "#/definitions/Person"}}}, "required": ["people"], "definitions": {"Person": {"title": "Person", "description": "\u6709\u5173\u4eba\u5458\u7684\u4fe1\u606f.", "type": "object", "properties": {"name": {"title": "Name", "description": "\u4eba\u5458\u59d3\u540d", "type": "string"}, "height_in_meters": {"title": "Height In Meters", "descrip

In [60]:
chain = prompt | llm | parser

chain.invoke({"query": query})

People(people=[Person(name='小红', height_in_meters=1.8288)])