In [2]:
import json

In [1]:
from typing import Union, List
from langchain.output_parsers import PydanticOutputParser
from pydantic import BaseModel, Field


class CLSResult(BaseModel):
    """
    文本分类结果
    """

    reason: str = Field(description="分类原因")
    label: Union[str, List[str]] = Field(
        description="分类结果，可以是字符串或字符串列表"
    )


parser = PydanticOutputParser(pydantic_object=CLSResult)
# parser.invoke(cleaned)

In [4]:
datas = [
    {
        "reason": "根据文本内容和上下文分析，得出结论",
        "label": ["体育", "篮球"],
    },
    {
        "reason": "根据文本内容和上下文分析，得出结论",
        "label": "体育",
    },
]

In [5]:
datas_str = [
    json.dumps(d, ensure_ascii=False)  # 确保中文字符不被转义
    for d in datas
]

In [6]:
datas_str

['{"reason": "根据文本内容和上下文分析，得出结论", "label": ["体育", "篮球"]}',
 '{"reason": "根据文本内容和上下文分析，得出结论", "label": "体育"}']

In [13]:
parser.invoke("```json\n{}\n```".format(datas_str[1]))

CLSResult(reason='根据文本内容和上下文分析，得出结论', label='体育')

In [14]:
parser.invoke("```\n{}\n```".format(datas_str[1]))

CLSResult(reason='根据文本内容和上下文分析，得出结论', label='体育')

In [19]:
parser.invoke("```    \n\n\n \n\n{}\n\n\n\n   ```".format(datas_str[0]))

CLSResult(reason='根据文本内容和上下文分析，得出结论', label=['体育', '篮球'])

In [21]:
parser.invoke("the bottom is the answer```    \n\n\n \n\n{}\n\n\n\n   ```".format(datas_str[0]))

CLSResult(reason='根据文本内容和上下文分析，得出结论', label=['体育', '篮球'])

In [23]:
parser.invoke("answer is that: ```    \n\n\n \n\n{}\n\n\n\n   ```".format(datas_str[1]))

CLSResult(reason='根据文本内容和上下文分析，得出结论', label='体育')

In [24]:
parser.invoke(datas_str[1])

CLSResult(reason='根据文本内容和上下文分析，得出结论', label='体育')