# 输出解析器的使用

## 1. 字符串输出解析器 StrOutputParser


In [2]:
import os

import dotenv
from langchain_core.output_parsers import StrOutputParser, JsonOutputParser, XMLOutputParser
from langchain_core.prompts import ChatPromptTemplate

from langchain_openai import ChatOpenAI

# 调用非对话模型:
# llms = OpenAI(...)

dotenv.load_dotenv() # 加载当前目录下的.env文件

os.environ["ARK_API_KEY"] = os.getenv("ARK_API_KEY")
os.environ["MODEL"] = os.getenv("MODEL")
os.environ["BASE_URL"] = os.getenv("BASE_URL")


# 调用对话模型:
chat_model =  ChatOpenAI(
    model_name=os.environ['MODEL'],
    base_url=os.environ['BASE_URL'],
    api_key=os.environ['ARK_API_KEY']
)

response = chat_model.invoke("什么是大语言模型？")

print(type(response))

# 如何获得一个字符串的输出结果呢？
# 方式一: 自己调用输出结果的content
print(response.content)


print("===========================================")
# 方式二: 使用StrOutputParser
parser = StrOutputParser()
str_response = parser.invoke(response)
print(type(str_response))
print(str_response)

<class 'langchain_core.messages.ai.AIMessage'>
大语言模型（Large Language Model）是一类基于深度学习技术、具有大量参数的人工智能模型，旨在学习语言的统计规律和语义信息，从而能够处理和生成自然语言文本。以下从技术原理、训练过程、特点、应用场景几个方面为你详细介绍：

### 技术原理
大语言模型通常基于Transformer架构，这是一种采用自注意力机制（Self-attention mechanism）的深度学习架构，它能够让模型在处理输入序列时，动态地关注序列中不同位置的元素之间的关系，从而捕捉长距离依赖关系，更好地理解语言的上下文信息。

### 训练过程
- **数据收集**：需要在大规模的文本数据上进行训练，这些数据来源广泛，包括互联网上的各种文本、书籍、新闻文章、社交媒体内容等。
- **预训练**：使用无监督学习方法，让模型学习文本中的语言模式和统计规律。最常见的任务是掩码语言模型（Masked Language Model，MLM）和下一句预测（Next Sentence Prediction，NSP）等。
- **微调**：在预训练的基础上，使用特定领域的有标签数据对模型进行微调，以适应具体的任务，如问答系统、文本生成、机器翻译等。

### 特点
- **大规模参数**：大语言模型包含数十亿甚至数万亿个参数。更多的参数使得模型能够学习到更复杂、更丰富的语言模式和知识，从而在各种语言任务中表现出更好的性能。
- **强大的语言理解和生成能力**：能够理解输入文本的语义和上下文信息，并根据这些信息生成连贯、有逻辑的文本输出。可以完成多种自然语言处理任务，如文本摘要、对话生成、知识问答等。
- **泛化能力强**：经过大规模数据的训练，大语言模型具有较强的泛化能力，能够处理各种领域和主题的文本，适应不同的任务需求。

### 应用场景
- **智能客服**：可以自动回答用户的问题，提供常见问题的解决方案，提高客户服务效率。
- **内容创作**：帮助撰写文章、故事、诗歌等，为创作者提供灵感和辅助。
- **机器翻译**：实现不同语言之间的自动翻译，促进跨语言的交流和沟通。
- **智能写作辅助**：检查语法错误、提供词汇建议、优化句子结构等，提升写作质量。
<class 'str'>
大语

## 2. JSON解析器 JsonOutputParser

### 方式一:

In [5]:
import os
import dotenv
from langchain_openai import ChatOpenAI
from langchain_core. prompts. chat import ChatPromptTemplate
from langchain_core. output_parsers. json import JsonOutputParser

dotenv.load_dotenv() # 加载当前目录下的.env文件

# 调用对话模型:
chat_model =  ChatOpenAI(
    model_name=os.getenv('MODEL'),
    base_url=os.getenv('BASE_URL'),
    api_key=os.getenv('ARK_API_KEY'),
)

chat_prompt_template = ChatPromptTemplate.from_messages([("system", "你是一个靠谱的{role}"), ("human", "{question}")])

prompt = chat_prompt_template.invoke(
    input={"role": "人工智能专家", "question": "人工智能用英文怎么说?问题用q表示,答案用a表示，返回一个JSON格式的数据"})

response = chat_model.invoke(prompt)

parser = JsonOutputParser()
json_result = parser.invoke(response)
print(json_result)


{'q': '人工智能用英文怎么说?', 'a': 'Artificial Intelligence，缩写为AI'}


In [7]:
import os
import dotenv
from langchain_openai import ChatOpenAI
from langchain_core. prompts. chat import ChatPromptTemplate
from langchain_core. output_parsers. json import JsonOutputParser

dotenv.load_dotenv() # 加载当前目录下的.env文件

# 调用对话模型:
chat_model =  ChatOpenAI(
    model_name=os.getenv('MODEL'),
    base_url=os.getenv('BASE_URL'),
    api_key=os.getenv('ARK_API_KEY'),
)

chat_prompt_template = ChatPromptTemplate.from_messages([("system", "你是一个靠谱的{role}"), ("human", "{question}")])

parser = JsonOutputParser()

chain = chat_prompt_template | chat_model | parser

json_result = chain.invoke(input={"role": "人工智能专家", "question": "人工智能用英文怎么说?问题用q表示,答案用a表示，返回一个JSON格式的数据"})
print(json_result)


{'q': '人工智能用英文怎么说', 'a': '人工智能常见的英文表达是Artificial Intelligence，缩写为AI。'}


方式二:

In [6]:
from langchain_core.prompts import PromptTemplate
import os
import dotenv
from langchain_openai import ChatOpenAI
from langchain_core. prompts. chat import ChatPromptTemplate
from langchain_core. output_parsers. json import JsonOutputParser

dotenv.load_dotenv() # 加载当前目录下的.env文件

# 调用对话模型:
chat_model =  ChatOpenAI(
    model_name=os.getenv('MODEL'),
    base_url=os.getenv('BASE_URL'),
    api_key=os.getenv('ARK_API_KEY'),
)

joke_query = "请告诉我一个笑话"


response = chat_model.invoke(prompt)

parser = JsonOutputParser()

prompt_template = PromptTemplate.from_template(
    template="回答用户的查询\n 满足的格式为{format_instructions}\n 问题为{question}\n",
    partial_variables={"format_instructions": parser.get_format_instructions()}, )

prompt = prompt_template.invoke(input={"question":joke_query})
response = chat_model.invoke(prompt)
json_result =  parser.invoke(response)
print(json_result)



{'joke': '小蚂蚁迷路找不到蚁窝，可着急了，恰好看到它的朋友经过，于是冲过去大喊一声：“哥们儿！你…你都如何回蚁窝（回忆我）？”那朋友一愣，然后反问道：“带……带……带着笑或是很沉默？”'}


In [8]:
from langchain_core.prompts import PromptTemplate
import os
import dotenv
from langchain_openai import ChatOpenAI
from langchain_core. prompts. chat import ChatPromptTemplate
from langchain_core. output_parsers. json import JsonOutputParser

dotenv.load_dotenv() # 加载当前目录下的.env文件

# 调用对话模型:
chat_model =  ChatOpenAI(
    model_name=os.getenv('MODEL'),
    base_url=os.getenv('BASE_URL'),
    api_key=os.getenv('ARK_API_KEY'),
)

joke_query = "请告诉我一个笑话"


response = chat_model.invoke(prompt)

parser = JsonOutputParser()

prompt_template = PromptTemplate.from_template(
    template="回答用户的查询\n 满足的格式为{format_instructions}\n 问题为{question}\n",
    partial_variables={"format_instructions": parser.get_format_instructions()}, )

chain = prompt_template | chat_model | parser

json_result = chain.invoke(input={"question":joke_query})

print(json_result)



{'joke': '小蚂蚁迷路找不到蚁窝，可着急了，恰好看到它的朋友经过，于是冲过去大喊一声：“哥们儿！你…你都如何回蚁窝（回忆我）？”那朋友一愣，然后反问道：“带……带……带着笑或是很沉默？”'}


## 3. XML解析器 XMLOutputParser

### 示例1:

In [10]:
import os
import dotenv

dotenv.load_dotenv()

chat_model = ChatOpenAI(
    model_name=os.getenv('MODEL'),
    base_url=os.getenv('BASE_URL'),
    api_key=os.getenv('ARK_API_KEY'),
)

actor_query = "周星驰的简短电影记录"
response = chat_model.invoke(f"请生成{actor_query},将影片附在<movie></movie>标签中,以xml的格式输出")

print(type(response))
print(response.content)


<class 'langchain_core.messages.ai.AIMessage'>
<?xml version="1.0" encoding="UTF-8"?>
<star_movies>
    <star>周星驰</star>
    <movie_record>周星驰是华语影坛极具影响力的演员、导演。他的电影风格独特，以无厘头喜剧著称，为观众带来众多经典作品。</movie_record>
    <movie>《大话西游之月光宝盒》</movie>
    <movie>《大话西游之大圣娶亲》</movie>
    <movie>《喜剧之王》</movie>
    <movie>《少林足球》</movie>
    <movie>《功夫》</movie>
</star_movies>


### 举例2:

In [12]:
from langchain_core. output_parsers. xml import XMLOutputParser

parser = XMLOutputParser()
print(parser.get_format_instructions())

The output should be formatted as a XML file.
1. Output should conform to the tags below.
2. If tags are not given, make them on your own.
3. Remember to always open and close all the tags.

As an example, for the tags ["foo", "bar", "baz"]:
1. String "<foo>
   <bar>
      <baz></baz>
   </bar>
</foo>" is a well-formatted instance of the schema.
2. String "<foo>
   <bar>
   </foo>" is a badly-formatted instance.
3. String "<foo>
   <tag>
   </tag>
</foo>" is a badly-formatted instance.

Here are the output tags:
```
None
```


使用parser.get_format_instructions()结构实现:

In [15]:
import os
import dotenv

dotenv.load_dotenv()

chat_model =  ChatOpenAI(
    model_name=os.getenv('MODEL'),
    base_url=os.getenv('BASE_URL'),
    api_key=os.getenv('ARK_API_KEY'),
)

actor_query = "生成汤姆·汉克斯的简短电影记录，使用中文回复"

parser = XMLOutputParser()

prompt_template1 =  PromptTemplate.from_template(
    template="用户的问题:{query}\n使用的格式:{format_instructions}",
)

prompt_template2 = prompt_template1.partial(format_instructions=parser.get_format_instructions())

response =  chat_model.invoke(prompt_template2.invoke(input={"query":actor_query}))

# print(response.content)

xml_result = parser.invoke(response)
print(xml_result)


{'电影记录': [{'演员': '汤姆·汉克斯'}, {'代表作列表': [{'代表作': [{'影片名': '《阿甘正传》'}, {'上映年份': '1994年'}, {'简介': '影片讲述了智商不高的阿甘的励志人生，汤姆·汉克斯凭借此片获奥斯卡最佳男主角奖。'}]}, {'代表作': [{'影片名': '《拯救大兵瑞恩》'}, {'上映年份': '1998年'}, {'简介': '以诺曼底登陆为背景，讲述了一支小分队拯救大兵瑞恩的故事，汉克斯的表演极具感染力。'}]}, {'代表作': [{'影片名': '《荒岛余生》'}, {'上映年份': '2000年'}, {'简介': '他饰演的查克因飞机失事被困荒岛，演绎了在孤岛上的生存奋斗。'}]}]}]}
