# summarization 内容总结

我们可以通过 LLM 大预言模型的能力，提供一组文档，如 PDF、网页、长文本等，然后让 LLM 总结出其中的内容

## 使用 Gemini 模型

接下来主要演示使用 Google 的 Gemini 模型来执行文档的摘要提取和内容总结

配置 api_key

In [8]:
%env GOOGLE_API_KEY=you-api-key

env: GOOGLE_API_KEY=AIzaSyAfpe3G_tTSVl0WpSuaX0_bHry3tkrjydQ


如果无法访问 api，可以配置 endpoint

In [9]:
%env GOOGLE_API_ENDPOINT=you-api-endpoint

env: GOOGLE_API_ENDPOINT=ai.goi.oowan.net


构建 llm 模型配置

In [20]:
import os
from langchain_google_genai import GoogleGenerativeAI

llm = GoogleGenerativeAI(model="gemini-pro", temperature=0, google_api_key=os.environ['GOOGLE_API_KEY'], transport="rest", client_options={"api_endpoint": os.environ['GOOGLE_API_ENDPOINT']})

### 提供网页的方式

使用 WebBaseLoader 可以加载一个网页内容，以下抓取的是百科上的一篇文章

In [5]:
from langchain.chains.summarize import load_summarize_chain
from langchain_community.document_loaders import WebBaseLoader

# 加载页面
loader = WebBaseLoader("https://baike.baidu.com/item/AIGC/59988381")

docs = loader.load()

chain = load_summarize_chain(llm, chain_type="stuff")

res = chain.invoke(docs, return_only_outputs=True)

print(
    res["output_text"]
)


Generative AI (AIGC) is a transformative technology that enables the creation of content through AI algorithms. It involves training models on vast datasets to generate new content that mimics human-generated work. AIGC has applications in text, image, audio, and video generation.

The AIGC industry structure consists of:
- Foundation models
- Industry/scenario models
- Business/domain models
- AI infrastructure
- AIGC support services

Key capabilities for AIGC include data, computing power, and algorithms. It has commercial applications in marketing, digital office, customer service, HR, and basic operations.

AIGC can be implemented through direct use, prompts, LoRA, fine-tuning, or training. Its business models include MaaS+IaaS, MaaS+PaaS, and MaaS+SaaS.

Challenges in AIGC development include:
- Incomplete legal frameworks
- Data element issues
- Technical confidentiality concerns

To address these challenges, measures such as legal access, data service industry chain management,

由于模型本身默认使用英文，所以运行后可以看到总结的内容是英文的，我们可以通过使用 prompt 模版的方式来改变输出为中文的，具体可参考下一个小节

### 提供 PDF 的方式

使用 PyMuPDFLoader 可以加载一个本地的 PDF 文档，并加入自定义的 prompt 模版，最终使用中文输出内容

In [None]:
# 安装 pymupdf
%pip install pymupdf

In [8]:
from langchain_community.document_loaders import PyMuPDFLoader
from langchain.prompts import PromptTemplate

# 加载 PDF
loader = PyMuPDFLoader("example_data/202402.00097v1.pdf")

docs = loader.load()

prompt_template = """Write a concise bullet point summary of the following:

{text}

Concise summary in Chinese:"""

BULLET_POINT_PROMPT = PromptTemplate(template=prompt_template,
                        input_variables=["text"])

chain = load_summarize_chain(llm, chain_type="stuff", prompt=BULLET_POINT_PROMPT)

res = chain.invoke(docs, return_only_outputs=True)

print(
    res["output_text"]
)

网络游戏成瘾者的情绪加工异常
常茜芮 何蔚祺
(辽宁师范大学脑与认知神经科学研究中心；辽宁省脑与认知神经科学重点实验室, 大连 116029)
摘  要  研究表明，网络游戏成瘾(IGD)个体对消极情绪刺激，尤其是愤怒情绪刺激存在
异常的加工偏向，而且 IGD 个体面对消极刺激会产生过高的情绪唤起并在调节消极情绪方面
出现困难，以上情绪加工能力的异常会在 IGD 的维持和发展中起到重要作用。同时，IGD 个
体情绪加工相关脑区也出现了异常，例如杏仁核、前扣带皮层、脑岛和部分前额叶皮层。未
来研究可以更多关注 IGD 的群体情绪加工、情绪加工的时间进程、有效提高 IGD 个体情绪
调节能力的方法以及 IGD 青少年的情绪加工问题。此外，也可以通过多样化地设置和呈现
情绪刺激来达到不同的研究目的，同时还需要考虑被试的性别比例以及被试长期和短期的情
绪状态对情绪加工研究结果的影响。 
关键词  网络游戏成瘾(IGD), 面孔表情, 情绪加工偏向, 情绪调节


### 链类型 refine map-reduce stuff 

我们以总结同一篇网页文档为例，对比一下它们之间的差别

In [28]:
from langchain_community.document_loaders import WebBaseLoader
from langchain.chains.summarize import load_summarize_chain
from langchain.prompts import PromptTemplate

# 加载页面
loader = WebBaseLoader("https://lilianweng.github.io/posts/2023-03-15-prompt-engineering/")

docs = loader.load()


**stuff** 一次行将所有内容输入给大模型

- 优点：只调用大模型一次，上下文信息完整
- 缺点：只适用于文本较短的场景，一般大模型都有 token 数据最长文本的限制，所以对于长文本不太适应这种模式

In [15]:
# 定义 prompt
prompt_template = """Write a concise summary of the following:

{text}

Concise summary in Chinese:"""
prompt = PromptTemplate(template=prompt_template, input_variables=["text"])

chain = load_summarize_chain(llm, chain_type="stuff", prompt=prompt)

res = chain.invoke(docs, return_only_outputs=True)

print(
    res["output_text"]
)

Retrying langchain_google_genai.llms._completion_with_retry.<locals>._completion_with_retry in 4.0 seconds as it raised InternalServerError: 500 POST https://ai.goi.oowan.net/v1beta/models/gemini-pro:generateContent?%24alt=json%3Benum-encoding%3Dint: An internal error has occurred. Please retry or report in https://developers.generativeai.google/guide/troubleshooting.


提示工程，又称上下文提示，是指与 LLM 沟通以引导其行为以获得所需结果的方法，而无需更新模型权重。它是一门经验科学，提示工程方法的效果在不同模型之间差异很大，因此需要大量的实验和启发式方法。
本文仅关注自回归语言模型的提示工程，因此不涉及完形填空测试、图像生成或多模态模型。提示工程的核心目标是关于对齐和模型可操纵性。查看我之前关于可控文本生成的文章。
[我个人的辛辣观点]在我看来，一些提示工程论文不值得写 8 页长，因为这些技巧可以用一两句话解释，剩下的都是基准测试。易于使用和共享的基准基础设施对社区更有益。迭代提示或外部工具的使用并不容易设置。社区也不容易统一采用它。


**map_reduce** 先将长文档分成一下小块，然后将每个小块调用大模型生成总结，最后再将分块生成的总结合并，生成基于全文的总结

- 优先：可以处理很长的文本
- 缺点：单次任务需要调用多次大模型，在文本合并的过程中可能有信息的丢失，不如 stuff 模型有完整的上下文信息

In [48]:
# 定义 prompt
prompt_template = """Write a concise summary of the following:

{text}

Concise summary in Chinese:"""
prompt = PromptTemplate(template=prompt_template, input_variables=["text"])

chain = load_summarize_chain(
    llm=llm, 
    chain_type="map_reduce", 
    map_prompt=prompt,
    combine_prompt=prompt,
    input_key="input_documents",
    output_key="output_text",
)

res = chain.invoke({"input_documents": docs}, return_only_outputs=True)

print(
    res["output_text"]
)

提示工程是一种通过与 LLM 沟通来引导其行为以获得所需结果的方法。它是一门经验科学，需要大量的实验和启发式方法。提示工程的核心目标是关于对齐和模型可操纵性。


**refine** 将长文本分成某些块，然后将第1个文本块生成总结，并且将总结内容和第2个文本块合并，依次类推最终生成整篇文章的文本总结

- 优先：这种合并方式比 map_reduce 要少丢失一些信息
- 缺点：需要调用大模型多次，而且对文本顺序有要求，每一个片段的总结需要依赖上一个片段的结果，因此每个片段生成总结的过程没法并行。任务整体变成了串行流程

In [35]:
# 定义 prompt
prompt_template = """Write a concise summary of the following:

{text}

Concise summary in Chinese:"""
prompt = PromptTemplate.from_template(prompt_template)

# 定义 refine prompt
refine_template = (
    "Your job is to produce a final summary\n"
    "We have provided an existing summary up to a certain point: {existing_answer}\n"
    "We have the opportunity to refine the existing summary"
    "(only if needed) with some more context below.\n"
    "------------\n"
    "{text}\n"
    "------------\n"
    "Given the new context, refine the original summary in Chinese"
    "If the context isn't useful, return the original summary."
)
refine_prompt = PromptTemplate.from_template(refine_template)

chain = load_summarize_chain(
    llm=llm,
    chain_type="refine",
    question_prompt=prompt,
    refine_prompt=refine_prompt,
    return_intermediate_steps=True,
    input_key="input_documents",
    output_key="output_text",
)

res = chain.invoke({"input_documents": docs}, return_only_outputs=True)

print(
    res["output_text"]
)

提示工程，又称上下文提示，是指与 LLM 沟通以引导其行为以获得所需结果的方法，而无需更新模型权重。它是一门经验科学，提示工程方法的效果在不同模型之间差异很大，因此需要大量的实验和启发式方法。
本文仅关注自回归语言模型的提示工程，因此不涉及完形填空测试、图像生成或多模态模型。提示工程的核心目标是关于对齐和模型可操纵性。查看我之前关于可控文本生成的文章。
[我个人的辛辣观点]在我看来，一些提示工程论文不值得写 8 页长，因为这些技巧可以用一两句话解释，剩下的都是基准测试。易于使用和共享的基准基础设施对社区更有益。迭代提示或外部工具的使用并不容易设置。社区也不容易统一采用它。
