# summarization 内容总结

我们可以通过 LLM 大预言模型的能力，提供一组文档，如 PDF、网页、长文本等，然后让 LLM 总结出其中的内容

## 使用 Gemini 模型

接下来主要演示使用 Google 的 Gemini 模型来执行文档的摘要提取和内容总结

配置 api_key

In [2]:
%env GOOGLE_API_KEY=AIzaSyAfpe3G_tTSVl0WpSuaX0_bHry3tkrjydQ

env: GOOGLE_API_KEY=AIzaSyAfpe3G_tTSVl0WpSuaX0_bHry3tkrjydQ


如果无法访问 api，可以配置 endpoint

In [3]:
%env GOOGLE_API_ENDPOINT=ai.goi.oowan.net

env: GOOGLE_API_ENDPOINT=ai.goi.oowan.net


构建 llm 模型配置

In [4]:
import os
from langchain_google_genai import GoogleGenerativeAI

llm = GoogleGenerativeAI(model="gemini-pro", temperature=0, google_api_key=os.environ['GOOGLE_API_KEY'], transport="rest", client_options={"api_endpoint": os.environ['GOOGLE_API_ENDPOINT']})

## 提供网页的方式

使用 WebBaseLoader 可以加载一个网页内容

In [18]:
from langchain.chains.summarize import load_summarize_chain
from langchain_community.document_loaders import WebBaseLoader

# 加载页面
loader = WebBaseLoader("https://baike.baidu.com/item/%E6%B1%A4%E6%B4%AA%E6%B3%A2/57276112")

docs = loader.load()

chain = load_summarize_chain(llm, chain_type="stuff")

res = chain.invoke(docs, return_only_outputs=True)

print(
    res["output_text"]
)


Tang Hongbo, a Chinese astronaut, was selected for the second batch of Chinese astronauts in 2010. He was part of the Shenzhou XII mission in 2021, becoming the first astronaut to return to the Chinese space station. In 2023, he was appointed commander of the Shenzhou XVII mission, making him the astronaut with the shortest interval between space missions and the longest cumulative time in space (215 days as of February 26, 2024). Tang's journey from a rural student to an astronaut highlights his hard work, dedication, and the support of his family and colleagues.


由于模型本身默认使用英文，所以运行后可以看到总结的内容是英文的，我们可以通过使用 prompt 模型的方式来改变输出为中文的，具体可参考下一个小节

## 提供 PDF 的方式

使用 PyMuPDFLoader 可以加载一个本地的 PDF 文档，并加入自定义的 prompt 模版，最终使用中文输出内容

In [None]:
# 安装 pymupdf
%pip install pymupdf

In [17]:
from langchain_community.document_loaders import PyMuPDFLoader
from langchain.prompts import PromptTemplate

# 加载 PDF
loader = PyMuPDFLoader("example_data/202402.00097v1.pdf")

docs = loader.load()

prompt_template = """Write a concise bullet point summary of the following:

{text}

Concise summary in Chinese:"""

BULLET_POINT_PROMPT = PromptTemplate(template=prompt_template,
                        input_variables=["text"])

chain = load_summarize_chain(llm, chain_type="stuff", prompt=BULLET_POINT_PROMPT)

res = chain.invoke(docs, return_only_outputs=True)

print(
    res["output_text"]
)

网络游戏成瘾者的情绪加工异常
常茜芮 何蔚祺
(辽宁师范大学脑与认知神经科学研究中心；辽宁省脑与认知神经科学重点实验室, 大连 116029)
摘  要  研究表明，网络游戏成瘾(IGD)个体对消极情绪刺激，尤其是愤怒情绪刺激存在
异常的加工偏向，而且 IGD 个体面对消极刺激会产生过高的情绪唤起并在调节消极情绪方面
出现困难，以上情绪加工能力的异常会在 IGD 的维持和发展中起到重要作用。同时，IGD 个
体情绪加工相关脑区也出现了异常，例如杏仁核、前扣带皮层、脑岛和部分前额叶皮层。未
来研究可以更多关注 IGD 的群体情绪加工、情绪加工的时间进程、有效提高 IGD 个体情绪
调节能力的方法以及 IGD 青少年的情绪加工问题。此外，也可以通过多样化地设置和呈现
情绪刺激来达到不同的研究目的，同时还需要考虑被试的性别比例以及被试长期和短期的情
绪状态对情绪加工研究结果的影响。 
关键词  网络游戏成瘾(IGD), 面孔表情, 情绪加工偏向, 情绪调节
