# 基于PEGASUS实现中文文本摘要

# 1 概述

文本摘要的目标是自动地将输入文本转换成简短摘要,为用户提供简明扼要的内容描述，是缓解文本信息过载的一个重要手段。 文本摘要也是自然语言生成领域中的一个重要任务，有很多应用场景，如新闻摘要、论文摘要、财报摘要、传记摘要、专利摘要、对话摘要、评论摘要、观点摘要、电影摘要、文章标题生成、商品名生成、自动报告生成、搜索结果预览等。

本项目是基于预训练语言模型PEGASUS的中文文本摘要产业实践，具有以下优势：

- **开箱即用**。本项目提供Taskflow接口，无需训练，仅需几行代码便可预测。
- **效果领先**。在LCSTS上效果达到SOTA。
- **高性能推理**。本项目基于[FasterGeneration](https://github.com/PaddlePaddle/PaddleNLP/tree/develop/faster_generation)进行推理加速，能够提供更高性能的推理体验。
- **训练推理全流程打通**。本项目提供了全面的定制训练流程，从数据准备、模型训练预测，到模型推理部署，一应俱全。（推理部署见：[PaddleNLP](https://github.com/PaddlePaddle/PaddleNLP/tree/develop/applications/text_summarization/pegasus)）
<br></br>


## 1.1 开箱即用
下面简单列举下几个场景的应用，包括并不限于以下场景。（需要参考3.3.2节安装下PaddleNLP）

In [5]:
!pip install paddlenlp>=2.3.4 --user

ERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
sahi 0.10.1 requires tqdm>=4.48.2, but you have tqdm 4.27.0 which is incompatible.


In [6]:
import paddlenlp
paddlenlp.__version__

'2.0.0'

In [None]:
from paddlenlp import Taskflow
summarizer = Taskflow("text_summarization")

#### 新闻摘要

In [None]:
text = '63岁退休教师谢淑华，拉着人力板车，历时1年，走了2万4千里路，带着年过九旬的妈妈环游中国，完成了妈妈“一辈子在锅台边转，也想出去走走”的心愿。她说：“妈妈愿意出去走走，我就愿意拉着，孝心不能等，能走多远就走多远。'
print(f'Content: {text}\n')
title = summarizer(text)
print(f'Title: {title[0]}')

#### 房地产摘要

In [None]:
text = '2022年，中国房地产进入转型阵痛期，传统“高杠杆、快周转”的模式难以为继，万科甚至直接喊话，中国房地产进入“黑铁时代”。'
print(f'Content: {text}\n')
title = summarizer(text)
print(f'Title: {title[0]}')

#### 教育摘要

In [None]:
text = '据悉，2022年教育部将围绕“巩固提高、深化落实、创新突破”三个关键词展开工作。要进一步强化学校教育主阵地作用，继续把落实“双减”作为学校工作的重中之重，重点从提高作业设计水平、提高课后服务水平、提高课堂教学水平、提高均衡发展水平四个方面持续巩固提高学校“双减”工作水平。'
print(f'Content: {text}\n')
title = summarizer(text)
print(f'Title: {title[0]}')

#### 影评摘要

In [None]:
text = '其次，《唐朝诡事录》每个单元的故事，都可独立成为一部“电影”观看，且质感极佳。这一点，“甘棠驿”、“黄梅杀”、“石桥图”三个单元尤其明显，不管从故事的布局 还是“氛围感”来说，虽说不上特别惊艳，但是却让 人能看见该剧的满满诚意。'
print(f'Content: {text}\n')
title = summarizer(text)
print(f'Title: {title[0]}')

#### 论文摘要

In [None]:
text = '综述了人工神经网络FPGA实现的研究进展和关键技术，分析了如何利用FPGA的可重构技术来实现人工神经网络，探讨了实现过程中的一些问题，并介绍了作为神经网络FPGA实现的基础一可重构技术。指出测试平台设计、软件工具、FPGA友好学习算法及拓扑结构自适应等方面的研究，是今后研究的热点。'
print(f'Content: {text}\n')
title = summarizer(text)
print(f'Title: {title[0]}')

#### 医疗摘要

In [None]:
text = '党参有降血脂，降血压的作用，可以彻底消除血液中的垃圾，从而对冠心病以及心血管疾病的患者都有一定的稳定预防工作作用，因此平时口服党参能远离三高的危害。另外党参除了益气养血，降低中枢神经作用，调整消化系统功能，健脾补肺的功能。'
print(f'Content: {text}\n')
title = summarizer(text)
print(f'Title: {title[0]}\n')

text = '肾结石一般在0.6以下的是药物排石,常用的药物如肾石通颗粒,对症药物等.大于0.6以上的是体外冲击波碎石,大于2.0以上的可以手术治疗.建议你到医院的泌尿外科进行仔细检查,查明原因,及时治疗.肾结石一粒直径大于1CM就很难通过药物排出来.可以做碎石治疗,如果高于1CM,可以用中药的排石汤,抗菌素和对症治疗.当前先解决疼痛,稳定情绪,稳定体质.平时需发生改变饮食结构和习惯,建议多做剧烈运动或多饮水。'
print(f'Content: {text}\n')
title = summarizer(text)
print(f'Title: {title[0]}')

#### 法律摘要

In [None]:
text = '过户流程为，现场竞买成功后，买受人应立即支付成交价一定比例的款项作为定金，并在拍卖行协助>下与委托人签订拍卖房地产转让合同书。买受人再支付全部价款后，凭转让合同书和相关证明文件到房地产登记机关办理产权过户手续，取得房地产权证。房屋司法拍卖流程一、接受拍卖委托在这一阶段，委托人将有意要拍卖的房产明确委托给拍卖行，双方签订委托房产拍卖协议，对委托拍卖的标的物达成基本意向。委托人在委托时一般要想拍卖行提供房地产权证、身份证等相关房产证明文件。二、拍卖房产标的的调查确认拍卖行对房产委托人提供的房地产产权证明、有关文件、房产证明材料等进一步核实，必要时到相关部门调查取证，同时还必须对房产进行现场勘查。三、接受委托、签订委托、拍卖合同书经调查确认后，拍卖行认为符合拍卖委托条件的，与委托人签订委托拍卖合同。委托拍卖必须符合《拍卖法》的要求。委托拍卖合同中要对拍卖房地产的情况、拍卖费用、拍卖方式和期限、违约责任等加以明确。四、房地产拍卖底价的确定拍卖行对房地产市场进行调查与分析，必要时请专业的房地产估价人员对拍卖房地产进行价格评估，与委托方共同商谈，后确定拍卖底价和起拍价。五、发布拍卖公告，组织接待竞买人拍卖行一般要在拍卖日前半个月至一个月前登报或通过电视媒体以公告形式发布拍卖房地产的信息，拍卖行要对公告的内容真实性负责。同时，组织接待竞买人，向竞买人提供资料，审查竞买人资格，收取保证金，完成竞买人登记。'
print(f'Content: {text}\n')
title = summarizer(text)
print(f'Title: {title[0]}')

从上述场景来看，综合效果还是不错的。Taskflow底层调用的模型是IDEA-CCNL/Randeng-Pegasus-523M-Summary-Chinese，该模型在多个中文摘要数据集进行训练，在中文摘要上取得了非常好的效果。

如果针对自己的特有领域或者效果不太好的时候，也可以增加语料，在该模型上进行微调，可以参考本项目第3节进行实操。

## 1.2 效果领先
<center><image src="https://ai-studio-static-online.cdn.bcebos.com/815edff4d9ef45d59b8a7857b3b4cdccf5eb7bd1f4de46609a1d75df6fbddc13" width="600"></center>

<center><br>图1 中文摘要模型效果对比 <sup>1</sup> </br></center>
<br></br>
从上图可以看出最后Randeng-Pegasus的两个模型效果都挺不错，523M已然最优。

* 上述实验指标摘自t5-pegasus和CPM以及IDEA-CCNL的代码和论文。
<br></br>
<br></br>

## 1.3 高性能推理
<center><image src="https://ai-studio-static-online.cdn.bcebos.com/5ddd34d217ff4fcb9d47926c9469fb631da00910fc3144f18cc45e3e00896778" width="700"></center>
    
<center><br>图2 PEGASUS加速效果对比 <sup></sup> </br></center>

从上图可以看出，搭载了[FasterGeneration](https://github.com/PaddlePaddle/PaddleNLP/tree/develop/faster_generation) 后，相较于Hugging Face的推理来看，我们的PEGASUS模型在FP16下加速比近20倍，FP32下加速远超10倍。（完整超参见[perf](https://github.com/PaddlePaddle/PaddleNLP/tree/develop/faster_generation)）

因此，在本章节中，我们将介绍PEGASUS模型，并提供中文摘要的SOTA模型。

# 2. PEGASUS模型解读
[PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization](https://arxiv.org/abs/1912.08777) 是Google在2020年ICML会议上提出的工作。它针对文本摘要任务设计了无监督预训练任务（Gap Sentence Generation，简称GSG），即随机遮盖文档中的几个完整句子，让模型生成被遮盖的句子。该预训练任务能够很好地与实际地文本摘要任务匹配，从而使得预训练后的模型经过简单的微调后达到较好的摘要生成效果。
<center><image src="https://ai-studio-static-online.cdn.bcebos.com/75da5c32588242e09d919d87549bd39c6526020dacf546ab8cc9580f4c75eb3a" width="800"></center>

<center><br>图3 PEGASUS架构 <sup></sup> </br></center>
<br></br>

# 3. 案例与实践：基于PEGASUS实现中文文本摘要

## 3.1 方案设计

本实践设计方案如 **3** 所示，本摘要的目的是从输入文档中生成准确和简洁的摘要。将content和title输入到模型中，通过decoder得到输出，并和title计算交叉熵损失，最后迭代训练优化得到最优模型。

<br></br>
<center><img src="https://ai-studio-static-online.cdn.bcebos.com/d350ce3a937c45efa8cfc7b8e078b66eecc4b4d1e7554852bfc86045a5fe3996" width='900px'></center>
<center><br>图4 PEGASUS文本摘要 方案设计 </br></center>


## 3.2 实现流程

1. **数据读取**：读取训练集、验证集数据；
2. **模型构建**：设计基于PEGASUS的文本摘要模型；
3. **训练配置**：实例化模型，配置超参，指定模型迭代的优化算法；
4. **模型训练和评估**：执行多轮训练不断调整参数，以达到较好的效果；
5. **模型推理**：选取一条文本数据，通过模型推理出生成结果。

## 3.3 实践详细实现 

### 3.3.1 数据集介绍 

[LCSTS（A Large-Scale Chinese Short Text Summarization Dataset）](http://icrc.hitsz.edu.cn/Article/show/139.html), 中文短文本摘要数据集。数据来源于新浪微博。

LCSTS任选一条数据，示意如下：

> {"title": "世界首款智能牙刷Kolibree：让你远离蛀牙", "content": "在物联网爆发的年代，几乎任何东西都是“连接的“，昨天在CES上出现了世界第一款电动牙刷，能够通过内置的传感器自动分析用户的刷牙习惯，每次刷牙的时候它都能记录相关的刷牙数据，让大家的蛀牙少一些！"}

上面是1条样本，每条样本都是一行jsonline，content为内容，title为对应的摘要。

### 3.3.2 数据读取

安装并导入依赖库

In [8]:
!pip install rouge==1.0.1 -i https://pypi.tuna.tsinghua.edu.cn/simple
!pip install paddlenlp==2.4.2 -i https://pypi.tuna.tsinghua.edu.cn/simple

from IPython.display  import clear_output
clear_output()
print("环境安装成功！请重启内核！！")

环境安装成功！请重启内核！！


# Right start

pip install paddlenlp==2.4.2 -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install datasets --user
pip install rouge

In [1]:
import os
import json
import argparse
import random
import time
import distutils.util
from pprint import pprint
from functools import partial
from tqdm import tqdm
import numpy as np
import math
from datasets import load_dataset
import contextlib
from rouge import Rouge
from visualdl import LogWriter

import paddle
import paddle.nn as nn
from paddle.io import BatchSampler, DistributedBatchSampler, DataLoader
from paddlenlp.transformers import PegasusForConditionalGeneration, PegasusChineseTokenizer
from paddlenlp.transformers import LinearDecayWithWarmup
from paddlenlp.utils.log import logger
from paddlenlp.metrics import BLEU
from paddlenlp.data import DataCollatorForSeq2Seq



In [5]:
from importlib import reload

In [2]:
import paddlenlp
paddlenlp.__version__

'2.4.2'

### 3.3.2 准备数据

In [3]:
# 通过load_dataset读取本地数据集：train.json和valid.json
train_dataset = load_dataset("json", data_files='train.json', split="train")
dev_dataset = load_dataset("json", data_files='valid.json', split="train")

Using custom data configuration default-34899e956fe68ef6


Downloading and preparing dataset json/default to /home/aistudio/.cache/huggingface/datasets/json/default-34899e956fe68ef6/0.0.0/0f7e3662623656454fcd2b650f34e886a7db4b9104504885bd462096cc7a9f51...


Downloading data files:   0%|          | 0/1 [00:00<?, ?it/s]

Extracting data files:   0%|          | 0/1 [00:00<?, ?it/s]

Generating train split: 0 examples [00:00, ? examples/s]

Dataset json downloaded and prepared to /home/aistudio/.cache/huggingface/datasets/json/default-34899e956fe68ef6/0.0.0/0f7e3662623656454fcd2b650f34e886a7db4b9104504885bd462096cc7a9f51. Subsequent calls will reuse this data.


Using custom data configuration default-449716f3f5e4f3b0


Downloading and preparing dataset json/default to /home/aistudio/.cache/huggingface/datasets/json/default-449716f3f5e4f3b0/0.0.0/0f7e3662623656454fcd2b650f34e886a7db4b9104504885bd462096cc7a9f51...


Downloading data files:   0%|          | 0/1 [00:00<?, ?it/s]

Extracting data files:   0%|          | 0/1 [00:00<?, ?it/s]

Generating train split: 0 examples [00:00, ? examples/s]

Dataset json downloaded and prepared to /home/aistudio/.cache/huggingface/datasets/json/default-449716f3f5e4f3b0/0.0.0/0f7e3662623656454fcd2b650f34e886a7db4b9104504885bd462096cc7a9f51. Subsequent calls will reuse this data.


### 3.3.3 数据格式转换

创建Tokenizer，用于分词，将token映射成id。

### 3.3.4 模型构建

In [4]:
# 初始化分词器
tokenizer = PegasusChineseTokenizer.from_pretrained('IDEA-CCNL/Randeng-Pegasus-238M-Summary-Chinese')

# 初始化模型，也可以选择IDEA-CCNL/Randeng-Pegasus-523M-Summary-Chinese
model = PegasusForConditionalGeneration.from_pretrained('IDEA-CCNL/Randeng-Pegasus-238M-Summary-Chinese')

[2023-01-15 14:23:40,813] [    INFO] - Downloading https://bj.bcebos.com/paddlenlp/models/community/IDEA-CCNL/Randeng-Pegasus-238M-Summary-Chinese/vocab.txt and saved to /home/aistudio/.paddlenlp/models/IDEA-CCNL/Randeng-Pegasus-238M-Summary-Chinese
[2023-01-15 14:23:40,816] [    INFO] - Downloading vocab.txt from https://bj.bcebos.com/paddlenlp/models/community/IDEA-CCNL/Randeng-Pegasus-238M-Summary-Chinese/vocab.txt


100%|██████████| 365k/365k [00:00<00:00, 28.6MB/s]
[2023-01-15 14:23:40,938] [    INFO] - Downloading https://bj.bcebos.com/paddlenlp/models/community/IDEA-CCNL/Randeng-Pegasus-238M-Summary-Chinese/added_tokens.json and saved to /home/aistudio/.paddlenlp/models/IDEA-CCNL/Randeng-Pegasus-238M-Summary-Chinese
[2023-01-15 14:23:40,941] [    INFO] - Downloading added_tokens.json from https://bj.bcebos.com/paddlenlp/models/community/IDEA-CCNL/Randeng-Pegasus-238M-Summary-Chinese/added_tokens.json


100%|██████████| 2.00/2.00 [00:00<00:00, 1.70kB/s]
[2023-01-15 14:2

定义convert_example，将content和title文本映射成int类型的id，同时构造labels。

In [6]:
from aigc_pkg import prepare
reload(prepare)

<module 'prepare' from '/home/aistudio/prepare.py'>

In [20]:
# 原始字段需要移除
remove_columns = ['content', 'title']
# 文本的最大长度
max_source_length = 128
# 摘要的最大长度
max_target_length = 64

model_set = prepare.ModelSet(tokenizer, model)
prepare_config = prepare.AbstractPrepareConfig(text_column='content', target_column='title',
    max_source_length=max_source_length, max_target_length=max_target_length, min_target_length=0, batch_size=12)

prepare_tool = prepare.AbstractGenerationPrapare(model_set, prepare_config)

In [9]:
train_dataset, dev_dataset = prepare_tool.get_dataset(train_dataset, dev_dataset, remove_columns)



  0%|          | 0/11 [00:00<?, ?ba/s]

Building prefix dict from the default dictionary ...
Dumping model to file cache /tmp/jieba.cache
Loading model cost 0.798 seconds.
Prefix dict has been built successfully.


  0%|          | 0/2 [00:00<?, ?ba/s]

In [10]:
train_data_loader, dev_data_loader = prepare_tool.get_dataloader(train_dataset, dev_dataset)

In [11]:
# 输出训练集的前 3 条样本
for idx, example in enumerate(dev_dataset):
    if idx < 3:
        print(example) 

{'input_ids': [21465, 18183, 266, 11548, 784, 27036, 8236, 3399, 30561, 12058, 5661, 3968, 32020, 12058, 5661, 12848, 257, 2274, 27194, 30447, 2274, 32018, 29935, 2333, 13087, 297, 3399, 13909, 5663, 122, 119, 230, 8311, 30346, 42506, 33335, 5664, 123, 119, 309, 297, 17406, 5661, 3968, 7005, 309, 21535, 17406, 5664, 124, 119, 4566, 17539, 23372, 5661, 365, 7040, 11026, 5664, 125, 119, 19747, 25416, 28777, 5661, 3968, 7005, 12350, 297, 1], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], 'labels': [784, 27036, 18984, 11565, 30561, 12058, 1]}
{'input_ids': [43156, 1625, 36562, 810, 8311, 16475, 48063, 1626, 15849, 175, 1397, 1463, 346, 20039, 7136, 176, 5661, 32012, 297, 30447, 314, 1101, 1240, 1230, 527, 4628, 5661, 24631, 1101, 129, 1625, 807, 5661, 323, 48063, 230, 8486, 3399, 4585, 1497, 2305, 4054, 1934,

### 3.3.7 训练配置

In [23]:
from aigc_pkg import generator
reload(generator)

<module 'generator' from '/home/aistudio/generator.py'>

### 3.3.8 模型训练和评估

In [24]:
gen_config = generator.AbstractGeneratorConfig(
    # 学习率预热比例
    warmup = 0.02,
    # 学习率
    learning_rate = 5e-5,
    # 训练轮次
    num_epochs = 3,
    # AdamW优化器参数epsilon
    adam_epsilon = 1e-6,
    # AdamW优化器参数weight_decay
    weight_decay=0.01,
    # 训练中，每个log_steps打印一次日志
    log_steps = 1,
    # 训练中，每隔eval_steps进行一次模型评估
    eval_steps = 1000,
    # 摘要的最小长度
    min_target_length = 0,
    # 训练模型保存路径
    output_dir = 'checkpoints',
    # 解码beam size
    num_beams = 4,
    log_dir = 'visualdl_log_dir'
)

gen = generator.AbstractGenerator(train_data_loader, dev_data_loader, model_set, prepare_config, gen_config)

In [25]:
# 调用模型训练
gen.train()

[2023-01-15 14:32:26,318] [    INFO] - global step 1/2667, epoch: 0, batch: 0, rank_id: 0, loss: 3.237796, lr: 0.0000009434, speed: 0.0760 step/s
[2023-01-15 14:32:40,075] [    INFO] - global step 2/2667, epoch: 0, batch: 1, rank_id: 0, loss: 2.796072, lr: 0.0000018868, speed: 0.0727 step/s
[2023-01-15 14:32:51,719] [    INFO] - global step 3/2667, epoch: 0, batch: 2, rank_id: 0, loss: 2.651275, lr: 0.0000028302, speed: 0.0859 step/s
[2023-01-15 14:33:03,124] [    INFO] - global step 4/2667, epoch: 0, batch: 3, rank_id: 0, loss: 2.818508, lr: 0.0000037736, speed: 0.0877 step/s
[2023-01-15 14:33:15,048] [    INFO] - global step 5/2667, epoch: 0, batch: 4, rank_id: 0, loss: 1.986750, lr: 0.0000047170, speed: 0.0839 step/s
[2023-01-15 14:33:26,122] [    INFO] - global step 6/2667, epoch: 0, batch: 5, rank_id: 0, loss: 2.711296, lr: 0.0000056604, speed: 0.0903 step/s
[2023-01-15 14:33:37,672] [    INFO] - global step 7/2667, epoch: 0, batch: 6, rank_id: 0, loss: 1.960042, lr: 0.00000

KeyboardInterrupt: 

### 3.3.9 模型推理

In [27]:
# 加载训练好的模型
model = PegasusForConditionalGeneration.from_pretrained('checkpoints')
model.eval()
tokenizer = PegasusChineseTokenizer.from_pretrained('checkpoints')

In [28]:
# 推理
text = '在北京冬奥会自由式滑雪女子坡面障碍技巧决赛中，中国选手谷爱凌夺得银牌。祝贺谷爱凌！今天上午，自由式滑雪女子坡面障碍技巧决赛举行。决赛分三轮进行，取选手最佳成绩排名决出奖牌。第一跳，中国选手谷爱凌获得69.90分。在12位选手中排名第三。完成动作后，谷爱凌又扮了个鬼脸，甚是可爱。第二轮中，谷爱凌在道具区第三个障碍处失误，落地时摔倒。获得16.98分。网友：摔倒了也没关系，继续加油！在第二跳失误摔倒的情况下，谷爱凌顶住压力，第三跳稳稳发挥，流畅落地！获得86.23分！此轮比赛，共12位选手参赛，谷爱凌第10位出场。网友：看比赛时我比谷爱凌紧张，加油！'
gen.infer(text, text_column='input_ids', decode_strategy='beam_search')

冬奥会自由式滑雪女子坡面障碍技巧谷爱凌摘银


完整项目（包括推理部署）见：[https://github.com/PaddlePaddle/PaddleNLP/blob/develop/applications/text_summarization/pegasus](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/applications/text_summarization/pegasus)
<br></br>

![](https://ai-studio-static-online.cdn.bcebos.com/ae5787c7f5ac42b3992e2f4bf5f8fc4e0b35c1df59924a94a908b66741147792)


请点击[此处](https://ai.baidu.com/docs#/AIStudio_Project_Notebook/a38e5576)查看本环境基本用法.  <br>
Please click [here ](https://ai.baidu.com/docs#/AIStudio_Project_Notebook/a38e5576) for more detailed instructions. 