# 情感分析预训练模型SKEP

本项目演示如何使用情感分析预训练模型SKEP完成千言数据集：情感分析七个数据集的比赛。本项目吸取了快递单信息识别作业、情感分析比赛baseline中的优点，再加上自己的改进，训练和预测自由度较高。
截止2021年6月23日23:50分，经过多模型集成学习，情感分析比赛排名为

![](https://ai-studio-static-online.cdn.bcebos.com/0c9da1c48be94d8fa36badd00c84feed0afb6cb83b9447029e7b68d21057370a)



In [None]:
#!git clone https://gitee.com/paddlepaddle/PaddleNLP.git

In [None]:
!unzip -oq /home/aistudio/data/data53469/NLPCC14-SC.zip -d data/
!unzip -oq /home/aistudio/data/data53469/SE-ABSA16_CAME.zip -d data/
!unzip -oq /home/aistudio/data/data53469/COTE-BD.zip -d data/
!unzip -oq /home/aistudio/data/data53469/COTE-DP.zip -d data/
!unzip -oq /home/aistudio/data/data53469/COTE-MFW.zip -d data/

In [None]:
!pip install --upgrade paddlenlp -i https://pypi.org/simple 

##  Part A. 情感分析任务

众所周知，人类自然语言中包含了丰富的情感色彩：表达人的情绪（如悲伤、快乐）、表达人的心情（如倦怠、忧郁）、表达人的喜好（如喜欢、讨厌）、表达人的个性特征和表达人的立场等等。情感分析在商品喜好、消费决策、舆情分析等场景中均有应用。利用机器自动分析这些情感倾向，不但有助于帮助企业了解消费者对其产品的感受，为产品改进提供依据；同时还有助于企业分析商业伙伴们的态度，以便更好地进行商业决策。

被人们所熟知的情感分析任务是将一段文本分类，如分为情感极性为**正向**、**负向**、**其他**的三分类问题：
<br></br>
<center><img src="https://ai-studio-static-online.cdn.bcebos.com/b630901b397e4e7a8e78ab1d306dfa1fc070d91015a64ef0b8d590aaa8cfde14" width="600" ></center>
<br><center>情感分析任务</center></br>

- **正向：** 表示正面积极的情感，如高兴，幸福，惊喜，期待等。
- **负向：** 表示负面消极的情感，如难过，伤心，愤怒，惊恐等。
- **其他：** 其他类型的情感。

实际上，以上熟悉的情感分析任务是**句子级情感分析任务**。


情感分析任务还可以进一步分为**句子级情感分析**、**目标级情感分析**等任务。在下面章节将会详细介绍两种任务及其应用场景。


## Part B. 情感分析预训练模型SKEP

近年来，大量的研究表明基于大型语料库的预训练模型（Pretrained Models, PTM）可以学习通用的语言表示，有利于下游NLP任务，同时能够避免从零开始训练模型。随着计算能力的发展，深度模型的出现（即 Transformer）和训练技巧的增强使得 PTM 不断发展，由浅变深。

情感预训练模型SKEP（Sentiment Knowledge Enhanced Pre-training for Sentiment Analysis）。SKEP利用情感知识增强预训练模型， 在14项中英情感分析典型任务上全面超越SOTA，此工作已经被ACL 2020录用。SKEP是百度研究团队提出的基于情感知识增强的情感预训练算法，此算法采用无监督方法自动挖掘情感知识，然后利用情感知识构建预训练目标，从而让机器学会理解情感语义。SKEP为各类情感分析任务提供统一且强大的情感语义表示。

**论文地址**：https://arxiv.org/abs/2005.05635

<p align="center">
<img src="https://paddlenlp.bj.bcebos.com/models/transformers/skep/skep.png" width="80%" height="60%"> <br />
</p>

百度研究团队在三个典型情感分析任务，句子级情感分类（Sentence-level Sentiment Classification），评价目标级情感分类（Aspect-level Sentiment Classification）、观点抽取（Opinion Role Labeling），共计14个中英文数据上进一步验证了情感预训练模型SKEP的效果。

具体实验效果参考：https://github.com/baidu/Senta#skep




## Part C 句子级情感分析 & 目标级情感分析

### Part C.1 句子级情感分析


对给定的一段文本进行情感极性分类，常用于影评分析、网络论坛舆情分析等场景。如:

```text
选择珠江花园的原因就是方便，有电动扶梯直接到达海边，周围餐馆、食廊、商场、超市、摊位一应俱全。酒店装修一般，但还算整洁。 泳池在大堂的屋顶，因此很小，不过女儿倒是喜欢。 包的早餐是西式的，还算丰富。 服务吗，一般	1
15.4寸笔记本的键盘确实爽，基本跟台式机差不多了，蛮喜欢数字小键盘，输数字特方便，样子也很美观，做工也相当不错	1
房间太小。其他的都一般。。。。。。。。。	0
```

其中`1`表示正向情感，`0`表示负向情感。


<br></br>
<center><img src="https://ai-studio-static-online.cdn.bcebos.com/4aae00a800ae4831b6811b669f7461d8482344b183454d8fb7d37c83defb9567" width="550" ></center>
<br><center>句子级情感分析任务</center></br>


#### 常用数据集

ChnSenticorp数据集是公开中文情感分析常用数据集， 其为2分类数据集。PaddleNLP已经内置该数据集，一键即可加载。



In [1]:
from paddlenlp.datasets import load_dataset
from paddlenlp.transformers import SkepForSequenceClassification, SkepTokenizer, SkepForTokenClassification
import os
from functools import partial
from paddlenlp.transformers import LinearDecayWithWarmup
import random
import numpy as np
import paddle
import paddle.nn.functional as F
from paddlenlp.data import Stack, Tuple, Pad

from utils import create_dataloader, convert_example, predict
from train import train_model
from data import load_my_dataset
def seed_paddle(seed=2021):
    seed = int(seed)
    random.seed(seed)
    os.environ['PYTHONHASHSEED'] = str(seed)
    np.random.seed(seed)
    paddle.seed(seed)

seed_paddle(seed=2021)

In [None]:
train_ds, dev_ds, test_ds = load_dataset("chnsenticorp", splits=["train", "dev", "test"])

print("train dataset length:", len(train_ds))
print("dev dataset length:", len(dev_ds))
print("test dataset length:", len(test_ds))
print(train_ds[0])
print(train_ds[1])
print(train_ds[2])

100%|██████████| 1909/1909 [00:00<00:00, 46823.58it/s]


train dataset length: 9600
dev dataset length: 1200
test dataset length: 1200
{'text': '选择珠江花园的原因就是方便，有电动扶梯直接到达海边，周围餐馆、食廊、商场、超市、摊位一应俱全。酒店装修一般，但还算整洁。 泳池在大堂的屋顶，因此很小，不过女儿倒是喜欢。 包的早餐是西式的，还算丰富。 服务吗，一般', 'label': 1, 'qid': ''}
{'text': '15.4寸笔记本的键盘确实爽，基本跟台式机差不多了，蛮喜欢数字小键盘，输数字特方便，样子也很美观，做工也相当不错', 'label': 1, 'qid': ''}
{'text': '房间太小。其他的都一般。。。。。。。。。', 'label': 0, 'qid': ''}



### SKEP模型加载

PaddleNLP已经实现了SKEP预训练模型，可以通过一行代码实现SKEP加载。

句子级情感分析模型是SKEP fine-tune 文本分类常用模型`SkepForSequenceClassification`。其首先通过SKEP提取句子语义特征，之后将语义特征进行分类。


![](https://ai-studio-static-online.cdn.bcebos.com/fc21e1201154451a80f32e0daa5fa84386c1b12e4b3244e387ae0b177c1dc963)




In [None]:
# 指定模型名称，一键加载模型
model = SkepForSequenceClassification.from_pretrained(pretrained_model_name_or_path="skep_ernie_1.0_large_ch", num_classes=len(train_ds.label_list))
# 同样地，通过指定模型名称一键加载对应的Tokenizer，用于处理文本数据，如切分token，转token_id等。
tokenizer = SkepTokenizer.from_pretrained(pretrained_model_name_or_path="skep_ernie_1.0_large_ch")

`SkepForSequenceClassification`可用于句子级情感分析和目标级情感分析任务。其通过预训练模型SKEP获取输入文本的表示，之后将文本表示进行分类。

* `pretrained_model_name_or_path`：模型名称。支持"skep_ernie_1.0_large_ch"，"skep_ernie_2.0_large_en"。
	- "skep_ernie_1.0_large_ch"：是SKEP模型在预训练ernie_1.0_large_ch基础之上在海量中文数据上继续预训练得到的中文预训练模型；
    - "skep_ernie_2.0_large_en"：是SKEP模型在预训练ernie_2.0_large_en基础之上在海量英文数据上继续预训练得到的英文预训练模型；
    
* `num_classes`: 数据集分类类别数。


关于SKEP模型实现详细信息参考：https://github.com/PaddlePaddle/PaddleNLP/tree/develop/paddlenlp/transformers/skep
    

### 数据处理

同样地，我们需要将原始ChnSentiCorp数据处理成模型可以读入的数据格式。

SKEP模型对中文文本处理按照字粒度进行处理，我们可以使用PaddleNLP内置的`SkepTokenizer`完成一键式处理。

In [None]:
# 批量数据大小
batch_size = 32
# 文本序列最大长度
max_seq_length = 128

# 将数据处理成模型可读入的数据格式
trans_func = partial(
    convert_example,
    tokenizer=tokenizer,
    max_seq_length=max_seq_length)

# 将数据组成批量式数据，如
# 将不同长度的文本序列padding到批量式数据中最大长度
# 将每条数据label堆叠在一起
batchify_fn = lambda samples, fn=Tuple(
    Pad(axis=0, pad_val=tokenizer.pad_token_id),  # input_ids
    Pad(axis=0, pad_val=tokenizer.pad_token_type_id),  # token_type_ids
    Stack()  # labels
): [data for data in fn(samples)]
train_data_loader = create_dataloader(
    train_ds,
    mode='train',
    batch_size=batch_size,
    batchify_fn=batchify_fn,
    trans_fn=trans_func)
dev_data_loader = create_dataloader(
    dev_ds,
    mode='dev',
    batch_size=batch_size,
    batchify_fn=batchify_fn,
    trans_fn=trans_func)

print("train dataloader length:", len(train_data_loader))
print("dev dataloader length:", len(dev_data_loader))

train dataloader length: 300
dev dataloader length: 38


### 模型训练和评估


定义损失函数、优化器以及评价指标后，即可开始训练。


**推荐超参设置：**

* `max_seq_length=256`
* `batch_size=48`
* `learning_rate=2e-5`
* `epochs=10`

实际运行时可以根据显存大小调整batch_size和max_seq_length大小。



In [None]:
import time

from utils import evaluate

# 训练轮次
epochs = 5
# 训练过程中保存模型参数的文件夹
save_dir = "skep_ckpt1"
# len(train_data_loader)一轮训练所需要的step数
num_training_steps = len(train_data_loader) * epochs

lr_scheduler = LinearDecayWithWarmup(2e-5, num_training_steps, 0.1)
decay_params = [
    p.name for n, p in model.named_parameters()
    if not any(nd in n for nd in ["bias", "norm"])
]
# Adam优化器
optimizer = paddle.optimizer.AdamW(
    learning_rate=lr_scheduler,
    parameters=model.parameters(),
    weight_decay=5e-4,
    apply_decay_param_fun=lambda x: x in decay_params)
# 交叉熵损失函数
criterion = paddle.nn.loss.CrossEntropyLoss()
# accuracy评价指标
metric = paddle.metric.Accuracy()

In [None]:
# 接下来，开始正式训练模型，训练时间较长，可注释掉这部分
patience = 20
# 加入日志显示
from visualdl import LogWriter
writer = LogWriter(save_dir)

train_model(model, optimizer, epochs, criterion, metric, save_dir, tokenizer, loader_list=[train_data_loader, dev_data_loader], patience=patience, lr_scheduler=lr_scheduler, writer=writer)

### 预测提交结果


使用训练得到的模型还可以对文本进行情感预测。


In [None]:
import numpy as np
import paddle
# 处理测试集数据
trans_func = partial(
    convert_example,
    tokenizer=tokenizer,
    max_seq_length=max_seq_length,
    is_test=True)
batchify_fn = lambda samples, fn=Tuple(
    Pad(axis=0, pad_val=tokenizer.pad_token_id),  # input
    Pad(axis=0, pad_val=tokenizer.pad_token_type_id),  # segment
    Stack() # qid
): [data for data in fn(samples)]
test_data_loader = create_dataloader(
    test_ds,
    mode='test',
    batch_size=batch_size,
    batchify_fn=batchify_fn,
    trans_fn=trans_func)

In [None]:
# 根据实际运行情况，更换加载的参数路径
params_path = 'skep_ckpt/model_1400/model_state.pdparams'
if params_path and os.path.isfile(params_path):
    # 加载模型参数
    state_dict = paddle.load(params_path)
    model.set_dict(state_dict)
    print("Loaded parameters from %s" % params_path)

Loaded parameters from skep_ckpt/model_1400/model_state.pdparams


In [None]:
label_map = {0: '0', 1: '1'}
results = predict(model, test_data_loader, label_map, has_qids=True)

In [None]:
res_dir = "./results"
if not os.path.exists(res_dir):
    os.makedirs(res_dir)
# 写入预测结果
with open(os.path.join(res_dir, "ChnSentiCorp.tsv"), 'w', encoding="utf8") as f:
    f.write("index\tprediction\n")
    for qid, label in results:
        f.write(str(qid[0])+"\t"+label+"\n")

### Part C.2 目标级情感分析

在电商产品分析场景下，除了分析整体商品的情感极性外，还细化到以商品具体的“方面”为分析主体进行情感分析（aspect-level），如下、：

* 这个薯片口味有点咸，太辣了，不过口感很脆。

关于薯片的**口味方面**是一个负向评价（咸，太辣），然而对于**口感方面**却是一个正向评价（很脆）。

* 我很喜欢夏威夷，就是这边的海鲜太贵了。

关于**夏威夷**是一个正向评价（喜欢），然而对于**夏威夷的海鲜**却是一个负向评价（价格太贵）。



<br></br>
<center><img src="https://ai-studio-static-online.cdn.bcebos.com/052d46409ba3451693a718552b968d188fa4677235bc43ddbc15fe11ad3b57b1" width="600" ></center>
<br><center>目标级情感分析任务</center></br>

#### 常用数据集

[千言数据集](https://www.luge.ai/)已提供了许多任务常用数据集。
其中情感分析数据集下载链接：https://aistudio.baidu.com/aistudio/competition/detail/50/?isFromLUGE=TRUE

SE-ABSA16_PHNS数据集是关于手机的目标级情感分析数据集。PaddleNLP已经内置了该数据集，加载方式，如下：


In [None]:
train_ds, test_ds = load_dataset("seabsa16", "phns", splits=["train", "test"])

print("train dataset length:", len(train_ds))
print("test dataset length:", len(test_ds))
print(train_ds[0])
print(train_ds[1])
print(train_ds[2])

train dataset length: 1336
test dataset length: 529
{'text': 'phone#design_features', 'text_pair': '今天有幸拿到了港版白色iPhone 5真机，试玩了一下，说说感受吧：1. 真机尺寸宽度与4/4s保持一致没有变化，长度多了大概一厘米，也就是之前所说的多了一排的图标。2. 真机重量比上一代轻了很多，个人感觉跟i9100的重量差不多。（用惯上一代的朋友可能需要一段时间适应了）3. 由于目前还没有版的SIM卡，无法插卡使用，有购买的朋友要注意了，并非简单的剪卡就可以用，而是需要去运营商更换新一代的SIM卡。4. 屏幕显示效果确实比上一代有进步，不论是从清晰度还是不同角度的视角，iPhone 5绝对要更上一层，我想这也许是相对上一代最有意义的升级了。5. 新的数据接口更小，比上一代更好用更方便，使用的过程会有这样的体会。6. 从简单的几个操作来讲速度比4s要快，这个不用测试软件也能感受出来，比如程序的调用以及照片的拍摄和浏览。不过，目前水货市场上坑爹的价格，最好大家可以再观望一下，不要急着出手。', 'label': 1}
{'text': 'display#quality', 'text_pair': '今天有幸拿到了港版白色iPhone 5真机，试玩了一下，说说感受吧：1. 真机尺寸宽度与4/4s保持一致没有变化，长度多了大概一厘米，也就是之前所说的多了一排的图标。2. 真机重量比上一代轻了很多，个人感觉跟i9100的重量差不多。（用惯上一代的朋友可能需要一段时间适应了）3. 由于目前还没有版的SIM卡，无法插卡使用，有购买的朋友要注意了，并非简单的剪卡就可以用，而是需要去运营商更换新一代的SIM卡。4. 屏幕显示效果确实比上一代有进步，不论是从清晰度还是不同角度的视角，iPhone 5绝对要更上一层，我想这也许是相对上一代最有意义的升级了。5. 新的数据接口更小，比上一代更好用更方便，使用的过程会有这样的体会。6. 从简单的几个操作来讲速度比4s要快，这个不用测试软件也能感受出来，比如程序的调用以及照片的拍摄和浏览。不过，目前水货市场上坑爹的价格，最好大家可以再观望一下，不要急着出手。', 'label': 1}
{'text': 'ports#connectivity

In [None]:
"""
length = len(train_ds)
train_list = train_ds[:]
random.shuffle(train_list)
val_len = int(length*0.2)
val_l = train_list[:val_len]
train_l = train_list[val_len:]
train_ds, dev_ds = load_my_dataset(splits=["train", "dev"], SPLITS={'train':None, 'dev':None}, data_list={'train':train_l, 'dev':val_l})
print("train dataset length:", len(train_ds))
print("val dataset length:", len(dev_ds))
"""

<class 'data.BAIDUData'>
train dataset length: 1069
val dataset length: 267


#### SKEP模型加载

目标级情感分析模型同样使用`SkepForSequenceClassification`模型，但目标级情感分析模型的输入不单单是一个句子，而是句对。一个句子描述“评价对象方面（aspect）”，另一个句子描述"对该方面的评论"。如下图所示。


![](https://ai-studio-static-online.cdn.bcebos.com/1a4b76447dae404caa3bf123ea28e375179cb09a02de4bef8a2f172edc6e3c8f)



In [None]:
# 指定模型名称一键加载模型
model = SkepForSequenceClassification.from_pretrained(
    'skep_ernie_1.0_large_ch', num_classes=len(train_ds.label_list), dropout=0.3)
# 指定模型名称一键加载tokenizer
tokenizer = SkepTokenizer.from_pretrained('skep_ernie_1.0_large_ch')

### 数据处理

同样地，我们需要将原始SE_ABSA16_PHNS数据处理成模型可以读入的数据格式。

SKEP模型对中文文本处理按照字粒度进行处理，我们可以使用PaddleNLP内置的`SkepTokenizer`完成一键式处理。

In [None]:
# 处理的最大文本序列长度
max_seq_length=512
# 批量数据大小
batch_size=8

# 将数据处理成model可读入的数据格式
trans_func = partial(
    convert_example,
    tokenizer=tokenizer,
    max_seq_length=max_seq_length,
    text_pair=True)
# 将数据组成批量式数据，如
# 将不同长度的文本序列padding到批量式数据中最大长度
# 将每条数据label堆叠在一起
batchify_fn = lambda samples, fn=Tuple(
    Pad(axis=0, pad_val=tokenizer.pad_token_id),  # input_ids
    Pad(axis=0, pad_val=tokenizer.pad_token_type_id),  # token_type_ids
    Stack(dtype="int64")  # labels
): [data for data in fn(samples)]
train_data_loader = create_dataloader(
    train_ds,
    mode='train',
    batch_size=batch_size,
    batchify_fn=batchify_fn,
    trans_fn=trans_func)

"""
dev_data_loader = create_dataloader(
    dev_ds,
    mode='dev',
    batch_size=batch_size,
    batchify_fn=batchify_fn,
    trans_fn=trans_func)"""
print("train dataloader length:", len(train_data_loader))
#print("dev dataloader length:", len(dev_data_loader))

train dataloader length: 167


### 模型训练

定义损失函数、优化器以及评价指标后，即可开始训练。

In [None]:
# 训练轮次
epochs = 10
# 总共需要训练的step数
num_training_steps = len(train_data_loader) * epochs
lr_scheduler = LinearDecayWithWarmup(2e-5, num_training_steps, 0.1)
decay_params = [
    p.name for n, p in model.named_parameters()
    if not any(nd in n for nd in ["bias", "norm"])
]
# Adam优化器
optimizer = paddle.optimizer.AdamW(
    learning_rate=lr_scheduler,
    parameters=model.parameters(),
    weight_decay=0.001,
    apply_decay_param_fun=lambda x: x in decay_params)
# 交叉熵损失
criterion = paddle.nn.loss.CrossEntropyLoss()
# Accuracy评价指标
metric = paddle.metric.Accuracy()

In [None]:
# 开启训练
save_dir = "skep_aspect2"
patience = 20
# 加入日志显示
from visualdl import LogWriter
writer = LogWriter(save_dir)

train_model(model, optimizer, epochs, criterion, metric, save_dir, tokenizer, loader_list=[train_data_loader, None], patience=patience, lr_scheduler=lr_scheduler, writer=writer, save_freq=len(train_data_loader))

### 预测提交结果

使用训练得到的模型还可以对评价对象进行情感预测。

In [None]:
# 处理测试集数据
label_map = {0: '0', 1: '1'}
trans_func = partial(
    convert_example,
    tokenizer=tokenizer,
    max_seq_length=max_seq_length,
    is_test=True,
    text_pair=True)
batchify_fn = lambda samples, fn=Tuple(
    Pad(axis=0, pad_val=tokenizer.pad_token_id),  # input_ids
    Pad(axis=0, pad_val=tokenizer.pad_token_type_id),  # token_type_ids
): [data for data in fn(samples)]
test_data_loader = create_dataloader(
    test_ds,
    mode='test',
    batch_size=batch_size,
    batchify_fn=batchify_fn,
    trans_fn=trans_func)

In [None]:
# 根据实际运行情况，更换加载的参数路径
params_path = 'skep_aspect2/model_1670/model_state.pdparams'
if params_path and os.path.isfile(params_path):
    # 加载模型参数
    state_dict = paddle.load(params_path)
    model.set_dict(state_dict)
    print("Loaded parameters from %s" % params_path)

results = predict(model, test_data_loader, label_map)

Loaded parameters from skep_aspect2/model_1670/model_state.pdparams


In [None]:
# 写入预测结果
with open(os.path.join("results", "SE-ABSA16_PHNS.tsv"), 'w', encoding="utf8") as f:
    f.write("index\tprediction\n")
    for idx, label in enumerate(results):
        f.write(str(idx)+"\t"+label+"\n")

# 拓展
## NLPCC14-SC（句子级情感分类）

In [None]:
train_ds, test_ds = load_my_dataset(splits=["train", "test"], SPLITS={'train':'data/NLPCC14-SC/train.tsv', 'test':'data/NLPCC14-SC/test.tsv'}, text_pair=False, head=True, is_transpose=True, has_qid=True)

print("train dataset length:", len(train_ds))
print("test dataset length:", len(test_ds))
print(train_ds[0])
print(train_ds[1])
print(train_ds[2])

<class 'data.BAIDUData'>
train dataset length: 10000
test dataset length: 2500
{'text': '请问这机不是有个遥控器的吗？', 'label': 1, 'qid': ''}
{'text': '发短信特别不方便！背后的屏幕很大用起来不舒服，是手触屏的！切换屏幕很麻烦！', 'label': 1, 'qid': ''}
{'text': '手感超好，而且黑色相比白色在转得时候不容易眼花，找童年的记忆啦。', 'label': 1, 'qid': ''}


In [None]:
"""
length = len(train_ds)
train_list = train_ds[:]
random.shuffle(train_list)
val_len = int(length*0.2)
val_l = train_list[:val_len]
train_l = train_list[val_len:]
train_ds, dev_ds = load_my_dataset(splits=["train", "dev"], SPLITS={'train':None, 'dev':None}, data_list={'train':train_l, 'dev':val_l})
print("train dataset length:", len(train_ds))
print("val dataset length:", len(dev_ds))"""

<class 'data.BAIDUData'>
train dataset length: 8000
val dataset length: 2000


In [None]:
# 指定模型名称，一键加载模型
model = SkepForSequenceClassification.from_pretrained(pretrained_model_name_or_path="skep_ernie_1.0_large_ch", num_classes=len(train_ds.label_list))
# 同样地，通过指定模型名称一键加载对应的Tokenizer，用于处理文本数据，如切分token，转token_id等。
tokenizer = SkepTokenizer.from_pretrained(pretrained_model_name_or_path="skep_ernie_1.0_large_ch")

In [None]:
# 批量数据大小
batch_size = 16
# 文本序列最大长度
max_seq_length = 256

# 将数据处理成模型可读入的数据格式
trans_func = partial(
    convert_example,
    tokenizer=tokenizer,
    max_seq_length=max_seq_length)

# 将数据组成批量式数据，如
# 将不同长度的文本序列padding到批量式数据中最大长度
# 将每条数据label堆叠在一起
batchify_fn = lambda samples, fn=Tuple(
    Pad(axis=0, pad_val=tokenizer.pad_token_id),  # input_ids
    Pad(axis=0, pad_val=tokenizer.pad_token_type_id),  # token_type_ids
    Stack()  # labels
): [data for data in fn(samples)]
train_data_loader = create_dataloader(
    train_ds,
    mode='train',
    batch_size=batch_size,
    batchify_fn=batchify_fn,
    trans_fn=trans_func)
dev_data_loader = create_dataloader(
    dev_ds,
    mode='dev',
    batch_size=batch_size,
    batchify_fn=batchify_fn,
    trans_fn=trans_func)

print("train dataloader length:", len(train_data_loader))
print("dev dataloader length:", len(dev_data_loader))

train dataloader length: 500
dev dataloader length: 125


In [None]:
import time

from utils import evaluate

# 训练轮次
epochs = 10
# 训练过程中保存模型参数的文件夹
save_dir = "skep_nlpcc"
# len(train_data_loader)一轮训练所需要的step数
num_training_steps = len(train_data_loader) * epochs

lr_scheduler = LinearDecayWithWarmup(2e-5, num_training_steps, 0.1)
decay_params = [
    p.name for n, p in model.named_parameters()
    if not any(nd in n for nd in ["bias", "norm"])
]
# Adam优化器
optimizer = paddle.optimizer.AdamW(
    learning_rate=lr_scheduler,
    parameters=model.parameters(),
    weight_decay=5e-4,
    apply_decay_param_fun=lambda x: x in decay_params)
# 交叉熵损失函数
criterion = paddle.nn.loss.CrossEntropyLoss()
# accuracy评价指标
metric = paddle.metric.Accuracy()

In [None]:
# 接下来，开始正式训练模型，训练时间较长，可注释掉这部分
patience = 20
# 加入日志显示
from visualdl import LogWriter
writer = LogWriter(save_dir)

train_model(model, optimizer, epochs, criterion, metric, save_dir, tokenizer, loader_list=[train_data_loader, dev_data_loader], patience=patience, lr_scheduler=lr_scheduler, writer=writer)

In [None]:
import numpy as np
import paddle
# 处理测试集数据
trans_func = partial(
    convert_example,
    tokenizer=tokenizer,
    max_seq_length=max_seq_length,
    is_test=True)
batchify_fn = lambda samples, fn=Tuple(
    Pad(axis=0, pad_val=tokenizer.pad_token_id),  # input
    Pad(axis=0, pad_val=tokenizer.pad_token_type_id),  # segment
    Stack() # qid
): [data for data in fn(samples)]
test_data_loader = create_dataloader(
    test_ds,
    mode='test',
    batch_size=batch_size,
    batchify_fn=batchify_fn,
    trans_fn=trans_func)

In [None]:
# 根据实际运行情况，更换加载的参数路径
params_path = 'skep_nlpcc/best_model_state.pdparams'
if params_path and os.path.isfile(params_path):
    # 加载模型参数
    state_dict = paddle.load(params_path)
    model.set_dict(state_dict)
    print("Loaded parameters from %s" % params_path)

Loaded parameters from skep_nlpcc/best_model_state.pdparams


In [None]:
label_map = {0: '0', 1: '1'}
results = predict(model, test_data_loader, label_map, has_qids=True)

In [None]:
res_dir = "./results"
if not os.path.exists(res_dir):
    os.makedirs(res_dir)
# 写入预测结果
with open(os.path.join(res_dir, "NLPCC14-SC.tsv"), 'w', encoding="utf8") as f:
    f.write("index\tprediction\n")
    for qid, label in results:
        f.write(str(qid[0])+"\t"+label+"\n")

## SE-ABSA16_CAME（评价对象级情感分类）

In [2]:
train_ds, test_ds = load_my_dataset(splits=["train", "test"], SPLITS={'train':'data/SE-ABSA16_CAME/train.tsv', 'test':'data/SE-ABSA16_CAME/test.tsv'}, text_pair=True, head=True, is_transpose=True, has_qid=True)

print("train dataset length:", len(train_ds))
print("test dataset length:", len(test_ds))
print(train_ds[0])
print(train_ds[1])
print(train_ds[2])

train dataset length: 1317
test dataset length: 505
{'text': 'camera#design_features', 'text_pair': '千呼万唤始出来，尼康的APSC小相机终于发布了，COOLPIX A. 你怎么看呢？我看，尼康是挤牙膏挤惯了啊，1，外观既没有V1时尚，也没P7100专业，反而类似P系列。2，CMOS炒冷饭。3，OVF没有任何提示和显示。（除了框框)4，28MM镜头是不错，可是F2.8定焦也太小气了。5，电池坑爹，用D800和V1的电池很难吗？6，考虑到1100美元的定价，富士X100S表示很欢乐。***好处是，可以确定，尼康会继续大力发展1系列了***另外体积比X100S小也算是A的优势吧***。等2014年年中跌倒1900左右的时候就可以入手了。', 'label': 0}
{'text': 'camera#operation_performance', 'text_pair': '千呼万唤始出来，尼康的APSC小相机终于发布了，COOLPIX A. 你怎么看呢？我看，尼康是挤牙膏挤惯了啊，1，外观既没有V1时尚，也没P7100专业，反而类似P系列。2，CMOS炒冷饭。3，OVF没有任何提示和显示。（除了框框)4，28MM镜头是不错，可是F2.8定焦也太小气了。5，电池坑爹，用D800和V1的电池很难吗？6，考虑到1100美元的定价，富士X100S表示很欢乐。***好处是，可以确定，尼康会继续大力发展1系列了***另外体积比X100S小也算是A的优势吧***。等2014年年中跌倒1900左右的时候就可以入手了。', 'label': 0}
{'text': 'hardware#usability', 'text_pair': '千呼万唤始出来，尼康的APSC小相机终于发布了，COOLPIX A. 你怎么看呢？我看，尼康是挤牙膏挤惯了啊，1，外观既没有V1时尚，也没P7100专业，反而类似P系列。2，CMOS炒冷饭。3，OVF没有任何提示和显示。（除了框框)4，28MM镜头是不错，可是F2.8定焦也太小气了。5，电池坑爹，用D800和V1的电池很难吗？6，考虑到1100美元的定价，富士X100S表示很欢乐。***好处是，可以确定，尼康会继续大力发展1系列了***另外体积比X100S小

In [None]:
"""length = len(train_ds)
train_list = train_ds[:]
random.shuffle(train_list)
val_len = int(length*0.2)
val_l = train_list[:val_len]
train_l = train_list[val_len:]
train_ds, dev_ds = load_my_dataset(splits=["train", "dev"], SPLITS={'train':None, 'dev':None}, data_list={'train':train_l, 'dev':val_l})
print("train dataset length:", len(train_ds))
print("val dataset length:", len(dev_ds))"""

<class 'data.BAIDUData'>
train dataset length: 1054
val dataset length: 263


In [5]:
# 指定模型名称，一键加载模型
model = SkepForSequenceClassification.from_pretrained(pretrained_model_name_or_path="skep_ernie_1.0_large_ch", num_classes=len(train_ds.label_list), dropout=0.3)
# 同样地，通过指定模型名称一键加载对应的Tokenizer，用于处理文本数据，如切分token，转token_id等。
tokenizer = SkepTokenizer.from_pretrained(pretrained_model_name_or_path="skep_ernie_1.0_large_ch")

In [6]:
# 批量数据大小
batch_size = 8
# 文本序列最大长度
max_seq_length = 512

# 将数据处理成模型可读入的数据格式
trans_func = partial(
    convert_example,
    tokenizer=tokenizer,
    max_seq_length=max_seq_length,
    text_pair=True)

# 将数据组成批量式数据，如
# 将不同长度的文本序列padding到批量式数据中最大长度
# 将每条数据label堆叠在一起
batchify_fn = lambda samples, fn=Tuple(
    Pad(axis=0, pad_val=tokenizer.pad_token_id),  # input_ids
    Pad(axis=0, pad_val=tokenizer.pad_token_type_id),  # token_type_ids
    Stack()  # labels
): [data for data in fn(samples)]
train_data_loader = create_dataloader(
    train_ds,
    mode='train',
    batch_size=batch_size,
    batchify_fn=batchify_fn,
    trans_fn=trans_func)
"""
dev_data_loader = create_dataloader(
    dev_ds,
    mode='dev',
    batch_size=batch_size,
    batchify_fn=batchify_fn,
    trans_fn=trans_func)
"""
print("train dataloader length:", len(train_data_loader))
#print("dev dataloader length:", len(dev_data_loader))

train dataloader length: 165


In [7]:
# 训练轮次
epochs = 10
# 总共需要训练的step数
num_training_steps = len(train_data_loader) * epochs
lr_scheduler = LinearDecayWithWarmup(2e-5, num_training_steps, 0.1)
decay_params = [
    p.name for n, p in model.named_parameters()
    if not any(nd in n for nd in ["bias", "norm"])
]
# Adam优化器
optimizer = paddle.optimizer.AdamW(
    learning_rate=lr_scheduler,
    parameters=model.parameters(),
    weight_decay=0.001,
    apply_decay_param_fun=lambda x: x in decay_params)
# 交叉熵损失
criterion = paddle.nn.loss.CrossEntropyLoss()
# Accuracy评价指标
metric = paddle.metric.Accuracy()

In [8]:
# 开启训练
save_dir = "skep_seabsa_came1"
patience = 10
# 加入日志显示
from visualdl import LogWriter
writer = LogWriter(save_dir)

train_model(model, optimizer, epochs, criterion, metric, save_dir, tokenizer, loader_list=[train_data_loader, None], patience=patience, lr_scheduler=lr_scheduler, writer=writer, save_freq=len(train_data_loader))

In [9]:
# 处理测试集数据
label_map = {0: '0', 1: '1'}
trans_func = partial(
    convert_example,
    tokenizer=tokenizer,
    max_seq_length=max_seq_length,
    is_test=True,
    text_pair=True)
batchify_fn = lambda samples, fn=Tuple(
    Pad(axis=0, pad_val=tokenizer.pad_token_id),  # input_ids
    Pad(axis=0, pad_val=tokenizer.pad_token_type_id),  # token_type_ids
): [data for data in fn(samples)]
test_data_loader = create_dataloader(
    test_ds,
    mode='test',
    batch_size=batch_size,
    batchify_fn=batchify_fn,
    trans_fn=trans_func)

In [10]:
# 根据实际运行情况，更换加载的参数路径
params_path = 'skep_seabsa_came1/model_1650/model_state.pdparams'
if params_path and os.path.isfile(params_path):
    # 加载模型参数
    state_dict = paddle.load(params_path)
    model.set_dict(state_dict)
    print("Loaded parameters from %s" % params_path)

results = predict(model, test_data_loader, label_map)

Loaded parameters from skep_seabsa_came1/model_1650/model_state.pdparams


In [11]:
# 写入预测结果
with open(os.path.join("results", "SE-ABSA16_CAME.tsv"), 'w', encoding="utf8") as f:
    f.write("index\tprediction\n")
    for idx, label in enumerate(results):
        f.write(str(idx)+"\t"+label+"\n")

## COTE-BD（观点抽取）

In [None]:
from paddlenlp.datasets import load_dataset
from paddlenlp.transformers import SkepForSequenceClassification, SkepTokenizer, SkepForTokenClassification, ErnieGramForTokenClassification, ErnieGramTokenizer
import os
from functools import partial
from paddlenlp.transformers import LinearDecayWithWarmup
import random
import numpy as np
import paddle
import paddle.nn.functional as F
from paddlenlp.metrics import ChunkEvaluator
from paddlenlp.data import Stack, Tuple, Pad

from utils import create_dataloader, convert_example, predict, token_predict
from train import train_token_model
from data import load_my_dataset, TokenData, convert_token_example
def seed_paddle(seed=2021):
    seed = int(seed)
    random.seed(seed)
    os.environ['PYTHONHASHSEED'] = str(seed)
    np.random.seed(seed)
    paddle.seed(seed)

seed_paddle(seed=2021)

In [None]:
train_ds, test_ds = load_my_dataset(splits=["train", "test"], SPLITS={'train':'data/COTE-BD/train.tsv', 'test':'data/COTE-BD/test.tsv'}, is_token=True)
print("train dataset length:", len(train_ds))
print("test dataset length:", len(test_ds))
print(train_ds[0])
print(train_ds[1])
print(train_ds[2])

train dataset length: 8533
test dataset length: 3658
{'text': '芝罘岛骑车去过几次，它挺壮观的，毕竟是我国典型的也是最大的陆连岛咯!我喜欢去那儿，反正全岛免费咯啊哈哈哈！风景的确不错而且海水也很干净，有些地方还是军事管理，禁地来着，但是我认识军官。', 'text_label': '芝罘岛'}
{'text': '泽拉图（1865-2506）是暴雪娱乐开发的即时战略游戏星际争霸中的星灵角色。', 'text_label': '泽拉图'}
{'text': '《鸟人》一书以鸟博士的遭遇作为主线，主要写了鸟博士从校园出来后的种种荒诞经历。', 'text_label': '鸟人'}


In [None]:
# 指定模型名称，一键加载模型
#model = SkepForTokenClassification.from_pretrained(pretrained_model_name_or_path="skep_ernie_1.0_large_ch", num_classes=len(train_ds.label_list))
# 同样地，通过指定模型名称一键加载对应的Tokenizer，用于处理文本数据，如切分token，转token_id等。
#tokenizer = SkepTokenizer.from_pretrained(pretrained_model_name_or_path="skep_ernie_1.0_large_ch")
model = ErnieGramForTokenClassification.from_pretrained(pretrained_model_name_or_path="ernie-gram-zh", num_classes=3)
# 同样地，通过指定模型名称一键加载对应的Tokenizer，用于处理文本数据，如切分token，转token_id等。
tokenizer = ErnieGramTokenizer.from_pretrained(pretrained_model_name_or_path="ernie-gram-zh")

[2021-06-21 14:39:16,190] [    INFO] - Already cached /home/aistudio/.paddlenlp/models/ernie-gram-zh/ernie_gram_zh.pdparams
[2021-06-21 14:39:26,044] [    INFO] - Found /home/aistudio/.paddlenlp/models/ernie-gram-zh/vocab.txt


In [None]:
# 批量数据大小
batch_size = 32
# 文本序列最大长度
max_seq_len = 512
ignore_label = -1
label_vocab = TokenData().label_dict

# 将数据处理成模型可读入的数据格式
trans_func = partial(convert_token_example, tokenizer=tokenizer, label_vocab=label_vocab, max_seq_len=max_seq_len)

# 将数据组成批量式数据，如
# 将不同长度的文本序列padding到批量式数据中最大长度
# 将每条数据label堆叠在一起
batchify_fn = lambda samples, fn=Tuple(
    Pad(axis=0, pad_val=tokenizer.pad_token_id),  # input_ids
    Pad(axis=0, pad_val=tokenizer.pad_token_type_id),  # token_type_ids
    Stack(), # seq_len
    Pad(axis=0, pad_val=ignore_label)  # labels
): [data for data in fn(samples)]
train_data_loader = create_dataloader(
    train_ds,
    mode='train',
    batch_size=batch_size,
    batchify_fn=batchify_fn,
    trans_fn=trans_func)
"""dev_data_loader = create_dataloader(
    dev_ds,
    mode='dev',
    batch_size=batch_size,
    batchify_fn=batchify_fn,
    trans_fn=trans_func)"""

print("train dataloader length:", len(train_data_loader))
#print("dev dataloader length:", len(dev_data_loader))

train dataloader length: 267


In [None]:
# 训练轮次
epochs = 20
# 总共需要训练的step数
num_training_steps = len(train_data_loader) * epochs
lr_scheduler = LinearDecayWithWarmup(5e-5, num_training_steps, 0.1)
decay_params = [
    p.name for n, p in model.named_parameters()
    if not any(nd in n for nd in ["bias", "norm"])
]
# Adam优化器
optimizer = paddle.optimizer.AdamW(
    learning_rate=lr_scheduler,
    parameters=model.parameters(),
    weight_decay=0.001,
    apply_decay_param_fun=lambda x: x in decay_params)
# 交叉熵损失
criterion = paddle.nn.loss.CrossEntropyLoss(ignore_index=ignore_label)
# Accuracy评价指标
metric = ChunkEvaluator(label_list=label_vocab.keys(), suffix=True)

In [None]:
# 开启训练
save_dir = "eg_cotebd"
patience = 10
# 加入日志显示
from visualdl import LogWriter
writer = LogWriter(save_dir)

train_token_model(model, optimizer, epochs, criterion, metric, save_dir, tokenizer, loader_list=[train_data_loader, None], patience=patience, lr_scheduler=lr_scheduler, writer=writer, save_freq=267)

In [None]:
# 处理测试集数据
trans_func = partial(convert_token_example, tokenizer=tokenizer, label_vocab=label_vocab, max_seq_len=max_seq_len, is_test=True)
test_ds.map(trans_func)
batchify_fn = lambda samples, fn=Tuple(
    Pad(axis=0, pad_val=tokenizer.pad_token_id),  # input_ids
    Pad(axis=0, pad_val=tokenizer.pad_token_type_id),  # token_type_ids
    Stack(), # seq_len
    Stack() # qid
): [data for data in fn(samples)]
test_data_loader = paddle.io.DataLoader(
    dataset=test_ds,
    batch_size=batch_size,
    return_list=True,
    shuffle=False,
    collate_fn=batchify_fn)

In [None]:
# 根据实际运行情况，更换加载的参数路径
params_path = 'eg_cotebd/final_model/model_state.pdparams'
if params_path and os.path.isfile(params_path):
    # 加载模型参数
    state_dict = paddle.load(params_path)
    model.set_dict(state_dict)
    print("Loaded parameters from %s" % params_path)

results = token_predict(model, test_data_loader, label_vocab, tokenizer)
#print(len(results))

In [None]:
# 写入预测结果
import re
with open(os.path.join("results", "COTE_BD.tsv"), 'w', encoding="utf8") as f:
    f.write("index\tprediction\n")
    for idx, label in enumerate(results):
        qid = test_ds.data[idx]['qid']
        label = [re.sub('##', '', l) for l in label]
        label = [re.sub('[UNK]', '', l) for l in label]
        f.write(qid+"\t"+ '\x01'.join(label)+"\n")

## COTE-DP（观点抽取）

In [None]:
from paddlenlp.datasets import load_dataset
from paddlenlp.transformers import SkepForSequenceClassification, SkepTokenizer, SkepForTokenClassification, ErnieGramForTokenClassification, ErnieGramTokenizer
import os
from functools import partial
from paddlenlp.transformers import LinearDecayWithWarmup
import random
import numpy as np
import paddle
import paddle.nn.functional as F
from paddlenlp.metrics import ChunkEvaluator
from paddlenlp.data import Stack, Tuple, Pad

from utils import create_dataloader, convert_example, predict, token_predict
from train import train_token_model
from data import load_my_dataset, TokenData, convert_token_example
def seed_paddle(seed=2021):
    seed = int(seed)
    random.seed(seed)
    os.environ['PYTHONHASHSEED'] = str(seed)
    np.random.seed(seed)
    paddle.seed(seed)

seed_paddle(seed=2021)

In [None]:
train_ds, test_ds = load_my_dataset(splits=["train", "test"], SPLITS={'train':'data/COTE-DP/train.tsv', 'test':'data/COTE-DP/test.tsv'}, is_token=True)
print("train dataset length:", len(train_ds))
print("test dataset length:", len(test_ds))
print(train_ds[0])
print(train_ds[1])
print(train_ds[2])

train dataset length: 25258
test dataset length: 10825
{'text': '重庆老灶火锅还是很赞的，有机会可以尝试一下！', 'text_label': '重庆老灶火锅'}
{'text': '一入店内，就看到招牌特别大的炉鱼来了，餐桌上还摆了五颜六色的小蜡烛，挺有调调的。', 'text_label': '炉鱼来了'}
{'text': '只能说是聚餐圣地外婆家一个需要提前来取号的地方。', 'text_label': '外婆家'}


In [None]:
# 指定模型名称，一键加载模型
#model = SkepForTokenClassification.from_pretrained(pretrained_model_name_or_path="skep_ernie_1.0_large_ch", num_classes=len(train_ds.label_list))
# 同样地，通过指定模型名称一键加载对应的Tokenizer，用于处理文本数据，如切分token，转token_id等。
#tokenizer = SkepTokenizer.from_pretrained(pretrained_model_name_or_path="skep_ernie_1.0_large_ch")
model = ErnieGramForTokenClassification.from_pretrained(pretrained_model_name_or_path="ernie-gram-zh", num_classes=3)
# 同样地，通过指定模型名称一键加载对应的Tokenizer，用于处理文本数据，如切分token，转token_id等。
tokenizer = ErnieGramTokenizer.from_pretrained(pretrained_model_name_or_path="ernie-gram-zh")

In [None]:
# 批量数据大小
batch_size = 16
# 文本序列最大长度
max_seq_len = 512
ignore_label = -1
label_vocab = TokenData().label_dict

# 将数据处理成模型可读入的数据格式
trans_func = partial(convert_token_example, tokenizer=tokenizer, label_vocab=label_vocab, max_seq_len=max_seq_len)

# 将数据组成批量式数据，如
# 将不同长度的文本序列padding到批量式数据中最大长度
# 将每条数据label堆叠在一起
batchify_fn = lambda samples, fn=Tuple(
    Pad(axis=0, pad_val=tokenizer.pad_token_id),  # input_ids
    Pad(axis=0, pad_val=tokenizer.pad_token_type_id),  # token_type_ids
    Stack(), # seq_len
    Pad(axis=0, pad_val=ignore_label)  # labels
): [data for data in fn(samples)]
train_data_loader = create_dataloader(
    train_ds,
    mode='train',
    batch_size=batch_size,
    batchify_fn=batchify_fn,
    trans_fn=trans_func)
"""dev_data_loader = create_dataloader(
    dev_ds,
    mode='dev',
    batch_size=batch_size,
    batchify_fn=batchify_fn,
    trans_fn=trans_func)"""

print("train dataloader length:", len(train_data_loader))
#print("dev dataloader length:", len(dev_data_loader))

train dataloader length: 1579


In [None]:
# 训练轮次
epochs = 10
# 总共需要训练的step数
num_training_steps = len(train_data_loader) * epochs
lr_scheduler = LinearDecayWithWarmup(5e-5, num_training_steps, 0.1)
decay_params = [
    p.name for n, p in model.named_parameters()
    if not any(nd in n for nd in ["bias", "norm"])
]
# Adam优化器
optimizer = paddle.optimizer.AdamW(
    learning_rate=lr_scheduler,
    parameters=model.parameters(),
    weight_decay=0.001,
    apply_decay_param_fun=lambda x: x in decay_params)
# 交叉熵损失
criterion = paddle.nn.loss.CrossEntropyLoss(ignore_index=ignore_label)
# Accuracy评价指标
metric = ChunkEvaluator(label_list=label_vocab.keys(), suffix=True)

In [None]:
# 开启训练
save_dir = "eg_cotedp"
patience = 10
# 加入日志显示
from visualdl import LogWriter
writer = LogWriter(save_dir)

train_token_model(model, optimizer, epochs, criterion, metric, save_dir, tokenizer, loader_list=[train_data_loader, None], patience=patience, lr_scheduler=lr_scheduler, writer=writer, save_freq=750)

In [None]:
# 处理测试集数据
trans_func = partial(convert_token_example, tokenizer=tokenizer, label_vocab=label_vocab, max_seq_len=max_seq_len, is_test=True)
test_ds.map(trans_func)
batchify_fn = lambda samples, fn=Tuple(
    Pad(axis=0, pad_val=tokenizer.pad_token_id),  # input_ids
    Pad(axis=0, pad_val=tokenizer.pad_token_type_id),  # token_type_ids
    Stack(), # seq_len
    Stack() # qid
): [data for data in fn(samples)]
test_data_loader = paddle.io.DataLoader(
    dataset=test_ds,
    batch_size=batch_size,
    return_list=True,
    shuffle=False,
    collate_fn=batchify_fn)

In [None]:
# 根据实际运行情况，更换加载的参数路径
params_path = 'eg_cotedp/final_model/model_state.pdparams'
if params_path and os.path.isfile(params_path):
    # 加载模型参数
    state_dict = paddle.load(params_path)
    model.set_dict(state_dict)
    print("Loaded parameters from %s" % params_path)

results = token_predict(model, test_data_loader, label_vocab, tokenizer)
#print(len(results))

In [None]:
# 写入预测结果
import re
with open(os.path.join("results", "COTE_DP.tsv"), 'w', encoding="utf8") as f:
    f.write("index\tprediction\n")
    for idx, label in enumerate(results):
        qid = test_ds.data[idx]['qid']
        label = [re.sub('##', '', l) for l in label]
        label = [re.sub('[UNK]', '', l) for l in label]
        f.write(qid+"\t"+ '\x01'.join(label)+"\n")

## COTE-MFW（观点抽取）

In [None]:
from paddlenlp.datasets import load_dataset
from paddlenlp.transformers import SkepForSequenceClassification, SkepTokenizer, SkepForTokenClassification, SkepCrfForTokenClassification, ErnieGramForTokenClassification, ErnieGramTokenizer
import os
import re
from functools import partial
from paddlenlp.transformers import LinearDecayWithWarmup
import random
import numpy as np
import paddle
import paddle.nn.functional as F
from paddlenlp.metrics import ChunkEvaluator
from paddlenlp.data import Stack, Tuple, Pad

from utils import create_dataloader, convert_example, predict, token_predict
from train import train_token_model
from data import load_my_dataset, TokenData, convert_token_example
def seed_paddle(seed=2021):
    seed = int(seed)
    random.seed(seed)
    os.environ['PYTHONHASHSEED'] = str(seed)
    np.random.seed(seed)
    paddle.seed(seed)

seed_paddle(seed=2021)

In [None]:
# 指定模型名称，一键加载模型
#model = SkepForTokenClassification.from_pretrained(pretrained_model_name_or_path="skep_ernie_1.0_large_ch", num_classes=len(train_ds.label_list))
# 同样地，通过指定模型名称一键加载对应的Tokenizer，用于处理文本数据，如切分token，转token_id等。
#tokenizer = SkepTokenizer.from_pretrained(pretrained_model_name_or_path="skep_ernie_1.0_large_ch")
model = ErnieGramForTokenClassification.from_pretrained(pretrained_model_name_or_path="ernie-gram-zh", num_classes=3)
# 同样地，通过指定模型名称一键加载对应的Tokenizer，用于处理文本数据，如切分token，转token_id等。
tokenizer = ErnieGramTokenizer.from_pretrained(pretrained_model_name_or_path="ernie-gram-zh")

In [None]:
train_ds, test_ds = load_my_dataset(splits=["train", "test"], SPLITS={'train':'data/COTE-MFW/train.tsv', 'test':'data/COTE-MFW/test.tsv'}, is_token=True)
print("train dataset length:", len(train_ds))
print("test dataset length:", len(test_ds))
print(train_ds[0])
print(train_ds[1])
print(train_ds[2])

# 批量数据大小
batch_size = 16
# 文本序列最大长度
max_seq_len = 512
ignore_label = -1
label_vocab = TokenData().label_dict

# 将数据处理成模型可读入的数据格式
trans_func = partial(convert_token_example, tokenizer=tokenizer, label_vocab=label_vocab, max_seq_len=max_seq_len)

# 将数据组成批量式数据，如
# 将不同长度的文本序列padding到批量式数据中最大长度
# 将每条数据label堆叠在一起
batchify_fn = lambda samples, fn=Tuple(
    Pad(axis=0, pad_val=tokenizer.pad_token_id),  # input_ids
    Pad(axis=0, pad_val=tokenizer.pad_token_type_id),  # token_type_ids
    Stack(), # seq_len
    Pad(axis=0, pad_val=ignore_label)  # labels
): [data for data in fn(samples)]
train_data_loader = create_dataloader(
    train_ds,
    mode='train',
    batch_size=batch_size,
    batchify_fn=batchify_fn,
    trans_fn=trans_func)
"""dev_data_loader = create_dataloader(
    dev_ds,
    mode='dev',
    batch_size=batch_size,
    batchify_fn=batchify_fn,
    trans_fn=trans_func)"""

print("train dataloader length:", len(train_data_loader))
#print("dev dataloader length:", len(dev_data_loader))

train dataset length: 41253
test dataset length: 17681
{'text': '秀美恩施大峡谷，因其奇、险让人流连忘返。', 'text_label': '恩施大峡谷'}
{'text': '龙鳞宫说白了，就是用多种颜色的灯光打在石钟乳上，形成五光十色的视觉效果', 'text_label': '龙鳞宫'}
{'text': '回来百度方知道，舟山跨海大桥，又叫舟山大陆连岛工程，跨四座岛屿，翻九个涵洞，穿两个隧道，全长四十八公里。', 'text_label': '舟山跨海大桥'}
train dataloader length: 2579


In [None]:
# 训练轮次
epochs = 10
# 总共需要训练的step数
num_training_steps = len(train_data_loader) * epochs
lr_scheduler = LinearDecayWithWarmup(5e-5, num_training_steps, 0.1)
decay_params = [
    p.name for n, p in model.named_parameters()
    if not any(nd in n for nd in ["bias", "norm"])
]
# Adam优化器
optimizer = paddle.optimizer.AdamW(
    learning_rate=lr_scheduler,
    parameters=model.parameters(),
    weight_decay=0.001,
    apply_decay_param_fun=lambda x: x in decay_params)
# 交叉熵损失
criterion = paddle.nn.loss.CrossEntropyLoss(ignore_index=ignore_label)
# Accuracy评价指标
metric = ChunkEvaluator(label_list=label_vocab.keys(), suffix=True)

# 开启训练
save_dir = "eg_cotemfw"
patience = 10
# 加入日志显示
from visualdl import LogWriter
writer = LogWriter(save_dir)

train_token_model(model, optimizer, epochs, criterion, metric, save_dir, tokenizer, loader_list=[train_data_loader, None], patience=patience, lr_scheduler=lr_scheduler, writer=writer, save_freq=len(train_data_loader))

In [None]:
# 处理测试集数据
trans_func = partial(convert_token_example, tokenizer=tokenizer, label_vocab=label_vocab, max_seq_len=max_seq_len, is_test=True)
test_ds.map(trans_func)
batchify_fn = lambda samples, fn=Tuple(
    Pad(axis=0, pad_val=tokenizer.pad_token_id),  # input_ids
    Pad(axis=0, pad_val=tokenizer.pad_token_type_id),  # token_type_ids
    Stack(), # seq_len
    Stack() # qid
): [data for data in fn(samples)]
test_data_loader = paddle.io.DataLoader(
    dataset=test_ds,
    batch_size=batch_size,
    return_list=True,
    shuffle=False,
    collate_fn=batchify_fn)

# 根据实际运行情况，更换加载的参数路径
params_path = 'eg_cotemfw/final_model/model_state.pdparams'
if params_path and os.path.isfile(params_path):
    # 加载模型参数
    state_dict = paddle.load(params_path)
    model.set_dict(state_dict)
    print("Loaded parameters from %s" % params_path)

results = token_predict(model, test_data_loader, label_vocab, tokenizer)
#print(len(results))

In [None]:
# 写入预测结果
import re
with open(os.path.join("results", "COTE_MFW.tsv"), 'w', encoding="utf8") as f:
    f.write("index\tprediction\n")
    for idx, label in enumerate(results):
        qid = test_ds.data[idx]['qid']
        label = [re.sub('##', '', l) for l in label]
        label = [re.sub('[UNK]', '', l) for l in label]
        f.write(qid+"\t"+ '\x01'.join(label)+"\n")

# 打包文件

In [None]:
#将预测文件结果压缩至zip文件，提交
!zip -r results.zip results