In [6]:
import pandas as pd
from sklearn.model_selection import train_test_split

# 微博情感二分类数据

In [7]:
pd_all = pd.read_csv('data_files/' + 'weibo_senti_100k/weibo_senti_100k.csv')
print('评论数目（总体）：%d' % pd_all.shape[0])
print('评论数目（正向）：%d' % pd_all[pd_all.label==1].shape[0])
print('评论数目（负向）：%d' % pd_all[pd_all.label==0].shape[0])

评论数目（总体）：119988
评论数目（正向）：59993
评论数目（负向）：59995


In [8]:
pd_all

Unnamed: 0,label,review
0,1,﻿更博了，爆照了，帅的呀，就是越来越爱你！生快傻缺[爱你][爱你][爱你]
1,1,@张晓鹏jonathan 土耳其的事要认真对待[哈哈]，否则直接开除。@丁丁看世界 很是细心...
2,1,姑娘都羡慕你呢…还有招财猫高兴……//@爱在蔓延-JC:[哈哈]小学徒一枚，等着明天见您呢/...
3,1,美~~~~~[爱你]
4,1,梦想有多大，舞台就有多大![鼓掌]
...,...,...
119983,0,一公里不到，县医院那个天桥下右拐200米就到了！//@谢礼恒: 我靠。这个太霸道了！离224...
119984,0,今天真冷啊，难道又要穿棉袄了[晕]？今年的春天真的是百变莫测啊[抓狂]
119985,0,最近几天就没停止过！！！[伤心]
119986,0,//@毒药女流氓:[怒] 很惨!


## 划分数据集

In [9]:
total_num = len(pd_all)
tr_dev_test_ratio = (8, 1, 1)

In [10]:
train_num = int(total_num / sum(tr_dev_test_ratio) * tr_dev_test_ratio[0])
dev_num = int(total_num / sum(tr_dev_test_ratio) * tr_dev_test_ratio[1])

In [11]:
train_num, dev_num

(95990, 11998)

In [12]:
shuffle_pd = pd_all.sample(frac=1.0)

In [13]:
shuffle_pd = shuffle_pd.rename(columns={'review': 'sentence'})[['sentence', 'label']]

In [14]:
train_pd = shuffle_pd.iloc[0: train_num]
dev_pd = shuffle_pd.iloc[train_num: train_num+dev_num]
test_pd = shuffle_pd.iloc[train_num+dev_num: ]

In [15]:
len(train_pd), len(dev_pd), len(test_pd)

(95990, 11998, 12000)

In [58]:
!mkdir data_files/weibo_senti_100k/split

In [16]:
train_pd.to_csv('weibo_senti_100k/csv/train.csv', index=False)

In [17]:
dev_pd.to_csv('weibo_senti_100k/csv/dev.csv', index=False)

In [18]:
test_pd.to_csv('weibo_senti_100k/csv/test.csv', index=False)

## GLUE 
- 数据集介绍：https://zhuanlan.zhihu.com/p/135283598

  自然语言处理（NLP）主要自然语言理解（NLU）和自然语言生成（NLG）。为了让NLU任务发挥最大的作用，来自纽约大学、华盛顿大学等机构创建了一个多任务的自然语言理解基准和分析平台，也就是GLUE（General Language Understanding Evaluation）。
  
  GLUE包含九项NLU任务，语言均为英语。GLUE九项任务涉及到自然语言推断、文本蕴含、情感分析、语义相似等多个任务。像BERT、XLNet、RoBERTa、ERINE、T5等知名模型都会在此基准上进行测试。目前，大家要把预测结果上传到官方的网站上，官方会给出测试的结果。
  
  GLUE的论文为：GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding：https://www.aclweb.org/anthology/W18-5446/
  
  GLUE的官网为：https://gluebenchmark.com/
  
  
![image.png](attachment:image.png)

图2：GLUE九大任务的描述和统计。所有任务都是单句或者句子对分类，除了STS-B是一个回归任务。MNLI有3个类别，所有其他分类任务都是2个类别。测试集中加粗的表示测试集中标签从未在公共论坛等场所展示过

-  CoLA (The Corpus of Linguistic Acceptability，语言可接受性语料库)，单句子分类任务，语料来自语言理论的书籍和期刊，每个句子被标注为是否合乎语法的单词序列。本任务是一个二分类任务，标签共两个，分别是0和1，其中0表示不合乎语法，1表示合乎语法。
   - 样本个数：训练集8,551个，开发集1,043个，测试集1,063个。
   - 任务：可接受程度，合乎语法与不合乎语法二分类。
   - 评价准则：Matthews correlation coefficient。
   
   
- SST-2 (The Stanford Sentiment Treebank，斯坦福情感树库)，单句子分类任务，包含电影评论中的句子和它们情感的人类注释。这项任务是给定句子的情感，类别分为两类正面情感（positive，样本标签对应为1）和负面情感（negative，样本标签对应为0），并且只用句子级别的标签。也就是，本任务也是一个二分类任务，针对句子级别，分为正面和负面情感。
  - 样本个数：训练集67,350个，开发集873个，测试集1,821个。
  - 任务：情感分类，正面情感和负面情感二分类。
  - 评价准则：accuracy。

- MRPC(The Microsoft Research Paraphrase Corpus，微软研究院释义语料库)，相似性和释义任务，是从在线新闻源中自动抽取句子对语料库，并人工注释句子对中的句子是否在语义上等效。类别并不平衡，其中68%的正样本，所以遵循常规的做法，报告准确率（accuracy）和F1值。
  - 样本个数：训练集3, 668个，开发集408个，测试集1, 725个。
  - 任务：是否释义二分类，是释义，不是释义两类。
  - 评价准则：准确率（accuracy）和F1值。
  
- STSB(The Semantic Textual Similarity Benchmark，语义文本相似性基准测试)，相似性和释义任务，是从新闻标题、视频标题、图像标题以及自然语言推断数据中提取的句子对的集合，每对都是由人类注释的，其相似性评分为0-5(大于等于0且小于等于5的浮点数，原始paper里写的是1-5，可能是作者失误）。任务就是预测这些相似性得分，本质上是一个回归问题，但是依然可以用分类的方法，可以归类为句子对的文本五分类任务。
  - 样本个数：训练集5, 749个，开发集1, 379个，测试集1, 377个。
  - 任务：回归任务，预测为1-5之间的相似性得分的浮点数。但是依然可以使用分类的方法，作为五分类。
  - 评价准则：Pearson and Spearman correlation coefficients。

- QQP(The Quora Question Pairs, Quora问题对数集)，相似性和释义任务，是社区问答网站Quora中问题对的集合。任务是确定一对问题在语义上是否等效。与MRPC一样，QQP也是正负样本不均衡的，不同是的QQP负样本占63%，正样本是37%，所以我们也是报告准确率和F1值。我们使用标准测试集，为此我们从作者那里获得了专用标签。我们观察到测试集与训练集分布不同。
  - 样本个数：训练集363, 870个，开发集40, 431个，测试集390, 965个。
  - 任务：判定句子对是否等效，等效、不等效两种情况，二分类任务。
  - 评价准则：准确率（accuracy）和F1值。
  
- MNLI(The Multi-Genre Natural Language Inference Corpus, 多类型自然语言推理数据库)，自然语言推断任务，是通过众包方式对句子对进行文本蕴含标注的集合。给定前提（premise）语句和假设（hypothesis）语句，任务是预测前提语句是否包含假设（蕴含, entailment），与假设矛盾（矛盾，contradiction）或者两者都不（中立，neutral）。前提语句是从数十种不同来源收集的，包括转录的语音，小说和政府报告。
  - 样本个数：训练集392, 702个，开发集dev-matched 9, 815个，开发集dev-mismatched9, 832个，测试集test-matched 9, 796个，测试集test-dismatched9, 847个。因为MNLI是集合了许多不同领域风格的文本，所以又分为了matched和mismatched两个版本的数据集，matched指的是训练集和测试集的数据来源一致，mismached指的是训练集和测试集来源不一致。
   - 任务：句子对，一个前提，一个是假设。前提和假设的关系有三种情况：蕴含（entailment），矛盾（contradiction），中立（neutral）。句子对分类问题。
  - 评价准则：matched accuracy/mismatched accuracy。
  

## SST-2数据集下载

- 官方的下载链接：https://gluebenchmark.com/tasks
- 官方下载脚本：https://github.com/nyu-mll/jiant/blob/master/scripts/download_glue_data.py
- 下载数据的脚本：https://gist.github.com/W4ngatang/60c2bdb54d156a41194446737ce03e2e
- glue基准数据集下载，提取码：kq85，链接：https://pan.baidu.com/s/1WTYY37dooKN0AWXkIfECmg

In [13]:
sst_train_pd = pd.read_csv('data_files/glue_data/SST-2/train.tsv', sep='\t')
sst_val_pd = pd.read_csv('data_files/glue_data/SST-2/dev.tsv', sep='\t')
sst_test_pd = pd.read_csv('data_files/glue_data/SST-2/test.tsv', sep='\t')

In [51]:
sst_val_pd

Unnamed: 0,sentence,label
0,it 's a charming and often affecting journey .,1
1,unflinchingly bleak and desperate,0
2,allows us to hope that nolan is poised to emba...,1
3,"the acting , costumes , music , cinematography...",1
4,"it 's slow -- very , very slow .",0
...,...,...
867,has all the depth of a wading pool .,0
868,a movie with a real anarchic flair .,1
869,a subject like this should inspire reaction in...,0
870,... is an arthritic attempt at directing by ca...,0


In [14]:
len(sst_train_pd), len(sst_val_pd), len(sst_test_pd)

(67349, 872, 1821)

# examples/text-classification/run_glue.py
Finetuning the library models for sequence classification on GLUE

In [None]:
!python examples/text-classification/run_glue.py \
        --cache_dir weibo_senti_100k/tmp \
        --model_name_or_path weibo_senti_100k/pretrain_model_files/bert-base-chinese \
        --output_dir weibo_senti_100k/finetune_model_files/bert-base-chinese \
        --train_file weibo_senti_100k/data_files/train.csv \
        --validation_file weibo_senti_100k/data_files/dev.csv \
        --test_file weibo_senti_100k/data_files/test.csv \
        --overwrite_output_dir \
        --no_cuda \
        --do_train \
        --do_eval \
        --do_predict

04/18/2021 17:56:18 - INFO - __main__ -   Training/evaluation parameters TrainingArguments(output_dir=weibo_senti_100k/finetune_model_files/bert-base-chinese, overwrite_output_dir=True, do_train=True, do_eval=True, do_predict=True, evaluation_strategy=IntervalStrategy.NO, prediction_loss_only=False, per_device_train_batch_size=8, per_device_eval_batch_size=8, gradient_accumulation_steps=1, eval_accumulation_steps=None, learning_rate=5e-05, weight_decay=0.0, adam_beta1=0.9, adam_beta2=0.999, adam_epsilon=1e-08, max_grad_norm=1.0, num_train_epochs=3.0, max_steps=-1, lr_scheduler_type=SchedulerType.LINEAR, warmup_ratio=0.0, warmup_steps=0, logging_dir=runs/Apr18_17-56-18_xuetfdeMacBook-Pro.local, logging_strategy=IntervalStrategy.STEPS, logging_first_step=False, logging_steps=500, save_strategy=IntervalStrategy.STEPS, save_steps=500, save_total_limit=None, no_cuda=True, seed=42, fp16=False, fp16_opt_level=O1, fp16_backend=auto, fp16_full_eval=False, local_rank=-1, tpu_num_cores=None, tpu_

[INFO|trainer.py:497] 2021-04-18 17:56:30,667 >> The following columns in the training set  don't have a corresponding argument in `BertForSequenceClassification.forward` and have been ignored: sentence.
[INFO|trainer.py:497] 2021-04-18 17:56:30,668 >> The following columns in the evaluation set  don't have a corresponding argument in `BertForSequenceClassification.forward` and have been ignored: sentence.
[INFO|configuration_utils.py:489] 2021-04-18 17:56:30,668 >> loading configuration file weibo_senti_100k/pretrain_model_files/bert-base-chinese/config.json
[INFO|configuration_utils.py:527] 2021-04-18 17:56:30,669 >> Model config BertConfig {
  "architectures": [
    "BertForMaskedLM"
  ],
  "attention_probs_dropout_prob": 0.1,
  "directionality": "bidi",
  "gradient_checkpointing": false,
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 768,
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "layer_norm_eps": 1e-12,
  "max_position_embeddings": 512,
  