## 14.1 背景说明
本章用到预训练模型库Transformers为自然语言理解（NLU）和自然语言生成（NLG）提供了最先进的通用架构（BERT、GPT、GPT-2、Transformer-XL、XLNet、XLM、T5等等），其中有超过30多个大类100多种语言的预训练模型并同时支持TensorFlow 2.0和Pythorch1.0两大深度学习框架。可用pip安装Transformers。
这章使用BERT模型中汉语版本：BERT-Base, Chinese: 包括简体和繁体汉字，共12层，768个隐单元，12个Attention head，110M参数。中文 BERT 的字典大小约有 2.1 万个标识符(Tokens)，这些预训练模型可以从Transformers官网下载。  
	使用了可视化工具BertViz，它的安装步骤如下：  
	1）下载bertviz，地址为https://github.com/jessevig/bertviz；  
	2）解压到jupyter notebook当前目录下，即bertviz-master。  

### 14.1.1 查看中文BERT字典里的一些信息
1）导入需要的库。指定使用预训练模型bert-base-chinese。

In [1]:
import torch
from transformers import BertTokenizer
from IPython.display import clear_output

# 指定繁简中文 BERT-BASE预训练模型
PRETRAINED_MODEL_NAME = "bert-base-chinese"  

# 获取预测模型所使用的tokenizer
tokenizer = BertTokenizer.from_pretrained(PRETRAINED_MODEL_NAME)

2）查看tokenizer的信息

In [2]:
vocab = tokenizer.vocab
print("字典大小：", len(vocab))

字典大小： 21128


中文 BERT 的字典大小约有 2.1 万个标识符(tokens)

3）查看分词的一些信息

In [4]:
import random
random_tokens = random.sample(list(vocab), 5)
random_ids = [vocab[t] for t in random_tokens]

print("{0:20}{1:15}".format("token", "index"))
print("-" * 30)
for t, id in zip(random_tokens, random_ids):
    print("{0:15}{1:10}".format(t, id))

token               index          
------------------------------
##san               10978
王                    4374
##and                9369
蚀                    6008
60                   8183


BERT 使用当初 Google NMT 提出的WordPieceTokenization，将本来的 words 拆成更小粒度的wordpieces，有效处理不在字典里头的词汇。中文的话就相当于单词级分词，而有 ## 前缀的 tokens 即为wordpieces。
除了一般的wordpieces以外，BERT还有5个特殊tokens：  
	[CLS]：在做分类任务时其最后一层的表示.会被视为整个输入序列的表示；  
	[SEP]：有两个句子的文本会被串接成一个输入序列，并在两句之间插入这个token作为分割；  
	[UNK]：没出现在BERT字典里头的字会被这个token取代；  
	[PAD]：zero padding掩码，将长度不一的输入序列补齐方便做batch运算；  
	[MASK]：未知掩码，仅在预训练阶段会用到。  

### 14.1.2 使用Tokenizer分割中文语句
	让我们利用中文BERT的tokenizer将一个中文句子断词。

In [5]:
text = "[CLS] 他移开这[MASK]桌子，就看到他的手表了。"
tokens = tokenizer.tokenize(text)
ids = tokenizer.convert_tokens_to_ids(tokens)

print(text)
print(tokens[:10], '...')
print(ids[:10], '...')

[CLS] 他移开这[MASK]桌子，就看到他的手表了。
['[CLS]', '他', '移', '开', '这', '[MASK]', '桌', '子', '，', '就'] ...
[101, 800, 4919, 2458, 6821, 103, 3430, 2094, 8024, 2218] ...


## 14.2 可视化BERT注意力权重
	现在马上让我们看看给定上面有 [MASK] 的句子，BERT会填入什么字。
### 14.2.1 BERT对MAKS字的预测
	使用BertForMaskedLM模型对被Masked的词进行预测

In [6]:
"""
导入已训练好的masked语言模型并对有[MASK]的句子做预测
"""
from transformers import BertForMaskedLM

# 除了tokens 以外我們还需要辨別句子的segment ids
tokens_tensor = torch.tensor([ids])  # (1, seq_len)
segments_tensors = torch.zeros_like(tokens_tensor)  # (1, seq_len)
maskedLM_model = BertForMaskedLM.from_pretrained(PRETRAINED_MODEL_NAME)
clear_output()

# 使用masked LM 估计[MASK]位置所代表的实际标识符(token)
maskedLM_model.eval()
with torch.no_grad():
    outputs = maskedLM_model(tokens_tensor, segments_tensors)
    predictions = outputs[0]
    # (1, seq_len, num_hidden_units)
del maskedLM_model

# 将[MASK]位置的概率分布取前k个最有可能的标识符出来
masked_index = 5
k = 3
probs, indices = torch.topk(torch.softmax(predictions[0, masked_index], -1), k)
predicted_tokens = tokenizer.convert_ids_to_tokens(indices.tolist())

# 显示前k个最可能的字。一般取第一个作为预测值
print("輸入 tokens ：", tokens[:10], '...')
print('-' * 50)
for i, (t, p) in enumerate(zip(predicted_tokens, probs), 1):
    tokens[masked_index] = t
    print("Top {} ({:2}%)：{}".format(i, int(p.item() * 100), tokens[:10]), '...')

輸入 tokens ： ['[CLS]', '他', '移', '开', '这', '[MASK]', '桌', '子', '，', '就'] ...
--------------------------------------------------
Top 1 (83%)：['[CLS]', '他', '移', '开', '这', '张', '桌', '子', '，', '就'] ...
Top 2 ( 7%)：['[CLS]', '他', '移', '开', '这', '个', '桌', '子', '，', '就'] ...
Top 3 ( 0%)：['[CLS]', '他', '移', '开', '这', '间', '桌', '子', '，', '就'] ...


BERT透过关注这桌这两个字，从2万多个wordpieces的可能性中选出"张"作为这个情境下[MASK] token的预测值，效果还是不错的。

### 14.2.2 导入可视化需要的库
1）导入需要的库

In [7]:
# import packages
from transformers import BertTokenizer, BertModel
from bertv_master.bertviz import head_view

2）创建可视化使用html配置函数

In [8]:
# 在 jupyter notebook 显示visualzation 
def call_html():
  import IPython
  display(IPython.core.display.HTML('''
        <script src="/static/components/requirejs/require.js"></script>
        <script>
          requirejs.config({
            paths: {
              base: '/static/base',
              "d3": "https://cdnjs.cloudflare.com/ajax/libs/d3/3.5.8/d3.min",
              jquery: '//ajax.googleapis.com/ajax/libs/jquery/2.0.0/jquery.min',
            },
          });
        </script>
        '''))


### 14.2.3 可视化
使用bert-base-chinese版本，对语句sentence_a、sentence_b的自注意力权重进行可视化。

In [None]:
# 記得我們是使用中文 BERT
model_version = 'bert-base-chinese'
model = BertModel.from_pretrained(model_version, output_attentions=True)
tokenizer = BertTokenizer.from_pretrained(model_version)

# 情境 1 的句子
sentence_a = "老爸叫小宏去买酱油，"
sentence_b = "回来慢了就骂他。"

# 得到tokens后输入BERT模型获取注意力权重(attention)
inputs = tokenizer.encode_plus(sentence_a,sentence_b,return_tensors='pt', add_special_tokens=True)
token_type_ids = inputs['token_type_ids']
input_ids = inputs['input_ids']
attention = model(input_ids, token_type_ids=token_type_ids)[-1]
input_id_list = input_ids[0].tolist() # Batch index 0
tokens = tokenizer.convert_ids_to_tokens(input_id_list)
call_html()

# 用BertViz可视化
head_view(attention, tokens)

![image.png](attachment:image.png)


这是BERT第 9 层 Encoder block 其中一个 head 的注意力结果,从改图可以看出，左边的这个他对右边的宏关注度较高。

### １４.3　用BERT预训练模型微调下游任务

步骤1、4及5都跟训练一般模型所需的步骤无太大差异。与BERT最相关步骤是2与3：

如何将原始数据转换成BERT兼容的输入格式？ 如何在BERT之上建立layer（s）以符合下游任务需求？ 
接下来我们以假新闻分类任务为例回答这些问题。这个任务的输入是两个句子，输出是3个类别概率的多类别分类任务（multi-class classification task），跟NLP领域里常见的自然语言推论（Natural Language Inference）具有相同性质。

### １４.3.1 准备原始文本数据

In [11]:
import os
import pandas as pd

# 数据清理，清理空白
df_train = pd.read_csv("./data/fake-news/train.csv")
empty_title = ((df_train['title2_zh'].isnull()) \
               | (df_train['title1_zh'].isnull()) \
               | (df_train['title2_zh'] == '') \
               | (df_train['title2_zh'] == '0'))
df_train = df_train[~empty_title]

# 过滤太长的样本，以避免BERT无法将整个输入序列放入资源有限的GPU中
MAX_LENGTH = 30
df_train = df_train[~(df_train.title1_zh.apply(lambda x : len(x)) > MAX_LENGTH)]
df_train = df_train[~(df_train.title2_zh.apply(lambda x : len(x)) > MAX_LENGTH)]

# 只用1% 训练数据看看BERT对少量标注数据有多少帮助
SAMPLE_FRAC = 0.01
df_train = df_train.sample(frac=SAMPLE_FRAC, random_state=9527)

# 去除不必要的栏位并重新命名两标题的栏位名
df_train = df_train.reset_index()
df_train = df_train.loc[:, ['title1_zh', 'title2_zh', 'label']]
df_train.columns = ['text_a', 'text_b', 'label']

# 将处理结果保存tsv文件供PyTorch使用
df_train.to_csv("train.tsv", sep="\t", index=False)

print("训练样本数：", len(df_train))
df_train.head()

训练样本数： 2657


Unnamed: 0,text_a,text_b,label
0,苏有朋要结婚了，但网友觉得他还是和林心如比较合适,好闺蜜结婚给不婚族的秦岚扔花球，倒霉的秦岚掉水里笑哭苏有朋！,unrelated
1,爆料李小璐要成前妻了贾乃亮模仿王宝强一步到位、快刀斩乱麻！,李小璐要变前妻了？贾乃亮可能效仿王宝强当机立断，快刀斩乱麻！,agreed
2,为彩礼，母亲把女儿嫁给陌生男子，十年后再见面，母亲湿了眼眶,阿姨，不要彩礼是觉得你家穷，给你台阶下，不要以为我嫁不出去！,unrelated
3,猪油是个宝，一勺猪油等于十副药，先备起来再说,传承千百的猪油为何变得人人唯恐避之不及？揭开猪油的四大谣言！,unrelated
4,剖析：香椿，为什么会致癌？,香椿含亚硝酸盐多吃会致癌？测完发现是谣言,disagreed


这里在抽样1%的数据后还将过长的样本去除，实际上会被拿来训练的样本数只有2,657笔，占不到参赛时可以用的训练数据的1 %，是非常少量的数据。 我们也可以看到unrelated的样本占了68 %，因此我们用BERT训练出来的分类器最少最少要超过68 % baseline才行：

In [12]:
df_train.label.value_counts() / len(df_train)

unrelated    0.679338
agreed       0.294317
disagreed    0.026346
Name: label, dtype: float64

接着对最后要预测的测试集做些非常基本的预处理，方便之后提交符合要求的格式。

In [14]:
df_test = pd.read_csv("./data/fake-news/test.csv")
df_test = df_test.loc[:, ["title1_zh", "title2_zh", "id"]]
df_test.columns = ["text_a", "text_b", "Id"]
df_test.to_csv("test.tsv", sep="\t", index=False)

print("预测样本数：", len(df_test))
df_test.head()

预测样本数： 80126


Unnamed: 0,text_a,text_b,Id
0,萨拉赫人气爆棚!埃及总统大选未参选获百万选票 现任总统压力山大,辟谣！里昂官方否认费基尔加盟利物浦，难道是价格没谈拢？,321187
1,萨达姆被捕后告诫美国的一句话，发人深思,10大最让美国人相信的荒诞谣言，如蜥蜴人掌控着美国,321190
2,萨达姆此项计划没有此国破坏的话，美国还会对伊拉克发动战争吗,萨达姆被捕后告诫美国的一句话，发人深思,321189
3,萨达姆被捕后告诫美国的一句话，发人深思,被绞刑处死的萨达姆是替身？他的此男人举动击破替身谣言！,321193
4,萨达姆被捕后告诫美国的一句话，发人深思,中国川贝枇杷膏在美国受到热捧？纯属谣言！,321191


In [15]:
ratio = len(df_test) / len(df_train)
print("测试样本数 / 训练样本数 = {:.1f} 倍".format(ratio))

测试样本数 / 训练样本数 = 30.2 倍


### 14.3.2.将原始文本转换成BERT的输入格式
处理完原始数据以后，最关键的就是了解如何让BERT读取这些数据以做训练和推论。这时候我们需要了解BERT的输入编码格式。 这步骤是本文的关键。以下是原论文里头展示的成对句子编码示意图：

![image.png](attachment:image.png)

1、第二条分隔线之上的内容是BERT论文里展示的例子。
图中的每个Token Embedding都对应到前面提过的一个wordpiece，而Segment Embeddings则代表不同句子的位置，是学出来的。Positional Embeddings则跟其他Transformer构架中出现的位置编码同出一辙。

2、第二条分隔线之下的信息。  
我们需要将原始文本转换成3种id tensors：
tokens_tensor：代表识别每个token的索引值，用tokenizer转换即可
segments_tensor：用来识别句子界限。第一句为0，第二句则为1。另外注意句子间的[SEP]为0
masks_tensor：用来界定自注意力机制范围。1让BERT关注该位置，0则代表是padding不需关注。

论文里的例子并没有说明[PAD] token，但实务上每个batch里头的输入序列长短不一，为了让GPU并行计算我们需要将batch里的每个输入序列都补上zero padding以保证它们长度一致。另外masks_tensor以及segments_tensor在[PAD]对应位置的值也都是0。

这就是我们需要把原始文本转换成BERT兼容的格式。

### 14.3.3 自定义读取数据函数

In [17]:
"""
自定义读取训练/测试集的函数。
此函数每次将tsv里的一笔成对句子转换成BERT兼容的格式，并回传3个tenors：
- tokens_tensor：两个句子合并后的索引序列，包含[CLS]与[SEP]
- segments_tensor：可以用来识别两个句子界限的binary tensor
- label_tensor：将分类标签转换成类别索引的tensor，如果是测试集则回传None
"""
from torch.utils.data import Dataset
 
#自定义读取数据函数，根据PyTorch的要求，需要包括读取一行函数(__getitem__)
#及度量句子长度的函数(__len__)    
class FakeNewsDataset(Dataset):
    # 读取处理后的tsv文件并初始化一些参数
    def __init__(self, mode, tokenizer):
        assert mode in ["train", "test"]  
        self.mode = mode
        self.df = pd.read_csv(mode + ".tsv", sep="\t").fillna("")
        self.len = len(self.df)
        self.label_map = {'agreed': 0, 'disagreed': 1, 'unrelated': 2}
        self.tokenizer = tokenizer  # 将使用BERT tokenizer
    
    # 定义回传一笔训练及测试数据的函数
    def __getitem__(self, idx):
        if self.mode == "test":
            text_a, text_b = self.df.iloc[idx, :2].values
            label_tensor = None
        else:
            text_a, text_b, label = self.df.iloc[idx, :].values
            # 将标签label文字也转换成索引，以便转换为张量(tensor)
            label_id = self.label_map[label]
            label_tensor = torch.tensor(label_id)
            
        # 建立第一个句子的 BERT tokens 并加入分隔符[SEP]
        word_pieces = ["[CLS]"]
        tokens_a = self.tokenizer.tokenize(text_a)
        word_pieces += tokens_a + ["[SEP]"]
        len_a = len(word_pieces)
        
        # 第二个句子的BERT tokens
        tokens_b = self.tokenizer.tokenize(text_b)
        word_pieces += tokens_b + ["[SEP]"]
        len_b = len(word_pieces) - len_a
        
        # 将整个token 序列转换成索引序列
        ids = self.tokenizer.convert_tokens_to_ids(word_pieces)
        tokens_tensor = torch.tensor(ids)
        
        # 将第一句包含 [SEP] 的标识（token）位置设为0，其他为1表示第二句
        segments_tensor = torch.tensor([0] * len_a + [1] * len_b, 
                                        dtype=torch.long)
        
        return (tokens_tensor, segments_tensor, label_tensor)
    
    def __len__(self):
        return self.len
    
    
# 初始化一个读取训练样本的数据，使用中文BERT断词
trainset = FakeNewsDataset("train", tokenizer=tokenizer)

### 14.3.4 读取数据并进行数据转换
现在让我们看看第一个训练样本转换前后的格式差异：

In [18]:
# 选择第一个样本
sample_idx = 0

# 与原始文本做比较
text_a, text_b, label = trainset.df.iloc[sample_idx].values

# 利用刚创建数据集，取出转换后的id tensors
tokens_tensor, segments_tensor, label_tensor = trainset[sample_idx]

# 将tokens_tensor还原成文本
tokens = tokenizer.convert_ids_to_tokens(tokens_tensor.tolist())
combined_text = "".join(tokens)

# 渲染前后差异，可以直接看到結果
print(f"""[原始文本]
句子 1：{text_a}
句子 2：{text_b}
分類  ：{label}
--------------------
[Dataset 回传的 tensors]
tokens_tensor  ：{tokens_tensor}
segments_tensor：{segments_tensor}
label_tensor   ：{label_tensor}
--------------------
[还原 tokens_tensors]
{combined_text}
""")

[原始文本]
句子 1：苏有朋要结婚了，但网友觉得他还是和林心如比较合适
句子 2：好闺蜜结婚给不婚族的秦岚扔花球，倒霉的秦岚掉水里笑哭苏有朋！
分類  ：unrelated
--------------------
[Dataset 回传的 tensors]
tokens_tensor  ：tensor([ 101, 5722, 3300, 3301, 6206, 5310, 2042,  749, 8024,  852, 5381, 1351,
        6230, 2533,  800, 6820, 3221, 1469, 3360, 2552, 1963, 3683, 6772, 1394,
        6844,  102, 1962, 7318, 6057, 5310, 2042, 5314,  679, 2042, 3184, 4638,
        4912, 2269, 2803, 5709, 4413, 8024,  948, 7450, 4638, 4912, 2269, 2957,
        3717, 7027, 5010, 1526, 5722, 3300, 3301, 8013,  102])
segments_tensor：tensor([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
        1, 1, 1, 1, 1, 1, 1, 1, 1])
label_tensor   ：2
--------------------
[还原 tokens_tensors]
[CLS]苏有朋要结婚了，但网友觉得他还是和林心如比较合适[SEP]好闺蜜结婚给不婚族的秦岚扔花球，倒霉的秦岚掉水里笑哭苏有朋！[SEP]



### 14.3.5 增加一个批量维度
使用DataLoader，对训练数据添加批量维度

In [19]:
"""
返回一个mini-batch的DataLoader
这个DataLoader基于上面定义函数`FakeNewsDataset`，
返回训练BERT时，需要4个tensors：
- tokens_tensors：（batch_size，max_seq_len_in_batch）
- segments_tensors:（batch_size，max_seq_len_in_batch）
- masks_tensors：（batch_size，max_seq_len_in_batch）
- label_ids：（batch_size）
"""

from torch.utils.data import DataLoader
from torch.nn.utils.rnn import pad_sequence

# 这个样本（sample)是一个列表（list），其中每个元素都是
# 刚定义的`FakeNewsDataset` 回传的一个样本，每个样本都包含3个张量（tensors）：
# - tokens_tensor
# - segments_tensor
# - label_tensor
# 对前两个tensors 作 zero padding，并产生masks_tensors
def create_mini_batch(samples):
    tokens_tensors = [s[0] for s in samples]
    segments_tensors = [s[1] for s in samples]
    
    # 测试集有标签（labels）
    if samples[0][2] is not None:
        label_ids = torch.stack([s[2] for s in samples])
    else:
        label_ids = None
    
    # 对长短不一的使用0填充，使之长度相同
    tokens_tensors = pad_sequence(tokens_tensors, 
                                  batch_first=True)
    segments_tensors = pad_sequence(segments_tensors, 
                                    batch_first=True)
    
    # attention masks，将tokens_tensors中不为0（填充为0）
    # 的位置设置为1 ，使BERT只关注这些位置的标识（tokens）
    masks_tensors = torch.zeros(tokens_tensors.shape, 
                                dtype=torch.long)
    masks_tensors = masks_tensors.masked_fill(
        tokens_tensors != 0, 1)
    
    return tokens_tensors, segments_tensors, masks_tensors, label_ids


# 每次传递32（该值根据GPU性能进行调整）个训练样本的DataLoader
# 利用 `collate_fn` 将样本列合并成一个小批量(mini-batch)
BATCH_SIZE = 32
trainloader = DataLoader(trainset, batch_size=BATCH_SIZE, 
                         collate_fn=create_mini_batch)

### 14.3.6 查看一个批次数据样例

输入的可能是: 中文(简体) 有了可以回传mini-batch的DataLoader后，让我们马上拿出一个batch看看：

In [20]:
data = next(iter(trainloader))

tokens_tensors, segments_tensors, \
    masks_tensors, label_ids = data

print(f"""
tokens_tensors.shape   = {tokens_tensors.shape} 
{tokens_tensors}
------------------------
segments_tensors.shape = {segments_tensors.shape}
{segments_tensors}
------------------------
masks_tensors.shape    = {masks_tensors.shape}
{masks_tensors}
------------------------
label_ids.shape        = {label_ids.shape}
{label_ids}
""")


tokens_tensors.shape   = torch.Size([32, 63]) 
tensor([[ 101, 5722, 3300,  ...,    0,    0,    0],
        [ 101, 4255, 3160,  ..., 8013,  102,    0],
        [ 101,  711, 2506,  ..., 8013,  102,    0],
        ...,
        [ 101, 8164, 2259,  ...,    0,    0,    0],
        [ 101, 1912, 3215,  ..., 4685, 1398,  102],
        [ 101, 1290,  711,  ...,    0,    0,    0]])
------------------------
segments_tensors.shape = torch.Size([32, 63])
tensor([[0, 0, 0,  ..., 0, 0, 0],
        [0, 0, 0,  ..., 1, 1, 0],
        [0, 0, 0,  ..., 1, 1, 0],
        ...,
        [0, 0, 0,  ..., 0, 0, 0],
        [0, 0, 0,  ..., 1, 1, 1],
        [0, 0, 0,  ..., 0, 0, 0]])
------------------------
masks_tensors.shape    = torch.Size([32, 63])
tensor([[1, 1, 1,  ..., 0, 0, 0],
        [1, 1, 1,  ..., 1, 1, 0],
        [1, 1, 1,  ..., 1, 1, 0],
        ...,
        [1, 1, 1,  ..., 0, 0, 0],
        [1, 1, 1,  ..., 1, 1, 1],
        [1, 1, 1,  ..., 0, 0, 0]])
------------------------
label_ids.shape        

建立BERT用的mini-batch时最需要注意的就是zero padding的存在了。你可以发现除了lable_ids以外，其他3个tensors的每个样本的最后大都为0，这是因为每个样本的tokens序列基本上长度都会不同，需要补padding

到此为止我们已经成功地将原始文本转换成BERT兼容的输入格式了。这部分内容较多，也是本章最重要内容，值得用些时间理解一下。
把数据转换成满足BERT输入格式的张量(tensors)后，接下来就可以在BERT之上，通过微调来训练下游任务了。

### 14.3.7 微调BERT完成下游任务

在原预训练模型BERT上做一些微调，如增加一个做分类的全连接层，就可用来实现分类。

![image.png](attachment:image.png)

因为假新闻分类是一个成对句子分类任务，自然就对应到上图的左下角。如何微调原BERT模型？HuggingFace已开发了针对各种下游任务的微调模型，如对下游的分类任务，开发了bertForSequenceClassification模型，其模型是在已训练的BERT + Linear Classifier。

### 14.3.8 查看微调后模型的结构

In [26]:
# 导入一个用来中文多分类任务的模型，n_class = 3
from transformers import BertForSequenceClassification

PRETRAINED_MODEL_NAME = "bert-base-chinese"
NUM_LABELS = 3

model = BertForSequenceClassification.from_pretrained(
    PRETRAINED_MODEL_NAME, num_labels=NUM_LABELS)

clear_output()
# high-level显示此模型中的模型(modules)信息
print(f"""
name            module
----------------------""")
for name, module in model.named_children():
    if name == "bert":
        for n, _ in module.named_children():
            print(f"{name}:{n}")
    else:
        print("{:15} {}".format(name, module))


name            module
----------------------
bert:embeddings
bert:encoder
bert:pooler
dropout         Dropout(p=0.1, inplace=False)
classifier      Linear(in_features=768, out_features=3, bias=True)


我们的分类模型model也就只是在BERT之上加入dropout以及简单的linear classifier，最后输出用来预测类别的logits。这就是两阶段迁移学习强大的地方：你不用再自己依照不同NLP任务从零设计非常复杂的模型，只需要站在巨人肩膀上，然后再做一点点事情就好了。

你也可以看到整个分类模型model预设的隐状态维度为768。如果你想要更改BERT的超参数，可以透过给一个config dict来设定。以下则是分类模型model预设的参数设定：

In [27]:
model.config

BertConfig {
  "architectures": [
    "BertForMaskedLM"
  ],
  "attention_probs_dropout_prob": 0.1,
  "directionality": "bidi",
  "gradient_checkpointing": false,
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 768,
  "id2label": {
    "0": "LABEL_0",
    "1": "LABEL_1",
    "2": "LABEL_2"
  },
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "label2id": {
    "LABEL_0": 0,
    "LABEL_1": 1,
    "LABEL_2": 2
  },
  "layer_norm_eps": 1e-12,
  "max_position_embeddings": 512,
  "model_type": "bert",
  "num_attention_heads": 12,
  "num_hidden_layers": 12,
  "pad_token_id": 0,
  "pooler_fc_size": 768,
  "pooler_num_attention_heads": 12,
  "pooler_num_fc_layers": 3,
  "pooler_size_per_head": 128,
  "pooler_type": "first_token_transform",
  "type_vocab_size": 2,
  "vocab_size": 21128
}

pytorch有关bert的模型有10个，具体可参考： https://huggingface.co/transformers/model_doc/bert.html

### 14.4 训练模型

数据已准备好以后，接下来开始训练模型，除了需要记得我们前面定义的 batch 数据格式以外，训练分类模型 model 就跟一般你使用 PyTorch 训练模型做的事情相同。

### 14.4.1 定义预测函数

In [31]:
device = torch.device("cuda:1" if torch.cuda.is_available() else "cpu")

def get_predictions(model, dataloader, compute_acc=False):
    predictions = None
    correct = 0
    total = 0
      
    with torch.no_grad():
        # 循环整个数据集
        for data in dataloader:
            # 将所有 tensors 移到GPU上
            if next(model.parameters()).is_cuda:
                data = [t.to(device) for t in data if t is not None]
            
            # 前3个tensors 分別为tokens, segments 以及 masks
            # 且建议在将这些张量导入model时，指定对应的参数名称
            tokens_tensors, segments_tensors, masks_tensors = data[:3]
            outputs = model(input_ids=tokens_tensors, 
                            token_type_ids=segments_tensors, 
                            attention_mask=masks_tensors)
            
            logits = outputs[0]
            _, pred = torch.max(logits.data, 1)
            
            # 计算训练集的准确率
            if compute_acc:
                labels = data[3]
                total += labels.size(0)
                correct += (pred == labels).sum().item()
                
            #记录当前批次信息
            if predictions is None:
                predictions = pred
            else:
                predictions = torch.cat((predictions, pred))
    
    if compute_acc:
        acc = correct / total
        return predictions, acc
    return predictions

### 14.4.2 训练模型

In [37]:
%%time

#训练模型
model.train().to(device)

# 使用优化器Adam Optim更新参数
optimizer = torch.optim.Adam(model.parameters(), lr=1e-5)


EPOCHS = 6  #循环次数
for epoch in range(EPOCHS):
    
    running_loss = 0.0
    for data in trainloader:
        
        tokens_tensors, segments_tensors, \
        masks_tensors, labels = [t.to(device) for t in data]

        # 重置参数梯度
        optimizer.zero_grad()
        
        # forward pass
        outputs = model(input_ids=tokens_tensors, 
                        token_type_ids=segments_tensors, 
                        attention_mask=masks_tensors, 
                        labels=labels)

        loss = outputs[0]
        # backward
        loss.backward()
        optimizer.step()


        # 记录当前的批量损失值
        running_loss += loss.item()
        
    # 计算分类准确率
    _, acc = get_predictions(model, trainloader, compute_acc=True)

    print('[epoch %d] loss: %.3f, acc: %.3f' %
          (epoch + 1, running_loss, acc))

[epoch 1] loss: 49.698, acc: 0.855
[epoch 2] loss: 30.061, acc: 0.889
[epoch 3] loss: 21.553, acc: 0.938
[epoch 4] loss: 17.090, acc: 0.937
[epoch 5] loss: 12.715, acc: 0.960
[epoch 6] loss: 7.431, acc: 0.986
CPU times: user 10min 43s, sys: 1min 59s, total: 12min 42s
Wall time: 12min 42s


从准确率看得出我们的分类模型在非常小量的训练集的表现已经十分不错，接着让我们看看这个模型在真实世界.

## 14.5 测试模型
用训练过后的分类模型 model 为测试集里的每个样本产生预测分类

### 14.5.1 用新数据测试模型

In [38]:
%%time
# 创建测试集。这里batch_size的大小可根据GPU性能调整，性能好可以调大一些
testset = FakeNewsDataset("test", tokenizer=tokenizer)
testloader = DataLoader(testset, batch_size=32, 
                        collate_fn=create_mini_batch)

# 基于测试集进行分类预测
predictions = get_predictions(model, testloader)

# 将预测的label id转换为label文字
index_map = {v: k for k, v in testset.label_map.items()}

# 生成可提交csv文档
df = pd.DataFrame({"Category": predictions.tolist()})
df['Category'] = df.Category.apply(lambda x: index_map[x])
df_pred = pd.concat([testset.df.loc[:, ["Id"]], 
                          df.loc[:, 'Category']], axis=1)
df_pred.to_csv('bert_1_prec_training_samples.csv', index=False)
df_pred.head()

CPU times: user 11min 8s, sys: 4min 29s, total: 15min 37s
Wall time: 15min 37s


Unnamed: 0,Id,Category
0,321187,unrelated
1,321190,unrelated
2,321189,unrelated
3,321193,unrelated
4,321191,unrelated


### 14.5.2 比较微调前后数据异同
看看 BERT 本身在 fine tuning 之前与之后的差异。以下程式码列出模型成功预测 disagreed 类别的一些例子

In [40]:
predictions = get_predictions(model, trainloader)
df = pd.DataFrame({"predicted": predictions.tolist()})
df['predicted'] = df.predicted.apply(lambda x: index_map[x])
df1 = pd.concat([trainset.df, df.loc[:, 'predicted']], axis=1)
disagreed_tp = ((df1.label == 'disagreed') & \
                (df1.label == df1.predicted) & \
                (df1.text_a.apply(lambda x: True if len(x) < 10 else False)))
df1[disagreed_tp].head()

Unnamed: 0,text_a,text_b,label,predicted
603,海口飞机撒药治白蛾,3月谣言盘点：飞机撒药治白蛾、驾考新规，你中“谣”了吗？,disagreed,disagreed
1752,海口飞机撒药治白蛾,紧急辟谣 飞机又来撒药治白蛾了？别再传了，是假的！,disagreed,disagreed
2646,12306数据泄漏,铁路12306 辟谣，称网站未发生用户信息泄漏！,disagreed,disagreed


从这些例子不难看出，要正确判断text_b 是反对text_a，首先要先关注「谣」、「假」等代表反对意义的词汇，接着再看看两个句子间有没有含义相反的词汇。

让我们从中随意选取一个例子，看看 fine tuned 后的 BERT 能不能关注到该关注的位置。再次出动 BertViz来视觉化 BERT的注意权重：

### 14.5.3. 可视化注意力权重

In [42]:
# 观察训练过后的 model 在处理假新闻分类任务时关注的位置
# 去掉 `state_dict` 即可观看原始BERT结果

model_version = 'bert-base-chinese'
finetuned_model  = BertModel.from_pretrained(model_version, 
                                  output_attentions=True, state_dict=model.state_dict())

#两个语句
sentence_a = "12306数据泄漏"
sentence_b = "辟谣：铁路12306 辟谣"

# 得到tokens后导入BERT获取注意力权重(attention)
inputs = tokenizer.encode_plus(sentence_a, sentence_b, return_tensors='pt', add_special_tokens=True)
token_type_ids = inputs['token_type_ids']
input_ids = inputs['input_ids']
attention = finetuned_model(input_ids, token_type_ids=token_type_ids)[-1]
input_id_list = input_ids[0].tolist() # Batch index 0
tokens = tokenizer.convert_ids_to_tokens(input_id_list)
call_html()
head_view(attention, tokens)

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

非常有意思的是，在看过一些假新闻分类数据以后，这层的一些 heads 在更新 [CLS]的表示时，会开始关注跟下游任务目标相关的特定词汇：

泄露
辟谣


![image.png](attachment:image.png)

非常有意思的是，在看过一些假新闻分类数据以后，这层的一些 heads 在更新 [CLS]的表示时，会开始关注跟下游任务目标相关的特定词汇：泄露、辟谣。