# 使用 PyTorch 逐行实现 Transformer

来自b站up主deep_thoughts 合集【PyTorch源码教程与前沿人工智能算法复现讲解】：P_18 到 P_21

P_18 深入刨析 PyTorch 中的 Transformer API 源码：
    
https://www.bilibili.com/video/BV1o44y1Y7cp/?spm_id_from=333.788&vd_source=18e91d849da09d846f771c89a366ed40

P_19 Transformer Encoder 原理精讲及其 PyTorch 逐行实现：

https://www.bilibili.com/video/BV1cP4y1V7GF/?spm_id_from=333.788&vd_source=18e91d849da09d846f771c89a366ed40

P_20 Transformer 模型 Decoder 原理精讲及其 PyTorch 逐行实现：

https://www.bilibili.com/video/BV1Qg411N74v/?spm_id_from=333.788&vd_source=18e91d849da09d846f771c89a366ed40

P_21 Transformer Masked loss 原理精讲及其 PyTorch 逐行实现：

https://www.bilibili.com/video/BV1dh411s7FW/?spm_id_from=333.788&vd_source=18e91d849da09d846f771c89a366ed40

In [15]:
import torch
import numpy as np
import torch.nn as nn
import torch.nn.functional as F

# 关于word embedding，以序列建模为例
# 考虑source sentence 和 target sentence
# 构建序列，序列的字符以其在词表中的索引的形式表示
batch_size = 2

# 单词表大小
max_num_src_words = 8
max_num_tgt_words = 8
model_dim = 8

# 序列的最大长度
max_src_seq_len = 5
max_tgt_seq_len = 5
max_position_len = 5

#src_len = torch.randint(2, 5, (batch_size,))
#tgt_len = torch.randint(2, 5, (batch_size,))
src_len = torch.Tensor([2, 4]).to(torch.int32)
tgt_len = torch.Tensor([4, 3]).to(torch.int32)

# 单词索引构成源句子和目标句子， 构建batch， 并且做了padding， 默认值为0
src_seq = torch.cat([torch.unsqueeze(F.pad(torch.randint(1, max_num_src_words, (L,)),(0, max(src_len)-L)), 0) for L in src_len])
tgt_seq = torch.cat([torch.unsqueeze(F.pad(torch.randint(1, max_num_tgt_words, (L,)),(0, max(tgt_len)-L)), 0) for L in tgt_len])

# 构造word embedding
src_embedding_table = nn.Embedding(max_num_src_words+1, model_dim)
tgt_embedding_table = nn.Embedding(max_num_tgt_words+1, model_dim)
src_embedding = src_embedding_table(src_seq)
tgt_embedding = tgt_embedding_table(tgt_seq)

# 构造position embedding
pos_mat = torch.arange(max_position_len).reshape((-1, 1))
i_mat = torch.pow(10000, torch.arange(0, 8, 2).reshape((1, -1))/model_dim)
pe_embedding_table = torch.zeros(max_position_len, model_dim)
pe_embedding_table[:, 0::2] = torch.sin(pos_mat / i_mat)
pe_embedding_table[:, 1::2] = torch.cos(pos_mat / i_mat)

pe_embedding = nn.Embedding(max_position_len, model_dim)
pe_embedding.weight = nn.Parameter(pe_embedding_table, requires_grad=False)

src_pos = torch.cat([torch.unsqueeze(torch.arange(max(src_len)),0) for _ in src_len]).to(torch.int32)
tgt_pos = torch.cat([torch.unsqueeze(torch.arange(max(tgt_len)),0) for _ in tgt_len]).to(torch.int32)

src_pe_embedding = pe_embedding(src_pos)
tgt_pe_embedding = pe_embedding(tgt_pos)

# 构造encoder的self-attention mask
# mask的shape：[batch_size, max_src_len, max_src_len],值为1或-inf
valid_encoder_pos = torch.unsqueeze(torch.cat([torch.unsqueeze(F.pad(torch.ones(L), (0, max(src_len)-L)),0) for L in src_len]), 2)

valid_encoder_pos_matrix = torch.bmm(valid_encoder_pos, valid_encoder_pos.transpose(1, 2))
invalid_encoder_pos_matrix = 1-valid_encoder_pos_matrix
mask_encoder_self_attention = invalid_encoder_pos_matrix.to(torch.bool)

score = torch.randn(batch_size, max(src_len), max(src_len))
masked_score = score.masked_fill(mask_encoder_self_attention, -1e9)
prob = F.softmax(masked_score, -1)

# Step5：构造intra-attention的mask
# Q @ K^T shape: [batch_size, tgt_seq_len, src_seq_len]
valid_encoder_pos = torch.unsqueeze(torch.cat([torch.unsqueeze(F.pad(torch.ones(L), (0, max(src_len)-L)),0) for L in src_len]), 2)
valid_decoder_pos = torch.unsqueeze(torch.cat([torch.unsqueeze(F.pad(torch.ones(L), (0, max(src_len)-L)),0) for L in tgt_len]), 2)
valid_cross_pos_matrix = torch.bmm(valid_decoder_pos, valid_encoder_pos.transpose(1, 2))
invalid_cross_pos_matrix = 1-valid_cross_pos_matrix
mask_cross_attention = invalid_cross_pos_matrix.to(torch.bool)

# Step6: 构造decoder self-attention的mask
valid_decoder_tri_matrix = torch.cat([torch.unsqueeze(F.pad(torch.tril(torch.ones((L, L))), (0, max(tgt_len)-L, 0, max(tgt_len)-L)),0) for L in tgt_len])
invalid_decoder_tri_matrix = 1-valid_decoder_tri_matrix
invalid_decoder_tri_matrix = invalid_decoder_tri_matrix.to(torch.bool)
score = torch.randn(batch_size, max(tgt_len), max(tgt_len))
masked_score = score.masked_fill(invalid_decoder_tri_matrix, -1e9)
prob = F.softmax(masked_score, -1)

# Step7: 构建scaled self-attention
def scaled_dot_product_attention(Q, K, V, attn_mask):
    score = torch.bmm(Q, K.transpose(-2, -1))/torch.sqrt(model_dim)
    masked_score = score.masked_fill(attn_mask, -1e9)
    prob = F.softmax(masked_score, -1)
    context = torch.bmm(prob, V)
    return context

In [44]:
# softmax演示, scaled的重要性
alpha1 = 0.1
alpha2 = 10
score = torch.randn(5)
prob1 = F.softmax(score*alpha1, -1)
prob2 = F.softmax(score*alpha2, -1)
def softmax_func(score):
    return F.softmax(score)
jaco_mat1 = torch.autograd.functional.jacobian(softmax_func, score*alpha1)
jaco_mat2 = torch.autograd.functional.jacobian(softmax_func, score*alpha2)
print(score)
print(jaco_mat1)
print(jaco_mat2)

tensor([-0.3876,  0.1989,  0.6898,  1.0837, -0.5549])
tensor([[ 0.1527, -0.0375, -0.0394, -0.0410, -0.0348],
        [-0.0375,  0.1597, -0.0418, -0.0435, -0.0369],
        [-0.0394, -0.0418,  0.1656, -0.0457, -0.0388],
        [-0.0410, -0.0435, -0.0457,  0.1704, -0.0403],
        [-0.0348, -0.0369, -0.0388, -0.0403,  0.1508]])
tensor([[ 3.9960e-07, -5.6306e-11, -7.6300e-09, -3.9191e-07, -2.9967e-14],
        [-5.6306e-11,  1.4089e-04, -2.6905e-06, -1.3820e-04, -1.0567e-11],
        [-7.6300e-09, -2.6905e-06,  1.8730e-02, -1.8727e-02, -1.4319e-09],
        [-3.9191e-07, -1.3820e-04, -1.8727e-02,  1.8866e-02, -7.3551e-08],
        [-2.9967e-14, -1.0567e-11, -1.4319e-09, -7.3551e-08,  7.4993e-08]])


  


# P_21 Transformer Masked loss 原理精讲及其PyTorch逐行实现

In [16]:
# Transformer Masked loss
import torch
import torch.nn as nn
import torch.nn.functional as F

logits = torch.randn(2, 3, 4) # batchsize=2, seqlen=3, vocab_size=4
label = torch.randint(0, 4, (2, 3))
logits = logits.transpose(1, 2)
F.cross_entropy(logits, label) # 平均交叉熵损失
F.cross_entropy(logits, label, reduction='none') # 所有的损失
tgt_len = torch.Tensor([2, 3]).to(torch.int32)
mask = torch.cat([torch.unsqueeze(F.pad(torch.ones(L), (0, max(tgt_len)-L)), 0) for L in tgt_len])
F.cross_entropy(logits, label, reduction='none') * mask

tensor([[0.6384, 1.2946, 0.0000],
        [1.3800, 2.1678, 0.9973]])

# Transformer模型结构
![](./img/Transformer模型结构.png)

## Encoder
* input word embedding：由稀疏的one-hot向量进入一个不带bias的FNN得到一个稠密的连续向量
* position encoding
  * 通过sin/cos来固定表征
    * 每个位置确定性的
    * 对于不同的句子，相同位置的距离一直
    * 可以推广到更长的测试句子
  * pe(pos+k)可以写成pe(pos)的线性组合
  * 通过残差连接来使得位置信息流入深层
* multi-head self-attention 
  * 使得建模能力更强，表征空间更丰富
  * 由多组Q，K，V构成 每组单独计算一个attention向量
  * 把每组的attention向量拼起来，并进入一个FFN得到最终的向量
* feed-forward network
  * 只考虑每个单独位置进行建模
  * 不同位置参数共享
  * 类似于1x1 pointwise convolution

# Decoder
* output word embedding
* masked multi-head self-attention
* multi-head cross-attention
* feed-forward network
* softmax

# 总结

## 使用类型
* Encoder only： BERT、分类任务、非流式任务
* Decoder only： GPT系列、语言建模、自回归生成任务、流式任务
* Encoder-Decoder： 机器翻译、语音识别

## 特点
* 无先验假设 （例如：局部关联性、有序建模性）
* 核心计算在于自注意力机制，平方复杂度
* 数据量的要求与先验假设的程度呈反比

# seq2seq基础模块的分类

## CNN
* 权重共享
  * 平移不变性
  * 可并行计算
 * 滑动窗口 局部关联性建模 依靠多层堆积来进行长程建模
 * 对相对位置敏感，对绝对位置不敏感

## RNN
* 依次有序递归建模
  * 对顺序敏感
  * 串行计算耗时
  * 长程建模能力弱
  * 计算复杂度与序列长度呈线性关系
  * 单步计算复杂度不变
  * 对相对位置敏感，对绝对位置敏感

## transformer
* 无局部假设
  * 可并行计算
  * 对相对位置不敏感
* 无有序假设
  * 需要位置编码来反映位置变化对于特征的影响
  * 对绝对位置不敏感
* 任意两字符都可以建模
  * 擅长长短程建模
  * 自注意力机制需要序列长度的平方级别复杂度