# Attention is All You Need

In this notebook we will be implementing a (slightly modified version) of the Transformer model from the Attention is All You Need paper. All images in this notebook will be taken from the Transformer paper. For more information about the Transformer, see these three articles.

![image.png](attachment:52e7b808-869d-4bd7-9052-5f62e8f84319.png)

## Preparing the Data

In [1]:
import torch
import torch.nn as nn
import torch.optim as optim

import torchtext

import matplotlib.pyplot as plt
import matplotlib.ticker as ticker

# import spacy
import numpy as np

import random
import math
import time

In [2]:
import torch
print(torch.__version__)

1.11.0+cu113


## Encoder

![image.png](attachment:c70da0e7-9388-4766-bf0d-1f182448e4e3.png)

与ConvSeq2Seq模型类似，Transformer的编码器不会尝试压缩整个源句子$X = (x_1, ..., x_n)$，变成一个单一的语境向量 $z$，相反，它会生成一系列上下文向量，$Z=(z_1, ..., z_n)$． 所以，如果我们的输入序列有5个符号长，我们会有$Z=(z_1, z_2, z_3, z_4, z_5)$． 为什么我们称它为上下文向量序列而不是隐藏状态序列?一种隐藏的状态
在一个RNN中只看到了token $x_t$以及之前所有的token。但是，这里的每个上下文向量在输入序列的所有位置都看到了所有标记。

首先，tokens通过标准embeeding层传递。其次，由于模型没有循环，它不知道序列中记号的顺序。我们通过使用第二个嵌入层来解决这个问题，这个嵌入层被称为位置嵌入层($positional embeeding layer$)。这是一个标准嵌入层，其中输入不是token本身，而是token在序列中的位置，从第一个令牌`<sos>`(序列的开始)token开始，位于位置0。位置嵌入的“词汇表”大小为100，这意味着我们的模型可以接受长达100个标记的句子。如果我们想要处理更长的句子，这可以增加。

原始Transformer实现来自Attention is All You Need论文，不学习位置嵌入。相反，它使用固定的静态嵌入。现代Transformer架构，如BERT，使用位置嵌入代替，因此我们决定在这些教程中使用它们。

接下来，将标记和位置嵌入元素相加，得到一个包含标记信息及其在序列中的位置的向量。然而，在求和之前，令牌嵌入要乘以一个比例因子，即$\sqrt{d_{model}}$,在那里$d_{model}$是隐藏的维度大小，`hid_dim`。这可以减少嵌入中的方差，如果没有这个比例因子，模型很难可靠地训练。然后将Dropout应用于组合嵌入。

然后，结合了普通embedding和Positional embedding之后的embedding在输入给Encoder,会经过$N$个这样的encoder得到$Z$, 并供解码器使用。

源掩码`src_mask`与源句子的形状完全相同，但是当源句子中的token不是<pad>时，其值为1;当源句子中的token是<pad>时，其值为0。这在编码器层中用于掩盖多头注意机制，多头注意机制用于计算和应用对源句子的注意，因此模型不注意<pad>标记，这些标记不包含有用的信息。
    
说人话就是，在decoder中用到的mask-attention,本质跟encoder中的是一样的，但是decoder理论上看不到全部的句子，只能看到当前翻译的结果，所以有个mask把后面的掩盖了

## 我们先写encoder layer 然后再把它们封装成encoder

encoder layer是包含所有encoder“肉质”的地方。我们首先将source sentence及其mask传递到multi-head attention layer，然后对其进行dropout，应用残差连接并将其传递到layer Normalization层。然后，我们将其通过position-wise feedforeward layer，然后再次应用dropout，残差连接，然后层归一化以获得该层的输出，该输出被馈送到下一层。各层之间不共享参数。

encoder layer使用multi-head attention layer来关注source sentence。

本文将更详细地介绍层规范化，但要点是它将特征的值标准化，即跨隐藏维度，因此每个特征的平均值为0，标准差为1。这使得具有更多层的神经网络，如Transformer，更容易训练。

## 这里有个叫multi-head attention layer的东西，我们先解决这个问题

transformer关键的一个创新点之一的就是$multi-head$ $attention$ $layer$

![image.png](attachment:a3bcf20a-62a9-4469-96f8-0c67a7af04fd.png)

注意力可以被认为是query、key和value —— 其中query与key一起使用来获得attention vector(通常是softmax操作的输出，所有值在0到1之间，总和为1)，然后用于获得wegithed sum of the values。

![image.png](attachment:eeb3a311-f234-4aee-a2e7-8efe60e630f9.png)

![image.png](attachment:dfb26935-b46e-4fbc-ad91-7a3729d26302.png)

In [189]:
class MultiHeadAttentionLayer(nn.Module):
    
    def __init__(self, hid_dim, n_heads, head_dim, dropout, device):
        super().__init__()
        
        assert hid_dim % n_heads == 0
        
        self.hid_dim = hid_dim
        self.n_heads = n_heads
        self.head_dim = head_dim
        
        self.fc_q = nn.Linear(hid_dim, self.head_dim * self.n_heads)
        self.fc_k = nn.Linear(hid_dim, self.head_dim * self.n_heads)
        self.fc_v = nn.Linear(hid_dim, self.head_dim * self.n_heads)
        
        self.fc_o = nn.Linear(head_dim * self.n_heads, hid_dim)
        
        self.dropout = nn.Dropout(dropout)
        
        self.scale = torch.sqrt(torch.FloatTensor([self.head_dim])).to(device)
        
    def forward(self, query, key, value, mask = None):
        
        batch_size = query.shape[0]
        
        #query = [batch size, query len, hid dim]
        #key = [batch size, key len, hid dim]
        #value = [batch size, value len, hid dim]
                
        Q = self.fc_q(query)
        K = self.fc_k(key)
        V = self.fc_v(value)
        
        #Q = [batch size, query len, head_dim * n_heads]
        #K = [batch size, key len, head_dim * n_heads]
        #V = [batch size, value len, head_dim * n_heads]
                
        Q = Q.view(batch_size, -1, self.n_heads, self.head_dim).permute(0, 2, 1, 3)
        K = K.view(batch_size, -1, self.n_heads, self.head_dim).permute(0, 2, 1, 3)
        V = V.view(batch_size, -1, self.n_heads, self.head_dim).permute(0, 2, 1, 3)
        
        #Q = [batch size, n heads, query len, head dim]
        #K = [batch size, n heads, key len, head dim]
        #V = [batch size, n heads, value len, head dim]
                
        energy = torch.matmul(Q, K.permute(0, 1, 3, 2)) / self.scale
        
        #energy = [batch size, n heads, query len, key len]
        # print(energy.shape)
        
        if mask is not None:
            energy = energy.masked_fill(mask == 0, -1e10)
        
        attention = torch.softmax(energy, dim = -1)
                
        #attention = [batch size, n heads, query len, key len]
                
        x = torch.matmul(self.dropout(attention), V)
        
        #x = [batch size, n heads, query len, head dim]
        
        x = x.permute(0, 2, 1, 3).contiguous()
        
        #x = [batch size, query len, n heads, head dim]
        
        x = x.view(batch_size, -1, self.head_dim * self.n_heads)
        
        #x = [batch size, query len, head_dim]
        
        x = self.fc_o(x)
        
        #x = [batch size, query len, hid dim]
        
        return x, attention

In [None]:
#src_mask = [batch size, 1, 1, src len]
def generate_mask(sequence_length, matrix_length):
    mask = torch.zeros(matrix_length)
    mask[:sequence_length] = 1
    return mask

## 验证

In [185]:
heads_num = 3
hidden_dim = 12
seq_len = 1000
batch = 100
head_dim = 48
dropout = 0.2

In [186]:
attn_layer = MultiHeadAttentionLayer(hidden_dim, heads_num, head_dim, dropout, 'cpu')
query = torch.rand(batch, seq_len, hidden_dim)
print(query.shape)
x, attention = attn_layer(query, query, query)

torch.Size([100, 1000, 12])
torch.Size([100, 3, 1000, 1000])


#### 加上mask 看看

In [187]:
src_mask = generate_mask(890, 1000)
src_mask = src_mask.unsqueeze(0).unsqueeze(1).unsqueeze(2)
src_mask = src_mask.repeat(100, 3, 1, 1)
print(src_mask.shape)

torch.Size([100, 3, 1, 1000])


In [188]:
attn_layer = MultiHeadAttentionLayer(hidden_dim, heads_num, head_dim, dropout, 'cpu')
query = torch.rand(batch, seq_len, hidden_dim)
print(query.shape)
x, attention = attn_layer(query, query, query, src_mask)
print(x.shape)

torch.Size([100, 1000, 12])
torch.Size([100, 3, 1000, 1000])
torch.Size([100, 1000, 12])


## Position-wise Feedforward Layer

编码器层中的另一个主要块是$position-wise feedforward layer$，与多头注意层相比，这相对简单。输入从`hid_dim`转换为`pf_dim`，其中`pf_dim`通常比`hid_dim`大得多。原来的Transformer使用的`hid_dim`为512,`pf_dim`为2048。在将其转换回`hid_dim`表示之前，应用`ReLU`激活函数和`dropout`。

为什么要用这个?不幸的是，论文中从来没有解释过。

BERT使用`GELU`激活功能，他们为什么要用GELU?同样，它从未被解释过。

In [110]:
class PositionwiseFeedforwardLayer(nn.Module):
    
    def __init__(self, hid_dim, pf_dim, dropout):
        super().__init__()
        
        self.fc_1 = nn.Linear(hid_dim, pf_dim)
        self.fc_2 = nn.Linear(pf_dim, hid_dim)
        
        self.dropout = nn.Dropout(dropout)
        
    def forward(self, x):
        
        #x = [batch size, seq len, hid dim]
        
        x = self.dropout(torch.relu(self.fc_1(x)))
                #x = [batch size, seq len, pf dim]
        
        x = self.fc_2(x)
        
        #x = [batch size, seq len, hid dim]
        
        return x

### 测试一下

In [120]:
pf = PositionwiseFeedforwardLayer(12, 64, 0.2)
print(x.shape)
x = pf(x)
print(x.shape)

torch.Size([100, 10, 12])
torch.Size([100, 10, 12])


## 现在我们构建完整的encoder layer

![image.png](attachment:8bfd7838-21b0-44c8-8a2b-faa737e949d3.png)

In [190]:
class EncoderLayer(nn.Module):
    
    def __init__(self, 
                 hid_dim, 
                 n_heads,
                 head_dim,
                 pf_dim,  
                 dropout, 
                 device):
        super().__init__()
        
        self.self_attn_layer_norm = nn.LayerNorm(hid_dim)
        self.ff_layer_norm = nn.LayerNorm(hid_dim)
        self.self_attention = MultiHeadAttentionLayer(hid_dim, n_heads, head_dim, dropout, device)
        self.positionwise_feedforward = PositionwiseFeedforwardLayer(hid_dim, 
                                                                     pf_dim, 
                                                                     dropout)
        self.dropout = nn.Dropout(dropout)
        
    def forward(self, src, src_mask):
        
        #src = [batch size, src len, hid dim]
        #src_mask = [batch size, 1, 1, src len] 
                
        #self attention
        _src, _ = self.self_attention(src, src, src, src_mask)
        
        #dropout, residual connection and layer norm
        src = self.self_attn_layer_norm(src + self.dropout(_src))
        
        #src = [batch size, src len, hid dim]
        
        #positionwise feedforward
        _src = self.positionwise_feedforward(src)
        
        #dropout, residual and layer norm
        src = self.ff_layer_norm(src + self.dropout(_src))
        
        #src = [batch size, src len, hid dim]
        
        return src

### 测试一下

In [194]:
heads_num = 3
hidden_dim = 12
seq_len_total = 1000
batch = 100
head_dim = 48
dropout = 0.2
pf_dim = 64

In [191]:
src_mask = generate_mask(890, seq_len_total)
src_mask = src_mask.unsqueeze(0).unsqueeze(1).unsqueeze(2)
src_mask = src_mask.repeat(100, 3, 1, 1)
print(src_mask.shape)

torch.Size([100, 3, 1, 1000])


In [196]:
src = torch.rand(batch, seq_len, hidden_dim)
print(src.shape)

torch.Size([100, 1000, 12])


In [197]:
encoder = EncoderLayer(hidden_dim, heads_num, head_dim, pf_dim, dropout, 'cpu')
src = encoder(src, src_mask)

In [198]:
print(src.shape)

torch.Size([100, 1000, 12])


# 最后我们来写整个endoer

In [207]:
class Encoder(nn.Module):
    
    def __init__(self, 
                 input_dim, 
                 hid_dim, 
                 n_layers, 
                 n_heads,
                 head_dim,
                 pf_dim,
                 dropout, 
                 device,
                 seq_len_total = 1000):
        super().__init__()

        self.device = device
        
        # self.tok_embedding = nn.Embedding(input_dim, hid_dim)
        # self.pos_embedding = nn.Embedding(seq_len_total, hid_dim)
        
        self.layers = nn.ModuleList([EncoderLayer(hid_dim, 
                                                  n_heads,
                                                  head_dim,
                                                  pf_dim,
                                                  dropout, 
                                                  device) 
                                     for _ in range(n_layers)])
        
        self.dropout = nn.Dropout(dropout)
        
        self.scale = torch.sqrt(torch.FloatTensor([hid_dim])).to(device)
        
    def forward(self, src, src_mask):
        
        #src = [batch size, src len]
        #src_mask = [batch size, 1, 1, src len]
        
        batch_size = src.shape[0]
        src_len = src.shape[1]
        
        # pos = torch.arange(0, src_len).unsqueeze(0).repeat(batch_size, 1).to(self.device)
        
        # pos = [batch size, src len]
        
        # src = self.dropout((self.tok_embedding(src) * self.scale) + self.pos_embedding(pos))
        
        #src = [batch size, src len, hid dim]
        
        for layer in self.layers:
            src = layer(src, src_mask)
            
        #src = [batch size, src len, hid dim]
            
        return src

### 测试一下

In [208]:
heads_num = 3
hidden_dim = 12
seq_len_total = 1000
batch = 100
head_dim = 48
dropout = 0.2
pf_dim = 64

In [209]:
src_mask = generate_mask(890, seq_len_total)
src_mask = src_mask.unsqueeze(0).unsqueeze(1).unsqueeze(2)
src_mask = src_mask.repeat(100, 3, 1, 1)
print(src_mask.shape)

torch.Size([100, 3, 1, 1000])


In [210]:
src = torch.rand(batch, seq_len, hidden_dim)
print(src.shape)

torch.Size([100, 1000, 12])


In [211]:
num_layers = 5

In [212]:
encoder = Encoder(hidden_dim, hidden_dim, num_layers, heads_num, head_dim, pf_dim, dropout, 'cpu', seq_len_total)

In [213]:
src = encoder(src, src_mask)

In [215]:
print(src.shape)

torch.Size([100, 1000, 12])


# Decoder

解码器的目标是将源句子的编码表示，$Z$，并将其转换为目标句子中的预测标记，${\hat Y}$。然后我们比较${\hat Y}$用目标句子中的实际符号，$Y$，来计算我们的损失，它将用于计算参数的梯度，然后使用我们的优化器来更新我们的权重，以提高我们的预测。

解码器类似于编码器，但它现在有两个多头注意层。一个覆盖在目标序列上的$masked$ $multi-head$ $attention$ $layer$，以及一个使用解码器表示作为查询，编码器表示作为键和值的多头注意层。解码器使用位置嵌入并通过元素求和将它们与缩放的嵌入目标标记结合起来，然后是dropout。

然后将组合的嵌入通过$N$个解码器层，以及编码的源，`enc_src`，源和目标的掩码mask。请注意，编码器中的层数不必等于解码器中的层数，即使它们都表示为$N$

通过$N^{th}$层解码器后的表示然后通过一个线性层`fc_out`。在PyTorch中，softmax操作包含在我们的损失函数中，因此我们不需要在这里显式地使用softmax层。

除了使用源掩码(正如我们在编码器中所做的那样，以防止我们的模型关注`<pad>`令牌)外，我们还使用目标掩码。这将在封装编码器和解码器的`Seq2Seq`模型中进一步解释，但其要点是它执行与卷积序列到序列模型中的解码器填充相似的操作。当我们同时处理所有目标标记时，我们需要一种方法来阻止解码器通过简单地“查看”目标序列中的下一个标记是什么并输出它来“作弊”。

我们的解码器层也输出标准化的注意力值，这样我们就可以稍后绘制它们来查看我们的模型实际关注的是什么。

![image.png](attachment:f3342ccf-90be-47b4-9eb2-40de386e23b4.png)

## Decoder Layer

如前所述，解码器层类似于编码器层，除了它现在有两个多头注意层，`self_attention`和`encoder_attention`。

第一个执行自关注，就像在encoder中一样，通过使用到query、key和value的decoder表示。这是接下来的dropout，residual connection and layer normalization。这个`self_attention`层使用目标序列掩码`trg_mask`，以防止解码器“作弊”，因为它并行处理目标句子中的所有令牌，因此它会注意到当前正在处理的令牌“前面”的令牌。

第二步是如何将编码后的源句子`enc_src`输入解码器。在这个多头注意层中，查询是解码器表示，键和值是编码器表示。这里，源掩码`src_mask`用于防止多头注意层关注源句子中的`<pad>`标记。接下来是dropout, residual connection和layer normalization层。

最后，我们将其通过位置前馈层和另一个dropout，残差连接和层归一化序列。

解码器层并没有引入任何新概念，只是以稍微不同的方式使用与编码器相同的一组层。

In [None]:
class DecoderLayer(nn.Module):
    
    def __init__(self, 
                 hid_dim, 
                 n_heads, 
                 pf_dim, 
                 dropout, 
                 device):
        super().__init__()
        
        self.self_attn_layer_norm = nn.LayerNorm(hid_dim)
        self.enc_attn_layer_norm = nn.LayerNorm(hid_dim)
        self.ff_layer_norm = nn.LayerNorm(hid_dim)
        self.self_attention = MultiHeadAttentionLayer(hid_dim, n_heads, head_dim, dropout, device)
        self.encoder_attention = MultiHeadAttentionLayer(hid_dim, n_heads, head_dim, dropout, device)
        self.positionwise_feedforward = PositionwiseFeedforwardLayer(hid_dim, 
                                                                     pf_dim, 
                                                                     dropout)
        self.dropout = nn.Dropout(dropout)
        
    def forward(self, trg, enc_src, src_mask):
        
        #trg = [batch size, trg len, hid dim]
        #enc_src = [batch size, src len, hid dim]
        #trg_mask = [batch size, 1, trg len, trg len]
        #src_mask = [batch size, 1, 1, src len]
        
        #self attention
        _trg, _ = self.self_attention(trg, trg, trg)
        
        #dropout, residual connection and layer norm
        trg = self.self_attn_layer_norm(trg + self.dropout(_trg))
            
        #trg = [batch size, trg len, hid dim]
            
        #encoder attention
        _trg, attention = self.encoder_attention(trg, enc_src, enc_src, src_mask)
        
        #dropout, residual connection and layer norm
        trg = self.enc_attn_layer_norm(trg + self.dropout(_trg))
                    
        #trg = [batch size, trg len, hid dim]
        
        #positionwise feedforward
        _trg = self.positionwise_feedforward(trg)
        
        #dropout, residual and layer norm
        trg = self.ff_layer_norm(trg + self.dropout(_trg))
        
        #trg = [batch size, trg len, hid dim]
        #attention = [batch size, n heads, trg len, src len]
        
        return trg, attention