# Transformer代码详解
本文主要根据[知乎：深度学习-图解Transformer](https://zhuanlan.zhihu.com/p/105493618)系列得到

## 零、 问题总结
> **Question 1:** Attention机制为什么要设计QK即可计算得分，为何还要最后乘以V？<br/>
> **Answer:** 我们可以认为对于目标$z_i$的得分可以表示为源词汇表$\text{src\_vocab} = {x_1, \ldots, x_s}$的一系列权重, 即
> $$z_i = \sum_{j \in src\_vocab} score_j x_j$$
> 根据上式，V表示$x_j$，Q和K乘积得到score，并且为了消除维度的影响，score除以$\sqrt{d_{model}}$。这样做可以保持V的相对固定，因为是对V的成倍放缩。具体而言，分为以下两种情况:
> + 当计算Self-Attention时，Q,K,V均是同一来源(src或tgt)
> + 当计算Encoder-Decoder Attention时，K,V来源于src， Q来源于tgt

> **Question 2:** Transformer中Attention共有几类？以及它们对应的Q,K,V,mask都是什么？ <br/>
> **Answer:** 共有三类
> + Encoder里的Self-Attention：计算src序列的自注意力它的输入 query, key, value 均来自 src，维度为 (batch_size * src_seq_len * d_model)， mask 维度为 (batch_size * 1 * src_seq_len)。mask的目的是屏蔽掉填充位
>     + attention的输入为 query, key, value 的维度为(batch_size * head_num * src_seq_len * head_dim)，mask维度为(batch_size * 1 * 1 * src_seq_len)
>     + attention中score的维度为 batch_size * head_num * src_seq_len* src_seq_len
> + Decoder里的Self-Attention：计算tgt序列的自注意力，它的输入 query, key, value 均来自 tgt，维度为(batch_size * tgt_seq_len * d_model)， mask的维度为 (batch_size * tgt_seq_len * tgt_seq_len)。mask这里是下三角矩阵，旨在屏蔽当前时刻之后的序列
>     + attention的输入为 query, key, value 的维度为(batch_size * head_num * tgt_seq_len * head_dim)，mask维度为(batch_size * 1 * tgt_seq_len * tgt_seq_len)
>     + attention中score的维度为 batch_size * head_num * tgt_seq_len* tgt_seq_len
> + Decoder里的Encoder-Decoder Attention：计算src_seq 和 tgt_seq之间的交叉注意力。输入 query维度 (batch_size * tgt_seq_len * d_model), key和value的维度为(batch_size * tgt_seq_len * d_model)。mask维度为 (batch_size * 1 * src_seq_len)。由于前一层 Masked-Self-Attention 已经提供了tgt_mask,屏蔽了当前时刻之后的序列，因此这里输入src_mask
>     + attention的输入为 query的维度为(batch_size * head_num * tgt_seq_len * head_dim)，key, value 的维度为(batch_size * head_num * src_seq_len * head_dim)，mask维度为(batch_size * 1 * 1 * src_seq_len)
>     + attention中score的维度为 batch_size * head_num * tgt_seq_len * src_seq_len

> **Question 3:** Mask共有几类，它们的作用是什么<br/>
> **Answer:** Mask共有两类
> + pad_mask:屏蔽掉填充位
> + attn_mask：遮盖当前时刻之后的序列。注意：Decoder中Encoder-Decoder Attention输入是pad_mask(src_mask)，但前一个layer中有tgt_mask(attn_mask)起作用

> **Question 4:** Embedding为什么要乘以$\sqrt{d_{model}}$ <br/>
> **Answer:** 作者原本想法是增大Embedding的差异性，不至于在训练过程中退化。但有人试验过这个似乎并没有用。

> **Question 5:** 为什么要有Positional Encoding？<br/>
> **Answer:** 因为Attention是位置无关的，为了引入元素位置信息，需要Positional Encoding。其中Positional Encoding是写死的，pe维度为(batch_size * max_len * d_model), 直接与Embedding的结果相加 

> **Question 6:** LayerNorm中W为何是向量？ <br/>
> **Answer:** 因为这里没有发生维度变化，因此可以采用向量点乘

> **Question 7:** Label Smoothing的作用？<br/>
> **Answer:** 缓解One-Hot编码存在的问题。具体详见OnlineNotes-LabelSmoothing

<center>
    <img style="border-radius: 0.3125em;
    box-shadow: 0 2px 4px 0 rgba(34,36,38,.12),0 2px 10px 0 rgba(34,36,38,.08);" 
    src="graphic_files/rnn_framework.jpg">
    <br>
    <div style="color:orange; border-bottom: 1px solid #d9d9d9;
    display: inline-block;
    color: #999;
    padding: 2px;">图1 Transformer工作流程（RNN架构）</div>
</center>

## 一、Transformer工作流程

Transformer工作有流程如上图所示，主要有以下特点
+ 整体来讲分为Encoder和Decoder两大部分，每个部分有多个Layer层叠，可以分别从下至上编码为0~5。层叠数目6是实验出来的，没有特殊之处
+ 每一个Layer不共享参数
+ 在工作过程中，EncoderEncoder输出的结果称之为memory，之后传递给每一个Decoder，前一层Decoder的解码结果传递给后一层
+ Transformer所谓的并行是特殊的并行，具体讲解在[知乎：浅析Transformer训练时并行问题](https://zhuanlan.zhihu.com/p/368592551)
    - RNN需要串行是因为其t时刻依赖t-1时刻的输出。
    - Transformer中的Encoder支持并行化。因为Encoder核心是自注意力机制，即计算任意两个元素$x_i$和$x_j$之间的权重,$i$和$j$可以相等。这样一来序列$z_{seq}$就可以转化为一系列权重的加和
    - Decoder只有在训练过程中支持并行化。因为其采用了**teacher force**和**masked-self-attention**机制。前者强制每一个Decoder在解码过程中使用正确的信息。后者则负责将解码过程中的正确信息逐步展开。在预测阶段，则退化为前后依赖的串行模式。


<center>
    <img style="border-radius: 0.3125em;
    box-shadow: 0 2px 4px 0 rgba(34,36,38,.12),0 2px 10px 0 rgba(34,36,38,.08);" 
    src="graphic_files/Transformer_framework_all.jpg">
    <br>
    <div style="color:orange; border-bottom: 1px solid #d9d9d9;
    display: inline-block;
    color: #999;
    padding: 2px;">图2 Transformer结构简图</div>
</center>

<center>
    <img style="border-radius: 0.3125em;
    box-shadow: 0 2px 4px 0 rgba(34,36,38,.12),0 2px 10px 0 rgba(34,36,38,.08);" 
    src="graphic_files/Transformer_all_1.jpg">
    <br>
    <div style="color:orange; border-bottom: 1px solid #d9d9d9;
    display: inline-block;
    color: #999;
    padding: 2px;">图3 Transformer结构划分图</div>
</center>

## Transformer具体架构
如图2所示，整体来讲，Transformer分为6个主要部分，12个基本组件。

### Transformer主要部分
+ EncoderDecoder:这个是总类，协调以下部分
+ Encoder部分：负责将输入部分转化为memory
+ Decoder：根据memory逐步解码出logits
+ Generator：根据logits通过softmax输出top-N序列
+ Embedding和PositionalEncoding，将序列转化为embedding
    - 对于Encoder，是输入序列的word embedding + positional encoding
    - 对于Decoder，在训练阶段是完整的输出序列+mask；在实际测试阶段，是当前时刻的解码序列+mask

### Transformer具体组件
1. Embedding: 是将输入的tokens转化为编码
2. PositionalEncoding: 是为编码加入位置信息。由于Attention是位置无关的，因为在编码中加入PositionalEncoding，且PositionalEncoding是写死的，无需训练。直接将结果与word embedding相加
3. MultiHeadAttention: 计算任意两个位置对应元素之间的关系。个人认为总共包括三类：Encoder的Self-Attention，Decoder的Self-Attention，Decoder的Encoder-Decoder Attention
4. SubLayerConnection：链接Sublayer，包括残差(Add)和归一(Norm)
5. PositionwiseFeedForward：全连接网络
6. EncoderLayer：单层Encoder，主要包括两个Sublayer，Self-Attention及FFN
7. LayerNorm：归一Norm
8. Encoder：编码器，多个EncoderLayer堆叠
9. DecoderLayer：单层解码器，包括三个Sublayer：Masked Self-Attention，Encoder-Decoder Attention，FFN
10. Decoder：解码器，多个DecoderLayer堆叠
11. Generator：Decoder的输出为logits，即某个位置概率得分最大，其他位置可以非0，经过Generator后输出概率。Decoder输出的维度为 batch_size * seq_len * d_model，经generator后输出维度为 batch_size * seq_len * tgt_vocab_size。具体取最后一个位置，由greedy_decode控制

下面是对Transformer代码的具体介绍

## 二、 Transformer Implementation

### 0. import部分
其中seaborn和matplotlib只是用于画图展示

In [None]:
import torch
import torch.nn as nn
from torch.autograd import Variable
import torch.nn.functional as F
import math, copy, time
import numpy as np

import matplotlib.pyplot as plt
import seaborn

seaborn.set_context(context='talk')

### 1. Embedding部分

Embedding主要负责将序列进行编码

在forward中，embedding乘以$\sqrt{d_{model}}$目的是为了使Embedding的差异化更明显，不至于在训练过程中退化。但作者经过验证，该步骤似乎没有效果。


In [None]:
class Embeddings(nn.Module):
    def __init__(self, d_model, vocab):
        '''
        :param d_model: scalar，表示模型的维度，这里默认为512
        :param vocab: scalar，表示语言的词汇表的大小
        '''
        super(Embeddings, self).__init__()

        self.lut = nn.Embedding(vocab, d_model)
        '''
        one-hot转词嵌入，这里有一个待训练的矩阵E，大小是vocab*d_model。
        这样可以使单条seq的表征从 seq_len * vocab -> seq_len * d_model
        '''
        self.d_model = d_model

    def forward(self, x):
        '''
        x：表示输入序列batch，维度为 batch_size * seq_len* vocab_size
        '''
        return self.lut(x) * math.sqrt(self.d_model)

### 2. PositionalEncoding部分

PositionalEncoding是写死的，计算公式如下
$$
\begin{cases}
    PE(pos,2i) = \sin(\frac{pos}{10000^{\frac{2i}{d_{model}}}})\\
    PE(pos,2i+1) = \cos(\frac{pos}{10000^{\frac{2i}{d_{model}}}})\\
\end{cases}
$$
上式括号内参数可以简化为：
$$
\begin{split}
\frac{pos}{\alpha} &= pos \times \frac{1}{10000^{\frac{2i}{d_{model}}}} = pos \times e^{\log{10000^{\frac{2i}{d_{model}}}}} \\
&= pos \times e^{-\log{10000^{\frac{2i}{d_{model}}}}} = pos \times e^{-\frac{2i}{d_{model}}\log{10000}} = pos \times e^{2i \times (- \frac{\log{10000}}{d_{model}})}
\end{split}
$$

In [None]:
class PositionalEncoding(nn.Module):
    def __init__(self, d_model, dropout, max_len=5000):
        '''
        d_model: 表示模型维度，默认512
        dropout: dropout概率，标量
        max_len：序列的最大长度，标量
        '''
        super(PositionalEncoding, self).__init__()
        self.dropout = nn.Dropout(p=dropout)
        pe = torch.zeros(max_len, d_model)
        '''
        pe 的维度之所以要是 max_len * d_model，是因为它对所有的Sequence都是一样的。
        因此对于任意序列 seq={x_1, x_2, ..., x_m}，每一个元素 x_i 都是 d_model 维，这样就可以直接加到序列的embedding上了
        '''
        position = torch.arange(0, max_len).unsqueeze(1)
        '''
        这一行是得到 max_len * 1 的数组， 元素从0到4999
        '''
        div_term = torch.exp(torch.arange(0, d_model, 2) * -(math.log(10000.0) / d_model))
        pe[:, 0::2] = torch.sin(position * div_term)
        pe[:, 1::2] = torch.cos(position * div_term)
        pe = pe.unsqueeze(0)    # 这样使得维数从 max_len * d_model 变为 1 * max_len * d_model, 为batch_size留出位置
        '''
        unsqueeze(0)使得维度从 max_len * d_model 变为 1 * max_len * d_model，目的是为batch_size留出位置
        '''
        self.register_buffer('pe', pe)

    def forward(self, x):
        x = x + Variable(self.pe[:, :x.size(1)], requires_grad=False)
        '''
        这一步是将 x 和 pos_emb 之后的矩阵相加
        x的维度为 batch_size * seq_len * d_model
        Variable(*)的维度为 1 * max_len * d_model
        
        pe[:,:x.size(1)]表示第一维全取，第二维取 max_len 和实际 size的最小值，第三维没写即全取
        这里要注意的是pe是固定的，固定的值加到每一个batch的每一个Sequence上
        '''
        return self.dropout(x)

### 3. MultiHeadedAttention部分

<center>
    <img style="border-radius: 0.3125em;
    box-shadow: 0 2px 4px 0 rgba(34,36,38,.12),0 2px 10px 0 rgba(34,36,38,.08);" 
    src="graphic_files/attention.jpg" height="300" width="300">
    <img style="border-radius: 0.3125em;
    box-shadow: 0 2px 4px 0 rgba(34,36,38,.12),0 2px 10px 0 rgba(34,36,38,.08);" 
    src="graphic_files/multi_attention.jpg" height="300" width="300">
    <br>
    <div style="color:orange; border-bottom: 1px solid #d9d9d9;
    display: inline-block;
    color: #999;
    padding: 2px;">图4 Attention与MultiHeadedAttention计算图</div>
</center>


首先先看Attention的计算方式，如上图所示，其计算公式如下：
$$\text{Attention}(Q,K,V)=\text{softmax}(\frac{QK^T}{\sqrt{d_{model}}})V$$
MultiHeadedAttention有四个要训练的矩阵，分别如上图所示。

#### <font color=red>【个人理解】Attention的一些要点</font>
+ <font color=red>注意力的目的是计算任意两个元素之间的关系</font>
+ <font color=red>attention 和 MultiHeadedAttention均可以用于计算自注意力(Q,K,V均来自于同一个序列src_seq或tgt_seq, 图1 左侧Stage2和右侧的Stage2)和交叉注意力(Q来自trg_seq;K,V来自src_seq，右侧的Stage3)</font>
+ <font color=red>对于交叉注意力（由src_seq生成trg_seq），src_seq提供key(K)，供trg_seq来query(Q)，这样得到一个分数（score），最后再与来自src_seq的value(V)相乘，得到trg_seq的表达。这里之所以要最后乘以V，是为了QK计算完Score（权重）后与V相乘，成倍数地放缩V，使V值相对完整（相对固定）</font>
+ <font color=red>mask分为pad_mask和attn_mask，具体关于mask的一些讲解，可以参考[知乎：transformer中: self-attention部分是否需要进行mask](https://www.zhihu.com/question/472323371/answer/2001223766)</font>
    - <font color=red>在Encoder Self-Attention阶段（图1左侧Stage2），mask为pad_mask，即pad填充的mask, 传入的维度为 batch_size * 1 * src_seq_len；在attention函数中，mask维度为 batch_size * 1 * 1 * src_seq_len, scores的维度为 batch_size * head_num * src_seq_len * src_seq_len</font>
    - <font color=red>在Decoder Masked Self-Attention阶段(图1右侧Stage2)，mask为tgt_seq的下三角矩阵，维度为 batch_size * trg_seq_len * trg_seq_len；在attention函数中，mask维度为batch_size * 1 * trg_seq_len * trg_seq_len，scores的维度为 batch_size * head_num * tgt_seq_len * tgt_seq_len</font>
    - <font color=red>在Decoder Encoder-Decoder Attention阶段(图1右侧Stage3)，由于Masked Self-Attention已经包含了tgt_seq及其mask，因此这里传入src_mask计算src_seq和tgt_seq之间的关系。mask为src的pad_mask，维度为batch_size * 1 * src_seq_len; attention函数中mask维度为 batch_size * 1 * 1 * src_seq_len；scores的维度为 batch_size * head_num * tgt_seq_len * seq_seq_len</font>


In [None]:
def attention(query, key, value, mask=None, dropout=None):
    '''
    query：来自trg_seq, 维度为 batch_size * head_num * tgt_vocab * d_model
    key和value：来自src_seq，维度为 batch_size * head_num * src_vocab * d_model
    
    '''
    d_k = query.size(-1)
    scores = torch.matmul(query, key.transpose(-2, -1)) / math.sqrt(d_k)
    '''
    scores的对于交叉注意力来说，维度为 batch_size * head_num * tgt_vocab * src_vocab
    '''
    if mask is not None:
        scores = scores.masked_fill(mask == 0, -1e9)


    p_attn = F.softmax(scores, dim=-1)
    if dropout is not None:
        p_attn = dropout(p_attn)
    return torch.matmul(p_attn, value), p_attn

class MultiHeadedAttention(nn.Module):
    def __init__(self, h, d_model, dropout=0.1):
        super(MultiHeadedAttention, self).__init__()
        assert d_model % h == 0
        self.d_k = d_model // h
        self.h = h
        self.linears = clones(nn.Linear(d_model, d_model), 4)
        self.attn = None
        self.dropout = nn.Dropout(p=dropout)

    def forward(self, query, key, value, mask=None):
        if mask is not None:
            mask = mask.unsqueeze(1)
        '''
        这里扩展是为了给multi-head留下空间
        '''
        nbatches = query.size(0)

        query, key, value = [l(x).view(nbatches, -1, self.h, self.d_k).transpose(1, 2) for l, x in
                             zip(self.linears, (query, key, value))]

        x, self.attn = attention(query, key, value, mask=mask, dropout=self.dropout)

        x = x.transpose(1, 2).contiguous().view(nbatches, -1, self.h * self.d_k)

        return self.linears[-1](x)

### 4. SublayerConnection部分
主要作用是是先残差Add以及Norm（正则化）。其中Norm通过 7.LayerNorm实现

In [None]:
class SublayerConnection(nn.Module):
    def __init__(self, size, dropout):
        '''
        size：d_model
        '''
        super(SublayerConnection, self).__init__()
        self.norm = LayerNorm(size)
        self.dropout = nn.Dropout(dropout)

    def forward(self, x, sublayer):
        '''
        x: 处理的数据，维度为 batch_size * seq_len * d_model
        sublayer: 可以是MultiHeadedAttention或者PositionwiseFeedForward
        '''
        return x + self.dropout(sublayer(self.norm(x)))

### 5. PositionwiseFeedForward部分
这里的处理公式为
$$
\text{FFN}(x) = max(0, x W_1 + b_1)W_2 + b_2
$$
其中max相当于ReLU激活函数

In [None]:
class PositionwiseFeedForward(nn.Module):
    def __init__(self, d_model, d_ff, dropout=0.1):
        '''
        d_model =512
        d_ff = 2048
        '''
        super(PositionwiseFeedForward, self).__init__()
        self.w_1 = nn.Linear(d_model, d_ff)
        self.w_2 = nn.Linear(d_ff, d_model)
        self.dropout = nn.Dropout(dropout)

    def forward(self, x):
        return self.w_2(self.dropout(F.relu(self.w_1(x))))

### 6. EncoderLayer部分

<center>
    <img style="border-radius: 0.3125em;
    box-shadow: 0 2px 4px 0 rgba(34,36,38,.12),0 2px 10px 0 rgba(34,36,38,.08);" 
    src="graphic_files/encoder.png">
    <br>
    <div style="color:orange; border-bottom: 1px solid #d9d9d9;
    display: inline-block;
    color: #999;
    padding: 2px;">图5 EncoderLayer结构简图</div>
</center>

这里注意下MultiHeadedAttention的输入，输入是x，x，x，mask。
这里x的维度为batch_size * seq_len * d_model
mask的维度为 batch_size * 1 * seq_len。 作用是屏蔽掉pad填充的位置

In [None]:
class EncoderLayer(nn.Module):
    def __init__(self, size, self_attn, feed_forward, dropout):
        super(EncoderLayer, self).__init__()
        self.self_attn = self_attn
        self.feed_forward = feed_forward
        self.sublayer = clones(SublayerConnection(size, dropout), 2)
        self.size = size

    def forward(self, x, mask):
        '''
        x维度：batch_size * seq_len* d_model
        mask维度： 
        '''
        x = self.sublayer[0](x, lambda x: self.self_attn(x, x, x, mask))
        return self.sublayer[1](x, self.feed_forward)

### 7. LayerNorm部分
这里要注意, 和nn.Linear及nn.Embedding不同，这里的Norm参数是weight_vector（向量）

In [None]:
class LayerNorm(nn.Module):

    def __init__(self, features, eps=1e-6):
        '''
        features: d_model
        eps: 用于分母的非0化平滑
        '''
        super(LayerNorm, self).__init__()
        self.a_2 = nn.Parameter(torch.ones(features))
        '''
        a_2 是可训练的向量
        '''
        self.b_2 = nn.Parameter(torch.zeros(features))
        '''
        b_2 是可训练的参数向量
        '''
        self.eps = eps

    def forward(self, x):
        mean = x.mean(-1, keepdim=True)
        std = x.std(-1, keepdim=True)
        return self.a_2 * (x - mean) / (std + self.eps) + self.b_2
        '''
        (x-mean)/std
        '''

### 8. Encoder部分
N个EncoderLayer叠加

In [None]:
class Encoder(nn.Module):
    def __init__(self, layer, N):
        super(Encoder, self).__init__()
        self.layers = clones(layer, N)
        self.norm = LayerNorm(layer.size)

    def forward(self, x, mask):
        for layer in self.layers:
            x = layer(x, mask)

        return self.norm(x)

### 9. DecoderLayer部分
<center>
    <img style="border-radius: 0.3125em;
    box-shadow: 0 2px 4px 0 rgba(34,36,38,.12),0 2px 10px 0 rgba(34,36,38,.08);" 
    src="graphic_files/decoder.png">
    <br>
    <div style="color:orange; border-bottom: 1px solid #d9d9d9;
    display: inline-block;
    color: #999;
    padding: 2px;">图6 DecoderLayer结构简图</div>
</center>
这里可以看到，DecoderLayer主要分为三个Sublayer，从下往上分别为masked self-attention，encoder-decoder attention，feed forward network
+ Masked Self-Attention: 输入为 tgt_seq, tgt_seq, tgt_seq, tgt_mask。
    - tgt_seq: batch_size * tgt_seq_len * d_model
    - tgt_mask: batch_size * tgt_seq_len * tgt_seq_len
+ Encoder-Decoder Attention: 输入为 tgt_seq, memory, memory, src_mask。
    - tgt_seq: batch_size * tgt_seq_len * d_model
    - memory: batch_size * src_seq_len * d_model
    - tgt_mask: batch_size * 1 * src_seq_len

    

In [None]:
class DecoderLayer(nn.Module):
    def __init__(self, size, self_attn, src_attn, feed_forward, dropout):
        super(DecoderLayer, self).__init__()
        self.size = size
        self.self_attn = self_attn
        self.src_attn = src_attn
        self.feed_forward = feed_forward
        self.sublayer = clones(SublayerConnection(size, dropout), 3)

    def forward(self, x, memory, src_mask, tgt_mask):
        m = memory
        x = self.sublayer[0](x, lambda x: self.self_attn(x, x, x, tgt_mask))
        x = self.sublayer[1](x, lambda x: self.src_attn(x, m, m, src_mask))
        return self.sublayer[2](x, self.feed_forward)

### 10. Decoder部分
N个DecoderLayer叠加

In [None]:
class Decoder(nn.Module):
    def __init__(self, layer, N):
        super(Decoder, self).__init__()
        self.layers = clones(layer, N)
        self.norm = LayerNorm(layer.size)

    def forward(self, x, memory, src_mask, tgt_mask):
        for layer in self.layers:
            x = layer(x, memory, src_mask, tgt_mask)
        return self.norm(x)

### 11. Generator部分

In [None]:
class Generator(nn.Module):
    def __init__(self, d_model, vocab):
        '''

        :param d_model: scalar
        :param vocab: scalar
        '''
        super(Generator, self).__init__()
        self.proj = nn.Linear(d_model, vocab)

    def forward(self, x):
        '''

        :param x: tensor, batch * seq_len * d_model
        :return: batch_size * seq_len * vocab
        '''
        return F.log_softmax(self.proj(x), dim=-1)

### 12. EncoderDecoder部分

In [None]:
class EncoderDecoder(nn.Module):
    def __init__(self, encoder, decoder, src_embed, tgt_embed, generator):
        super(EncoderDecoder, self).__init__()
        self.encoder = encoder
        self.decoder = decoder
        self.src_embed = src_embed
        self.tgt_embed = tgt_embed
        self.generator = generator

    def forward(self, src, tgt, src_mask, tgt_mask):
        return self.decode(self.encode(src, src_mask), src_mask, tgt, tgt_mask)

    def encode(self, src, src_mask):
        return self.encoder(self.src_embed(src), src_mask)

    def decode(self, memory, src_mask, tgt, tgt_mask):
        return self.decoder(self.tgt_embed(tgt), memory, src_mask, tgt_mask)

### 13. make_model部分

In [None]:
def make_model(src_vocab, tgt_vocab, N=6, d_model=512, d_ff=2048, h=8, dropout=0.1):
    c = copy.deepcopy
    attn = MultiHeadedAttention(h, d_model)
    ff = PositionwiseFeedForward(d_model, d_ff, dropout)
    position = PositionalEncoding(d_model, dropout)
    model = EncoderDecoder(
        Encoder(EncoderLayer(d_model, c(attn), c(ff), dropout), N),
        Decoder(DecoderLayer(d_model, c(attn), c(attn), c(ff), dropout), N),
        nn.Sequential(Embeddings(d_model, src_vocab), c(position)),
        nn.Sequential(Embeddings(d_model, tgt_vocab), c(position)),
        Generator(d_model, tgt_vocab)
    )

    for p in model.parameters():
        if p.dim() > 1:
            nn.init.xavier_uniform_(p)

    return model

## 三、 部分功能函数

### 1. clones 深度拷贝

In [None]:
def clones(module, N):
    return nn.ModuleList([copy.deepcopy(module) for _ in range(N)])

### 2. subsequent_mask tgt下三角掩码
制作针对tgt的下三角掩码矩阵。目的是为了遮盖下一时刻之后的输出结果

In [None]:
def subsequent_mask(size):
    attn_shape = (1, size, size)
    subsequent_mask = np.triu(np.ones(attn_shape), k=1).astype('uint8')
    return torch.from_numpy(subsequent_mask) == 0

### 3. Label Smoothing
编码方式如下，原因间Label Smoothing笔记
$$
\begin{cases}
y_{true} = 1-\epsilon\\
y_{false} = \frac{\epsilon}{K-1}
\end{cases}
$$

In [None]:
class LabelSmoothing(nn.Module):
    def __init__(self, size, padding_idx, smoothing=0.0):
        super(LabelSmoothing, self).__init__()
        self.criterion = nn.KLDivLoss(size_average=False)
        self.padding_idx = padding_idx
        self.confidence = 1.0 - smoothing
        self.smoothing = smoothing
        self.size = size
        self.true_dist = None

    def forward(self, x, target):
        assert x.size(1) == self.size
        true_dist = x.data.clone()
        true_dist.fill_(self.smoothing / (self.size - 2))
        true_dist.scatter_(1, target.data.unsqueeze(1), self.confidence)
        true_dist[:, self.padding_idx] = 0
        mask = torch.nonzero(target.data == self.padding_idx)
        if mask.dim() > 0:
            true_dist.index_fill_(0, mask.squeeze(), 0.0)
        self.true_dist = true_dist
        return self.criterion(x, Variable(true_dist, requires_grad = False))

### 3. NoamOpt优化函数

In [None]:
class NoamOpt:
    def __init__(self, model_size, factor, warmup, optimizer):
        self.optimizer = optimizer
        self._step = 0
        self.warmup = warmup
        self.factor = factor
        self.model_size = model_size
        self._rate = 0

    def step(self):
        self._step += 1
        rate = self.rate()
        for p in self.optimizer.param_groups:
            p['lr'] = rate
        self._rate = rate
        self.optimizer.step()

    def rate(self, step=None):
        if step is None:
            step = self._step
        return self.factor * (self.model_size ** (-0.5) * min(step ** (-0.5), step * self.warmup ** (-1.5)))

### 4. SimpleLossCompute

In [None]:
class SimpleLossCompute:
    def __init__(self, generator, criterion, opt = None):
        '''
        criterion = LabelSmoothing(size=tgt_V, padding_idx=0, smoothing=0.0)
        '''
        self.generator = generator
        self.criterion = criterion
        self.opt = opt

    def __call__(self, x, y, norm):
        x = self.generator(x)
        loss = self.criterion(x.contiguous().view(-1, x.size(-1)), y.contiguous().view(-1))/norm

        loss.backward()

        if self.opt is not None:
            self.opt.step()
            self.opt.optimizer.zero_grad()
        return loss.data.item()*norm

### 5. greedy_decode

In [None]:
def greedy_decode(model, src, src_mask, max_len, start_symbol):
    memory = model.encode(src, src_mask)
    ys = torch.ones(1,1).fill_(start_symbol).type_as(src.data)
    for i in range(max_len - 1):
        out = model.decode(memory, src_mask, Variable(ys), Variable(subsequent_mask(ys.size(1)).type_as(src.data)))
        '''
        out 这里是logits
        '''
        prob = model.generator(out[:, -1])
        '''
        prob这里转化为index。
        其中out[:,-1]表示batch全取，seq_len中只取最后一个位置
        '''
        _, next_word = torch.max(prob, dim = 1)
        '''
        找到最大的, 第一个返回值为最大值，第二个返回值为对应的索引
        '''
        next_word = next_word.data[0]
        ys = torch.cat([ys, torch.ones(1,1).type_as(src.data).fill_(next_word)], dim = 1)
        '''
        拼接到上一轮次
        '''
        return ys

## 运行代码