# Transformer

在之前的章节中，我们已经介绍了主流的神经网络架构如卷积神经网络（CNNs）和循环神经网络（RNNs）。让我们进行一些回顾：

- CNNs 易于并行化，却不适合捕捉变长序列内的依赖关系。
- RNNs 适合捕捉长距离变长序列的依赖，但是却难以实现并行化处理序列。

为了整合CNN和RNN的优势，[\[Vaswani et al., 2017\]](https://d2l.ai/chapter_references/zreferences.html#vaswani-shazeer-parmar-ea-2017) 创新性地使用注意力机制设计了Transformer模型。该模型利用attention机制实现了并行化捕捉序列依赖，并且同时处理序列的每个位置的tokens，上述优势使得Transformer模型在性能优异的同时大大减少了训练时间。

图10.3.1展示了Transformer模型的架构，与9.7节的seq2seq模型相似，Transformer同样基于编码器-解码器架构，其区别主要在于以下三点：
1. Transformer blocks：将seq2seq模型重的循环网络替换为了Transformer Blocks，该模块包含一个多头注意力层（Multi-head Attention Layers）以及两个position-wise feed-forward networks（FFN）。对于解码器来说，另一个多头注意力层被用于接受编码器的隐藏状态。
2. Add and norm：多头注意力层和前馈网络的输出被送到两个“add and norm”层进行处理，该层包含残差结构以及层归一化。
3. Position encoding：由于自注意力层并没有区分元素的顺序，所以一个位置编码层被用于向序列元素里添加位置信息。

![Fig. 10.3.1 The Transformer architecture.](https://cdn.kesci.com/upload/image/q5kpbj2cj5.png?imageView2/0/w/960/h/960)

$$
Fig.10.3.1\ Transformer 架构.
$$


在接下来的部分，我们将会带领大家实现Transformer里全新的子结构，并且构建一个神经机器翻译模型用以训练和测试。

# 参考
1.The Illustrated Transformer - http://jalammar.github.io/illustrated-transformer/


# 习题

选择题

### 1.关于Transformer描述正确的是：

A.在训练和预测过程中，解码器部分均只需进行一次前向传播。

B.Transformer 内部的注意力模块均为自注意力模块。

C.解码器部分在预测过程中需要使用 Attention Mask。

D.自注意力模块理论上可以捕捉任意距离的依赖关系。

**答案：D**
答案解释

选项1：训练过程1次，预测过程要进行句子长度次

选项2：Decoder 部分的第二个注意力层不是自注意力，key-value来自编码器而query来自解码器

选项3：不需要

选项4：正确，因为自注意力会计算句子内任意两个位置的注意力权重

### 2.在Transformer模型中，注意力头数为h，嵌入向量和隐藏状态维度均为d，那么一个多头注意力层所含的参数量是：

A.$4hd^2$

B.$(3h + 1)d^2$

C.$4d^2$

D.$3hd^2$

**答案：A**

答案解释

参考MultiHeadAttention模块的定义。

$h$个注意力头中，每个的参数量为$3d^2$，最后的输出层形状为$hd \times d$，所以参数量共为$4hd^2$。

### 3.下列对于层归一化叙述错误的是：

A.层归一化有利于加快收敛，减少训练时间成本

B.层归一化对一个中间层的所有神经元进行归一化

C.层归一化对每个神经元的输入数据以mini-batch为单位进行汇总

D.层归一化的效果不会受到batch大小的影响

**答案：C**

答案解释

批归一化（Batch Normalization）才是对每个神经元的输入数据以mini-batch为单位进行汇总
