## 13.Transformer组件

**学习目标**

1. 能用代码实现编码器、解码器、编码器-解码器结构

2. 能用代码实现基于正弦余弦函数的位置编码

3. 能用代码实现基于位置的前馈网络（FFN）

4. 能用代码实现残差连接和层规范化(Add&Norm)结构

****

Transformer 是一种深度学习模型，由 Vaswani 等人在 2017 年的论文《Attention Is All You Need》中首次提出。它在自然语言处理（NLP）领域取得了革命性的进展。以下是 Transformer 模型的几个关键特点：

自注意力机制（Self-Attention）：Transformer 摒弃了传统的循环神经网络（RNN）结构，使用自注意力机制来捕捉序列内不同位置之间的依赖关系。这种机制允许模型同时处理序列中的所有元素，从而提高了计算效率。

并行处理能力：由于自注意力机制的特性，Transformer 可以并行处理序列中的所有元素，这与传统的序列模型（如 LSTM 或 GRU）相比，大大提高了训练速度。

Transformer的编码器-解码器架构

Transformer 模型通常由编码器（Encoder）和解码器（Decoder）组成。编码器将输入序列转换为连续的表示，而解码器则使用这些表示来生成输出序列。

多头注意力（Multi-Head Attention）：Transformer 通过多头注意力机制，允许模型同时从不同的表示子空间捕捉信息，增强了模型的表达能力。

位置编码（Positional Encoding）：由于 Transformer 模型本身不具备捕捉序列顺序的能力，因此引入了位置编码来提供序列中每个元素的位置信息。

层归一化（Layer Normalization）和残差连接（Residual Connections）：Transformer 使用层归一化和残差连接来促进深层网络的训练，防止梯度消失或爆炸问题。

<img src="./images/transformer.jpg" style="zoom:60%;" />


为了能够顺利构建出Transformer模型，我们先来构建Transformer的几个核心组件：

- 位置编码（Positional Encoding）
- 基于位置的前馈网络（Feed Forward Network）
- 残差连接和层规范化(Add&Norm)
- 编码器（Encoder）
- 解码器（Decoder）
- 编码器-解码器（Encoder-Decoder）

****

In [1]:
import math
import torch
import pandas as pd
from torch import nn
from matplotlib import pyplot as plt

1.位置编码

由于Transformer模型本身不具有处理序列顺序的能力，位置编码使得模型能够理解单词在句子中的相对位置。

我们可以使用不同频率的正弦和余弦函数为序列中的每个位置生成唯一的编码。位置编码的公式如下：

$$
PE_{(pos, 2i)} = \sin\left(\frac{pos}{10000^{\frac{2i}{d}}}\right)
$$

$$
PE_{(pos, 2i+1)} = \cos\left(\frac{pos}{10000^{\frac{2i}{d}}}\right)
$$

其中：

𝑃𝐸是位置编码矩阵。

pos是词在序列中的绝对位置（从0开始）。

𝑖是维度索引（从0开始）。

𝑑model是模型的维度大小。

对于每个维度𝑖，位置编码包含两个值：一个正弦值和一个余弦值，分别对应偶数索引和奇数索引。

位置编码的目的是给模型提供每个词在序列中的相对位置信息，这样模型就可以利用这些信息来理解词与词之间的关系。位置编码通常被添加到词嵌入（Word Embeddings）中，然后一起输入到Transformer模型中。

Transformer的位置编码选择三角函数的官方解释是：

位置编码的每个维度都对应于一个正弦曲线。波长形成一个从2π到10000·2π的几何轨迹。我们之所以选择这个函数，是因为我们假设它可以让模型很容易地通过相对位置进行学习，因为对于任何固定的偏移量k,PEpos+k都可以表示为PEpos的线性函数。

也就是说，每个维度都是波长不同的正弦波，波长范围是2π到10000·2π，选用10000这个比较大的数是因为三角函数式有周期的，在这个范围基本上，就不会出现波长一样的情况了。然后谷歌的科学家们为了让PE值的周期更长，还交替使用sin/cos来计算PE的值，就得到了最终的公式。

In [2]:
# 位置编码
class PositionalEncoding(nn.Module):
    def __init__(self, num_hiddens, dropout, max_len=1000):
        super(PositionalEncoding, self).__init__()
        self.dropout = nn.Dropout(dropout)
        # 初始化一个全0的位置编码矩阵，大小为(1, max_len, num_hiddens)
        self.P = torch.zeros((1, max_len, num_hiddens))
        # 计算位置编码
        X = torch.arange(max_len, dtype=torch.float32).reshape(-1, 1) / torch.pow(
            10000, torch.arange(0, num_hiddens, 2, dtype=torch.float32) / num_hiddens)
        # 使用正弦函数为0,2,4,...维度的位置上填充位置编码
        self.P[:, :, 0::2] = torch.sin(X)
        # 使用余弦函数为1,3,5,...维度的位置上填充位置编码
        self.P[:, :, 1::2] = torch.cos(X)
        
    def forward(self, X):
        # 将位置编码加到输入X上
        X += self.P[:, :X.shape[1], :].to(X.device)
        
        return self.dropout(X)

2.基于位置的前馈网络（FFN）

这就是一个简单的MLP，它由两个全连接层组成。这两个全连接层的输入是来自前一层的输出和来自位置编码的向量。位置编码向量是一种映射，它将位置信息编码到输入向量中，使得模型能够捕捉到输入序列中各个位置之间的关系。

In [3]:
# 基于位置的前馈网络
class PositionWiseFFN(nn.Module):
    def __init__(self, ffn_num_input, ffn_num_hiddens, ffn_num_outputs, **kwargs):
        super(PositionWiseFFN, self).__init__(**kwargs)
        self.dense1 = nn.Linear(ffn_num_input, ffn_num_hiddens)
        self.relu = nn.ReLU()
        self.dense2 = nn.Linear(ffn_num_hiddens, ffn_num_outputs)
        
    def forward(self, X):
        return self.dense2(self.relu(self.dense1(X)))

3.残差连接和层规范化(Add&Norm)

（1）什么是层规范化？

层规范化（Layer Normalization, LayerNorm）是一种用于神经网络的归一化技术，主要用于稳定神经网络的训练过程。它与批量规范化（Batch Normalization, BatchNorm）类似，但适用的场景和实现方式有所不同。层规范化是对输入张量的**每个样本**进行归一化，而不是对整个批次进行归一化。具体来说，它对输入张量的**最后一个维度**（通常是特征维度）进行归一化，使得每个样本的特征分布更加稳定。

（2）层规范化的计算公式

对于输入张量x，层规范化的计算公式如下：

$$
\text{LayerNorm}(x) = \gamma \left( \frac{x - \mu}{\sqrt{\sigma^2 + \epsilon}} \right) + \beta
$$
其中：

-  x ：输入张量，形状为  (N, *) ，其中  N  是样本数，*表示任意其他维度。

-  mu：输入张量在最后一个维度上的均值，计算公式为：
  $$
  \mu = \frac{1}{H} \sum_{i=1}^H x_i
  $$
  其中  H  是最后一个维度的大小。

- sigma^2 ：输入张量在最后一个维度上的方差，计算公式为：
  $$
  \sigma^2 = \frac{1}{H} \sum_{i=1}^H (x_i - \mu)^2
  $$
  

- epsilon：一个很小的常数，用于防止分母为零。

- gamma  和 beta ：可学习的缩放因子和偏移因子，形状与输入张量的最后一个维度相同。

（3）层规范化与批量规范化的对比

| 特性           | 批量规范化（BatchNorm）          | 层规范化（LayerNorm）                |
| -------------- | -------------------------------- | ------------------------------------ |
| **归一化维度** | 对批次维度进行归一化             | 对每个样本的最后一个维度进行归一化   |
| **适用场景**   | 适用于固定大小的批次和图像数据   | 适用于变长序列和小批次数据           |
| **计算方式**   | 依赖批次的统计信息（均值和方差） | 依赖每个样本的统计信息（均值和方差） |
| **可学习参数** | 有可学习的缩放因子和偏移因子     | 有可学习的缩放因子和偏移因子         |
| **性能**       | 在批次较大时效果好               | 在批次较小时效果好                   |

（4）层规范化的计算示例

假设输入张量  x  的形状为  (3, 4) ，表示 3 个样本，每个样本有 4 个特征。

#### 输入张量

$$
x = \begin{bmatrix}
1 & 2 & 3 & 4 \\
2 & 3 & 4 & 5 \\
3 & 4 & 5 & 6 \\
\end{bmatrix}
$$



#### 计算均值和方差

- 对每个样本计算均值和方差：

  - 样本 1：

    均值 
    $$
    \mu_1 = \frac{1+2+3+4}{4} = 2.5
    $$
    方差 
    $$
    \sigma_1^2 = \frac{(1-2.5)^2 + (2-2.5)^2 + (3-2.5)^2 + (4-2.5)^2}{4} = 1.25
    $$
     

  - 样本 2：

    均值 
    $$
    \mu_2 = \frac{2+3+4+5}{4} = 3.5
    $$
    方差 
    $$
    \sigma_2^2 = \frac{(2-3.5)^2 + (3-3.5)^2 + (4-3.5)^2 + (5-3.5)^2}{4} = 1.25
    $$
     

  - 样本 3：

    均值 
    $$
    \mu_3 = \frac{3+4+5+6}{4} = 4.5
    $$
     方差 
    $$
    sigma_3^2 = \frac{(3-4.5)^2 + (4-4.5)^2 + (5-4.5)^2 + (6-4.5)^2}{4} = 1.25
    $$
     

 层规范化的计算结果：

  $$
  \text{LayerNorm}(x) = \begin{bmatrix}
  \frac{1-2.5}{\sqrt{1.25 + \epsilon}} & \frac{2-2.5}{\sqrt{1.25 + \epsilon}} & \frac{3-2.5}{\sqrt{1.25 + \epsilon}} & \frac{4-2.5}{\sqrt{1.25 + \epsilon}} \\
  \frac{2-3.5}{\sqrt{1.25 + \epsilon}} & \frac{3-3.5}{\sqrt{1.25 + \epsilon}} & \frac{4-3.5}{\sqrt{1.25 + \epsilon}} & \frac{5-3.5}{\sqrt{1.25 + \epsilon}} \\
  \frac{3-4.5}{\sqrt{1.25 + \epsilon}} & \frac{4-4.5}{\sqrt{1.25 + \epsilon}} & \frac{5-4.5}{\sqrt{1.25 + \epsilon}} & \frac{6-4.5}{\sqrt{1.25 + \epsilon}} \\
  \end{bmatrix}
  $$
  


In [None]:
# 残差连接和层规范化(Add&Norm)
class AddNorm(nn.Module):
    def __init__(self, normalized_shape, dropout, **kwargs):
        """
        初始化 AddNorm 模块。

        参数:
        - normalized_shape: 层规范化的输入形状（通常是输入张量的最后一个维度）。
        - dropout: Dropout 的概率（用于正则化）。
        - **kwargs: 其他传递给父类 nn.Module 的参数。
        """
        super(AddNorm, self).__init__(**kwargs)
        self.dropout = nn.Dropout(dropout)
        self.ln = nn.LayerNorm(normalized_shape)
        
    def forward(self, X, Y):
        """
        前向传播函数。

        参数:
        - X: 输入张量（通常是上一层的输出）。
        - Y: 需要与 X 进行残差连接的张量（通常是当前层的输出）。

        返回:
        - 经过残差连接和层规范化后的输出张量。
        """
        # 对 Y 应用 Dropout，然后与 X 进行残差连接，最后进行层规范化
        return self.ln(self.dropout(Y) + X)

该模块实现了 残差连接（Residual Connection） 和 层规范化（LayerNorm） 的功能。

残差连接通过将当前层的输出与上一层的输出相加，帮助模型更好地训练深层网络。

层规范化对输入进行归一化，使得模型对输入的分布更加稳定。

Dropout 用于正则化，防止模型过拟合。

4.编码器-解码器结构

4.1 编码器

在编码器接口中，我们只指定长度可变的序列作为编码器的输入X。任何继承这个Encoder基类的模型将完成代码实现。

In [5]:
class Encoder(nn.Module):
    """The base encoder interface for the encoder--decoder architecture.
    """
    def __init__(self):
        super().__init__()

    def forward(self, X, *args):
        raise NotImplementedError

4.2 解码器

在下面的解码器接口中，我们新增一个init_state函数，用于将编码器的输出（enc_outputs）转换为编码后的状态。为了逐个地生成长度可变的词元序列，解码器在每个时间步都会将输入和编码后的状态映射成当前时间步的输出词元。

In [6]:
class Decoder(nn.Module):
    def __init__(self):
        # 初始化方法，在这里可以初始化解码器的参数和层
        super().__init__()

    # init_state方法用于初始化解码器的状态。
    # 这个方法应该在每个具体的解码器类中被实现（override）。
    # enc_all_outputs参数代表编码器的所有输出，可以用于初始化解码器的状态。
    # *args允许传入额外的参数，这提供了灵活性，以适应不同的解码器实现。
    def init_state(self, enc_all_outputs, *args):
        raise NotImplementedError

    # X代表输入到解码器的序列数据。
    # state代表解码器的状态，它可能包含编码器的输出、隐藏状态等信息。
    def forward(self, X, state):
        raise NotImplementedError

4.3 编码器-解码器结构

编码器‐解码器结构包含了一个编码器和一个解码器，并且还拥有可选的额外的参数。在前向传播中，编码器的输出用于生成编码状态，这个状态又被解码器作为其输入的一部分。

In [7]:
class EncoderDecoder(nn.Module):
    """编码器-解码器架构的基类"""
    def __init__(self, encoder, decoder, **kwargs):
        super(EncoderDecoder, self).__init__(**kwargs)
        self.encoder = encoder
        self.decoder = decoder
    def forward(self, enc_X, dec_X, *args):
        enc_outputs = self.encoder(enc_X, *args)
        dec_state = self.decoder.init_state(enc_outputs, *args)
        return self.decoder(dec_X, dec_state)