要构建Transformer模型，需要以下步骤：
- 导入库和模块
- 定义基本构建块-多头注意力、前馈神经网络、位置编码
- 构建编码器块
- 构建解码器块
- 结合编码器和解码器层，创建完整的变压器网络

## 1.导入库和模块

In [1]:
import torch
import torch.nn as nn
import torch.optim as optim
import torch.utils.data as data
import math
import copy

## 2.定义基本构建块-多头注意力、前馈神经网络、位置编码

### 2.1 Multi-head Attention

![image-6.png](attachment:image-6.png)

In [2]:
class MultiHeadAttention(nn.Module):
    def __init__(self, d_model, num_heads):
        super(MultiHeadAttention, self).__init__()
        # 确保模型维度d_model能被头数（number of heads）整除，这个整除数为d_k
        assert d_model % num_heads == 0, "d_model must be divisible by num_heads"
        
        # 初始化维度
        self.d_model = d_model # 模型维度
        self.num_heads = num_heads # Number of attention heads
        self.d_k = d_model // num_heads # 每个头的K,Q,V的维度
        
        # 用于转换输入的线性层
        self.W_q = nn.Linear(d_model, d_model) # Query transformation
        self.W_k = nn.Linear(d_model, d_model) # Key transformation
        self.W_v = nn.Linear(d_model, d_model) # Value transformation
        self.W_o = nn.Linear(d_model, d_model) # Output transformation
        
    def scaled_dot_product_attention(self, Q, K, V, mask=None):
        # 计算注意力得分，transpose为转置函数,把第-2，-1轴互换
        attn_scores = torch.matmul(Q, K.transpose(-2, -1)) / math.sqrt(self.d_k)
        
        # 如果提供了掩码（mask），则应用它（这对于防止对某些部分（如填充部分）的关注很有用）
        if mask is not None:
            #把矩阵mask中值为0或False的值替换为负无穷大（这里用-le9代替）
            attn_scores = attn_scores.masked_fill(mask == 0, -1e9)
        
        # 利用函数Softmax计算注意力概率分布，按最后一个轴计算（如mxn矩阵，按同行不同列） 
        attn_probs = torch.softmax(attn_scores, dim=-1)
        
        # 与V相乘以获得最终输出
        output = torch.matmul(attn_probs, V)
        return output
        
    def split_heads(self, x):
        # 修改输入尺寸大小，使其具有num_heads，以实现多头注意力
        #x的维度为(batch_size, seq_length, d_model)
        #这里主要把d_model维度拆分为num_headers分配给每个head,每份的维度变为d_k(=d_model/num_heads)
        #同时x的维度由3维变为4维
        #输出维度为(batch_size,num_heads,seq_length, d_k)
        batch_size, seq_length, d_model = x.size()
        return x.view(batch_size, seq_length, self.num_heads, self.d_k).transpose(1, 2)#交换维度1,2的位置
        
    def combine_heads(self, x):
        # 将多个头组合回原始形状
        #x的维度为(batch_size,num_heads,seq_length,d_k)
        #通过view方法，把num_heads与d_k合并一个，其长度变为d_model
        #输入维度由(batch_size,num_heads,seq_length, d_k) 变为(batch_size,seq_length, d_model)
        batch_size, _, seq_length, d_k = x.size()
        #contiguous()将返回一个内存连续的张量，以便后面的view操作
        return x.transpose(1, 2).contiguous().view(batch_size, seq_length, self.d_model)
        
    def forward(self, Q, K, V, mask=None):
        # 使用全连接层分拆d_model成num_heads给每个head
        Q = self.split_heads(self.W_q(Q))
        K = self.split_heads(self.W_k(K))
        V = self.split_heads(self.W_v(V))
        
        # 计算缩放点积注意力
        attn_output = self.scaled_dot_product_attention(Q, K, V, mask)
        
        # 拼接num_heads个heads，并通过全连接层输出Z
        output = self.W_o(self.combine_heads(attn_output))
        return output

<font color=blue size=3>PyTorch中，contiguous()函数的主要作用是将一个‌Tensor的内存布局转换为连续的，以确保某些操作可以正确执行或提高性能。 当Tensor通过某些操作（如转置或切片）后，其内存布局可能不再连续，这时调用contiguous()函数可以创建一个新的连续的Tensor，它重新排列数据以确保内存布局的连续性。这种连续性对于如view()这样的操作至关重要，因为这些操作要求Tensor的内存是连续存储的。此外，contiguous()函数通过返回一个新的Tensor来实现，原始Tensor不会被改变。这种连续的内存布局可以优化数据访问和处理效率，因为处理器可以按照内存地址的顺序依次读取数据，而不需要在不同的内存位置之间进行跳转</font>

### 该类被定义为PyTorch's nn.Module的子类。
- d_model: Dimensionality of the input.
- num_heads: The number of attention heads to split the input into.

### def scaled_dot_product_attention(self, Q, K, V, mask=None):
![image-2.png](attachment:image-2.png)
- 计算注意力得分：attn_Scores=torch.matmul（Q，K.转置（-2，-1））/math.sqrt（self.d.K）。这里，注意力得分是
- 通过取查询（Q）和键（K）的点积然后按键维度$（d_K）$ 的平方根缩放来计算。
- 应用掩码：如果提供了掩码，则将其应用于注意力得分以掩盖特定值。
- 计算注意力权重：注意力得分通过softmax函数转换为总和为1的概率。
- 计算输出：注意力的最终输出是通过将注意力权重乘以值（V）来计算的。

![image.png](attachment:image.png)

### def split_heads(self, x):
此方法将输入x重新变形形为形状（batch_size，num_heads，seq_length，$d_k$）。它使模型能够同时处理多个注意力，从而允许并行计算。

### def combine_heads(self, x):
在分别关注每个头部后，该方法将结果组合回一个形状张量（batch_size、seq_length、$d_{model}$）。这为进一步处理结果做好了准备。

### def forward(self, Q, K, V, mask=None):
- 正向方法是实际计算发生的地方：
- 应用线性变换：首先使用初始化中定义的权重对查询（Q）、键（K）和值（V）进行线性变换。
- 拆分头部：使用Split_Heads方法将转换后的Q、K、V拆分为多个头部。
- 应用缩放点产品注意力：在拼合头上调用Scaled.Dot_Product_Attention方法。
- 合并头部：使用Combine_Heads方法将每个头部的结果合并回一个张量。
- 应用输出变换：最后，组合张量通过输出线性变换。

总之，MultiHeadAttention类封装了Transformer模型中常用的多头注意机制。它负责将输入拆分为多个注意力头部，将注意力应用于每个头部，然后组合结果。通过这样做，模型可以在不同尺度上捕捉输入数据中的各种关系，提高模型的表达能力。

### 2.2 前馈神经网络

In [3]:
class PositionWiseFeedForward(nn.Module):
    def __init__(self, d_model, d_ff):
        super(PositionWiseFeedForward, self).__init__()
        self.fc1 = nn.Linear(d_model, d_ff)
        self.fc2 = nn.Linear(d_ff, d_model)
        self.relu = nn.ReLU()

    def forward(self, x):
        return self.fc2(self.relu(self.fc1(x)))

### def __init__(self, d_model, d_ff):
- d_model：模型输入和输出的维度。
- d_ff：前馈网络内层的维数。
- self.fc1和self.fc2：两个完全连接的（线性）层，其输入和输出维度由d_model和d_ff定义。
- self.relu：relu（校正线性单元）激活函数，在两个线性层之间引入非线性。

### def forward(self, x):
- x：前馈网络的输入。
- self.fc1（x）：输入首先通过第一线性层（fc1）。
- self.relu（…）：fc1的输出然后通过relu激活函数传递。ReLU将所有负值替换为零
- 将非线性引入模型。
- self.fc2（…）：激活的输出然后通过第二线性层（fc2），产生最终输出。

总之，PositionWiseFeedForward类定义了一个位置前馈神经网络，该网络由两个线性层组成，中间有ReLU激活函数。在Transformer模型的背景下，这种前馈网络被单独且相同地应用于每个位置。它有助于转换由转换器内的注意力机制学习到的特征，作为注意力输出的额外处理步骤。

### 2.3 位置编码

位置编码用于在输入序列中注入每个标记（Token）的位置信息。它使用不同频率的正弦和余弦函数来生成位置编码
![image.png](attachment:image.png)

In [4]:
class PositionalEncoding(nn.Module):
    def __init__(self, d_model, max_seq_length):
        super(PositionalEncoding, self).__init__()
        #生成一个0矩阵，尺寸大小为(max_seq_length, d_model)
        pe = torch.zeros(max_seq_length, d_model)
        #生成一个由0到max_seq_length（小于这个值）的序列，并在第二个位置增加一个维度
        position = torch.arange(0, max_seq_length, dtype=torch.float).unsqueeze(1)
        #计算公式中括号中指
        div_term = torch.exp(torch.arange(0, d_model, 2).float() * -(math.log(10000.0) / d_model))
        #列索引为偶数，置为sin值，列索引为奇数的置为cos值
        pe[:, 0::2] = torch.sin(position * div_term)
        pe[:, 1::2] = torch.cos(position * div_term)
        #pe.unsqueeze(0)增加一个维度，然后注册张量pe，使之变为不参与更新的参数
        self.register_buffer('pe', pe.unsqueeze(0))
        
    def forward(self, x):
        return x + self.pe[:, :x.size(1)]

<font color=blue>1.通过register_buffer()登记过的张量：会自动成为模型中的参数，随着模型移动（gpu/cpu）而移动，但是不会随着梯度进行更新</font>  
<font color=blue>2.在PyTorch中，unsqueeze(0)是一个常用的函数，它用于在张量的指定维度上插入一个新的维度，新的维度大小为1。例如，如果你有一个形状为(3,)的张量，使用unsqueeze(1)会使其形状变为(1,3)。</font>

### def __init__(self, d_model, max_seq_length)

- d_model：模型输入的维度。
- max_seq_length：预先计算位置编码的序列的最大长度。
- pe：一个用零填充的张量，它将用位置编码填充。
- position：包含序列中每个位置的位置索引的张量。
- div_term：用于以特定方式缩放位置索引的术语。
- 正弦函数应用于pe的偶数索引，余弦函数应用于pe的奇数索引。
- 最后，pe被注册为缓冲区，这意味着它将是模块状态的一部分，但不会被视为可训练参数。

### def forward(self, x):

正向方法简单地将位置编码添加到输入x。
它使用pe的前x.size（1）个元素来确保位置编码与x的实际序列长度匹配。

## 3. 构建编码器

![image-3.png](attachment:image-3.png)

In [5]:
class EncoderLayer(nn.Module):
    def __init__(self, d_model, num_heads, d_ff, dropout):
        super(EncoderLayer, self).__init__()
        #初始化类
        self.self_attn = MultiHeadAttention(d_model, num_heads)
        self.feed_forward = PositionWiseFeedForward(d_model, d_ff)
        self.norm1 = nn.LayerNorm(d_model)
        self.norm2 = nn.LayerNorm(d_model)
        self.dropout = nn.Dropout(dropout)
        
    def forward(self, x, mask):
        attn_output = self.self_attn(x, x, x, mask)
        x = self.norm1(x + self.dropout(attn_output))
        ff_output = self.feed_forward(x)
        x = self.norm2(x + self.dropout(ff_output))
        return x

![image-2.png](attachment:image-2.png)
N为batch size，C为channel（通道数），H,W代表每个特征向量的高和宽。
简单的理解就是BatchNorm是对一个batch size样本内的每个特征做归一化，LayerNorm是对每个样本的所有特征做归一化，LayerNorm善于处于输入为不定长的数据。

### Initialization:
参数：
- d_model：输入的维度。
- num_heads：多头注意力中的注意力头数。
- d_ff：位置前馈网络中内层的维度。
- dropout：用于正规化的辍学率。

组件：
- self.self_attn：多头注意力机制。
- self.feed_forward: 位置前馈神经网络。
- self.norm1和self.norm2：层归一化，用于平滑层的输入。
- self.dropout：Dropout层，用于通过在训练期间随机将一些激活设置为零来防止过拟合。

### Forward Method:
输入:
- x：编码器层的输入。
- mask：可选掩码，用于忽略输入的某些部分。

操作步骤：
- 自注意力：输入x通过多头自注意力机制传递。
- 添加并归一化（在注意力之后）：将注意力输出添加到原始输入（残差连接），然后使用 norm1 进行 dropout 和归一化。
- 前馈网络：前一步的输出通过位置前馈网络传递。
- 添加并归一化（前馈后）：与步骤2类似，将前馈输出添加到该阶段的输入（残差连接），然后使用norm2进行dropout和归一化。
- 输出：经过处理的张量作为编码器层的输出返回。

### 小结
EncoderLayer类定义了 transformer 编码器的单层。它封装了一个多头自注意力机制，后面是位置前馈神经网络，并适当地应用了残差连接、层归一化和 dropout。这些组件共同使编码器能够捕捉输入数据中的复杂关系，并将其转化为下游任务的有用表示。通常，多个这样的编码器层被堆叠起来，形成 transformer 模型的完整编码器部分。

![image.png](attachment:image.png)

### 4. 构建解码器
![image-2.png](attachment:image-2.png)

In [6]:
class DecoderLayer(nn.Module):
    def __init__(self, d_model, num_heads, d_ff, dropout):
        super(DecoderLayer, self).__init__()
        self.self_attn = MultiHeadAttention(d_model, num_heads)
        self.cross_attn = MultiHeadAttention(d_model, num_heads)
        self.feed_forward = PositionWiseFeedForward(d_model, d_ff)
        self.norm1 = nn.LayerNorm(d_model)
        self.norm2 = nn.LayerNorm(d_model)
        self.norm3 = nn.LayerNorm(d_model)
        self.dropout = nn.Dropout(dropout)
        
    def forward(self, x, enc_output, src_mask, tgt_mask):
        attn_output = self.self_attn(x, x, x, tgt_mask)
        x = self.norm1(x + self.dropout(attn_output))
        attn_output = self.cross_attn(x, enc_output, enc_output, src_mask)
        x = self.norm2(x + self.dropout(attn_output))
        ff_output = self.feed_forward(x)
        x = self.norm3(x + self.dropout(ff_output))
        return x

Decoder Block的架构大体上和Encoder Block是一致的，唯独不同的是Decoder比Encoder多了Masked Multi-Head Attention。
那么为什么要在Decode阶段对特征（或者说tokens）做mask呢？
Mask的样式如下，白格为0，蓝格为1, 1表示保留的部分，0表示mask的部分
![image-2.png](attachment:image-2.png)
ransformer针对序列化特征，比如文本数据，这些特征是有前后关系的，为了不让Decoder通过未来的单词（或者说特征）来猜测出当前的特征，将后面的token进行mask，这样模型只能通过过去的词或者说特征元素来预测当前特征元素。

### def __init__(self, d_model, num_heads, d_ff, dropout):

参数：
- d_model: 输入的维度。
- num_heads：多头注意力中的注意力头数。
- d_ff：前馈网络中内层的维度。
- dropout：正则化的丢弃率。  

组件：
- self.self_attn：目标序列的多头自注意力机制。
- self.cross_attn：关注编码器输出的多头注意力机制。
- self.feed_forward: 位置前馈神经网络。
- self.norm1，self.norm2，self.norm3：层归一化组件。
- self.dropout: 用于正则化的丢弃层。

### Forward Method:

输入：
- x：解码器层的输入。
- enc_output：来自相应编码器的输出（在跨注意力步骤中使用）。
- src_mask：源掩码，用于忽略编码器输出的某些部分。
- tgt_mask：目标掩码，用于忽略解码器输入的某些部分。

操作步骤：
- 目标序列上的自注意力：输入x通过自注意力机制进行处理。
- 添加并归一化（在自注意力之后）：将自注意力的输出添加到原始的x中，然后使用norm1进行dropout和归一化。
- 与编码器输出的交叉注意力：通过交叉注意力机制处理前一步的标准化输出，该机制关注编码器的输出enc_output。
- 添加并归一化（在交叉注意之后）：将交叉注意的输出添加到该阶段的输入中，然后使用 norm2 进行 dropout 和归一化。
- 前馈网络：前一步的输出通过前馈网络传递。
- 添加并归一化（在前馈之后）：前馈输出被添加到该阶段的输入中，然后使用 norm3 进行 dropout 和归一化。
输出：处理后的张量作为解码器层的输出返回。

摘要：DecoderLayer类定义了 transformer 解码器的单层。它由多头自注意力机制、多头交叉注意力机制（关注编码器的输出）、位置前馈神经网络以及相应的残差连接、层归一化和丢弃层组成。这种组合使解码器能够根据编码器的表示生成有意义的输出，同时考虑目标序列和源序列。与编码器一样，通常将多个解码器层堆叠起来，以形成 transformer 模型的完整解码器部分。接下来，编码器和解码器模块被组合在一起，以构建综合的Transformer模型。

## 5. 结合编码器和解码器层，创建完整的Transformer网络
![image-2.png](attachment:image-2.png)

In [7]:
class Transformer(nn.Module):
    def __init__(self, src_vocab_size, tgt_vocab_size, d_model, num_heads, num_layers, d_ff, max_seq_length, dropout):
        super(Transformer, self).__init__()
        #定义嵌入层
        self.encoder_embedding = nn.Embedding(src_vocab_size, d_model)
        self.decoder_embedding = nn.Embedding(tgt_vocab_size, d_model)
        self.positional_encoding = PositionalEncoding(d_model, max_seq_length)
        #构建编码器和解码器
        self.encoder_layers = nn.ModuleList([EncoderLayer(d_model, num_heads, d_ff, dropout) for _ in range(num_layers)])
        self.decoder_layers = nn.ModuleList([DecoderLayer(d_model, num_heads, d_ff, dropout) for _ in range(num_layers)])

        self.fc = nn.Linear(d_model, tgt_vocab_size)
        self.dropout = nn.Dropout(dropout)

    def generate_mask(self, src, tgt):
        src_mask = (src != 0).unsqueeze(1).unsqueeze(2)
        tgt_mask = (tgt != 0).unsqueeze(1).unsqueeze(3)
        seq_length = tgt.size(1)
        nopeak_mask = (1 - torch.triu(torch.ones(1, seq_length, seq_length), diagonal=1)).bool()
        #把参与训练的数据迁移到GPU上
        nopeak_mask=nopeak_mask.to(device)
        tgt_mask = tgt_mask & nopeak_mask        
        return src_mask, tgt_mask

    def forward(self, src, tgt):
        src_mask, tgt_mask = self.generate_mask(src, tgt)
        src_embedded = self.dropout(self.positional_encoding(self.encoder_embedding(src)))
        tgt_embedded = self.dropout(self.positional_encoding(self.decoder_embedding(tgt)))

        enc_output = src_embedded
        for enc_layer in self.encoder_layers:
            enc_output = enc_layer(enc_output, src_mask)

        dec_output = tgt_embedded
        for dec_layer in self.decoder_layers:
            dec_output = dec_layer(dec_output, enc_output, src_mask, tgt_mask)

        output = self.fc(dec_output)
        return output

### Initialization:

构造函数接受以下参数：
- src_vocab_size：源词汇表大小。
- tgt_vocab_size：目标词汇表大小。
- d_model: 模型的嵌入维数，即每个标记的维度。
- num_heads：多头注意力机制中的注意力头数。
- num_layers：编码器和解码器的层数。
- d_ff：前馈网络中内层的维度。
- max_seq_length：位置编码的最大序列长度，即每个序列的时间步长。
- dropout: 用于正则化的丢弃率。

它定义了以下组件：
- self.encoder_embedding: 源序列的嵌入层。
- self.decoder_embedding: 目标序列的嵌入层。
- self.positional_encoding: 位置编码组件。
- self.encoder_layers: 编码器层的列表。
- self.decoder_layers: 译码器层的列表。
- self.fc：映射到目标词汇大小的最终全连接（线性）层。
- self.dropout: 丢弃层。

### Generate Mask Method:

该方法用于为源序列和目标序列创建掩码，确保填充标记被忽略，并且在目标序列的训练过程中未来的标记不可见。

### Forward Method:
此方法定义了 Transformer 的正向传递，获取源序列和目标序列并生成输出预测。

- 输入嵌入和位置编码：首先使用各自的嵌入层对源序列和目标序列进行嵌入，然后将其添加到位置编码中。
- 编码器层：源序列通过编码器层，最终编码器输出表示处理的源序列。
- 解码器层：目标序列和编码器的输出通过解码器层，产生解码器的输出。
- 最终线性层：解码器的输出使用全连接（线性）层映射到目标词汇表大小。

输出：

最终输出是一个表示模型对目标序列预测的张量。

摘要：

Transformer类汇集了Transformer模型的各种组件，包括嵌入、位置编码、编码器层和解码器层。它为训练和推理提供了一个方便的接口，封装了多头注意力、前馈网络和层归一化的复杂性。
此实现遵循标准的Transformer架构，使其适用于机器翻译、文本摘要等序列到序列的任务。掩蔽的引入确保了模型遵循序列内的因果依赖关系，忽略填充标记并防止未来标记的信息泄漏。
这些连续步骤使Transformer模型能够有效地处理输入序列并产生相应的输出序列。

## 6 训练Transformer模型

### 样本数据准备
为了便于说明，本例中将制作一个虚拟数据集。然而，在实际场景中，将采用更充实的数据集，该过程将涉及文本预处理以及源语言和目标语言的词汇映射的创建。
### 这里数据的划分规则为：
- 源或目标词库的大小：src_vocab_size，tgt_vocab_size。
- 序列长度，时间步长：max_seq_length
- 序列中每个标记转换为向量（或嵌入）的长度：d_model

### 模型中的几个重要参数：
- 叠加的层数：num_layers
- 多头注意力中头数：num_heads
- 前馈网络中第一个全连接层输出的节点数：d_ff

In [8]:
#定义词库的单词总数
src_vocab_size = 5000
tgt_vocab_size = 5000
d_model = 512
num_heads = 8
num_layers = 6
d_ff = 2048
max_seq_length = 100
dropout = 0.1
batch_size=64
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

#实例化模型
transformer = Transformer(src_vocab_size, tgt_vocab_size, d_model, num_heads, num_layers, d_ff, max_seq_length, dropout)
#把模型迁移到GPU
transformer=transformer.to(device)

# Generate random sample data
src_data = torch.randint(1, src_vocab_size, (batch_size, max_seq_length))  # (batch_size, seq_length)
tgt_data = torch.randint(1, tgt_vocab_size, (batch_size, max_seq_length))  # (batch_size, seq_length)
#把训练数据迁移到GPU，2023-11 add 
src_data=src_data.to(device)
tgt_data=tgt_data.to(device)

### 【说明】
torch.randint(low=0, high, size) 返回一个张量，其中充满在low(包含)和high(不包含)之间均匀生成的随机整数。

In [9]:
### Transformer输入数据的格式

print("数据类型:{},数据维度:{}".format(type(src_data),src_data.shape))
print("样例数据:{}".format(src_data[:2]))

数据类型:<class 'torch.Tensor'>,数据维度:torch.Size([64, 100])
样例数据:tensor([[3548,  351, 3397,  578, 2323, 2375, 2771, 2590, 1019, 4475,  754, 1654,
          527, 4839, 3180, 3693,  233, 4839, 4882, 2809, 1401, 3654,  783, 4476,
          908, 2211,  225,  799, 1618, 2710,  483, 1171, 4171,  774,  718,  397,
         2449, 1572, 2280, 3995, 2420, 2513, 3324, 1202, 4011, 3040,  361, 2353,
         3097, 2175, 2735, 2077,  695, 2128, 4080, 1015, 3163, 4881, 1740, 4978,
         2430, 1429, 1921, 4341, 2354, 2695,  922, 2073, 2703,   55, 3345, 2705,
          714, 3733, 1771, 2465, 3332, 2338, 3882, 3581, 4379, 4986, 2961, 2796,
         4195, 2512, 1689, 2315, 4061, 1272, 1470, 3866, 3275, 2878, 3026, 4683,
         4817, 3297,  779, 3015],
        [4992, 2891,  498, 3748, 3815, 4712, 2319, 4033, 4107, 3362, 2108, 1045,
         3651, 1869, 1600,  277, 3143, 4660, 1372, 3946, 3561, 4313, 4263, 4850,
         2188, 4892,  299, 2529, 2639, 4990, 2659, 4982,    3,  671, 2927, 1910,
         2505, 

In [10]:
### Transformer标签数据的格式

print("数据类型:{},数据维度:{}".format(type(tgt_data),tgt_data.shape))
print("样例数据:{}".format(tgt_data[:2]))

数据类型:<class 'torch.Tensor'>,数据维度:torch.Size([64, 100])
样例数据:tensor([[4903, 1883, 2456, 4528, 3940, 3333, 3878, 4953, 1021, 4093, 2624, 4003,
          478, 1566, 2706, 2767,  676, 1660, 3622, 2227, 2080, 1820, 2421,  761,
         4884, 2743,  302, 3581, 2029, 3382, 1377, 3639,  508, 3100, 2255,  860,
         1267, 4012, 2820,  386, 1095, 1324, 3312, 2922, 4188,  834, 4259, 4515,
          581, 3191, 3963,  420, 3100, 4444, 1710, 1942, 1329, 3175, 4399, 1880,
         1944, 3811, 1574,  553,  656, 4902, 4006, 4381, 2613, 2267, 2789,  492,
         1245, 3196, 2373,   27, 4179, 2031, 4305, 1337, 4484, 2960, 3675,  531,
         2265,  209, 2086, 4153, 3769, 1322, 1610, 3294, 4256, 1578, 2003, 1153,
         4253,  755, 3278, 4384],
        [2999, 2446, 3952, 2807, 4294, 1718, 2347, 4539, 1453,  427, 2804, 1183,
         2937, 1825, 4138, 3987, 1223, 4932, 1514, 3655, 2338, 1379, 1665, 2237,
          525, 2676, 4741, 3793, 4910, 1791,  317, 3038, 2501,   14, 3001, 2723,
         3925, 

### 超参数：
这些值定义了变压器模型的架构和行为：
- src_vocab_size，tgt_vocab_size：源序列和目标序列的词汇表大小，均设置为 5000。
- d_model: 模型的嵌入维数，设置为 512。
- num_heads：多头注意力机制中的注意力头数，设置为8。
- num_layers：编码器和解码器的层数，设置为 6。
- d_ff：前馈网络中内层的维度，设置为2048。
- max_seq_length：位置编码的最大序列长度，设置为 100。
- dropout: 用于正则化的 dropout 比例，设置为 0.1。

### Creating a Transformer Instance:
此行创建了Transformer类的实例，用给定的超参数对其进行初始化。该实例将具有这些超参数定义的架构和行为。
生成随机样本数据：
以下行生成随机源和目标序列：
- src_data：1 到 src_vocab_size 之间的随机整数，表示形状为 (64, max_seq_length) 的源序列批。
- tgt_data：1 到靶词汇表大小之间的随机整数，表示形状为 (64, max_seq_length) 的目标序列。

这些随机序列可以用作 transformer 模型的输入，模拟一批包含 64 个示例和长度为 100 的序列的数据。

总结：

这段代码展示了如何初始化一个 transformer 模型并生成可以输入模型的随机源序列和目标序列。所选的超参数决定了 transformer 的具体结构和属性。这个设置可能是更大脚本的一部分，在这个脚本中，模型在实际的序列到序列任务上进行训练和评估，如机器翻译或文本摘要。

### 训练模型
接下来，将使用上述样本数据对模型进行训练。然而，在现实场景中，将使用明显更大的数据集，通常会将其划分为不同的集合，用于训练和验证目的。

In [12]:
#criterion = nn.CrossEntropyLoss(ignore_index=0)
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(transformer.parameters(), lr=0.0001, betas=(0.9, 0.98), eps=1e-9)

transformer.train()

for epoch in range(10):
    optimizer.zero_grad()
    #output = transformer(src_data, tgt_data[:, :-1])
    output = transformer(src_data, tgt_data)
    #loss = criterion(output.contiguous().view(-1, tgt_vocab_size), tgt_data[:, 1:].contiguous().view(-1))
    loss = criterion(output.contiguous().view(-1, tgt_vocab_size), tgt_data.contiguous().view(-1))
    loss.backward()
    optimizer.step()
    #if (epoch+1)%10 ==0 :
    print(f"Epoch: {epoch+1}, Loss: {loss.item()}")

Epoch: 1, Loss: 8.533740043640137
Epoch: 2, Loss: 8.444880485534668
Epoch: 3, Loss: 8.332590103149414
Epoch: 4, Loss: 8.218578338623047
Epoch: 5, Loss: 8.098363876342773
Epoch: 6, Loss: 7.991907119750977
Epoch: 7, Loss: 7.864342212677002
Epoch: 8, Loss: 7.745624542236328
Epoch: 9, Loss: 7.631009101867676
Epoch: 10, Loss: 7.505059242248535


<font color=blue>contiguous()返回一个内存连续的有相同数据的tensor，如果原tensor内存连续，则返回原tensor。 一般与transpose，permute，view等方法搭配使用，view方法相当于reshape方法</font>

In [13]:
## Transformer模型输出数据的详细内容
print("数据类型:{},输出数据维度:{}".format(type(output),output.shape))
print("样例数据:{}".format(output[:2]))

#output = transformer(src_data, tgt_data[:, :-1])

数据类型:<class 'torch.Tensor'>,输出数据维度:torch.Size([64, 100, 5000])
样例数据:tensor([[[-0.2541, -0.8550, -0.1156,  ...,  0.8379,  0.1429,  0.2443],
         [ 0.2558, -0.8802, -0.2272,  ..., -0.1217,  0.1038,  0.3375],
         [ 0.1229, -0.6972, -1.1395,  ...,  0.4673,  0.1669,  0.3966],
         ...,
         [-0.2251, -1.7055,  1.0116,  ..., -0.1301,  0.2223,  0.2729],
         [-1.1817,  0.3644, -0.1774,  ..., -0.9166,  0.5156,  1.2297],
         [-0.2857,  0.1625,  0.0059,  ..., -1.4410, -0.3010,  0.9572]],

        [[-0.0165,  0.4710, -0.1898,  ..., -0.1499, -0.2427, -0.5258],
         [ 0.1056,  0.0924,  0.7443,  ...,  0.1553, -0.8027, -0.1093],
         [-0.6683,  0.4868, -0.2554,  ...,  0.2232, -0.0357, -0.1896],
         ...,
         [-1.1857,  0.6446, -0.0903,  ..., -0.2312, -0.5363,  1.2901],
         [-0.6281, -0.4768, -0.0738,  ..., -1.3104, -0.0212, -0.2242],
         [-1.0514, -0.1587,  1.1623,  ..., -0.7305, -0.8124, -0.0408]]],
       device='cuda:0', grad_fn=<SliceBackward0>

In [14]:
print("输出数据类型:{},目标数据维度:{}".format(output.shape,tgt_data[:, :].shape))

输出数据类型:torch.Size([64, 100, 5000]),目标数据维度:torch.Size([64, 100])


### 损失函数中预测值与目标值的比较

In [15]:
print(output.contiguous().view(-1, tgt_vocab_size).shape, tgt_data[:, 1:].contiguous().view(-1).shape)

torch.Size([6400, 5000]) torch.Size([6336])


In [16]:
tgt_data[:, :].shape

torch.Size([64, 100])

### 损失函数和优化器：
- criterion = nn.CrossEntropyLoss(ignore_index=0)：将损失函数定义为交叉熵损失。ignore_index 参数设置为 0，这意味着损失函数不会考虑索引为 0 的目标（通常保留用于填充标记）。
- optimizer = optim.Adam(...): 将优化器定义为 Adam，学习率为 0.0001，并指定特定的 beta 值。

### 模型训练模式：
transformer.train(): 将 transformer 模型设置为训练模式，启用仅在训练期间应用的 dropout 等行为。

### 训练循环：
代码片段使用典型的训练循环对模型进行 100 个 epoch 的训练：
- epoch in range(100): 迭代 100 个训练 epoch。
- optimizer.zero_grad(): 清除前一次迭代的梯度。
- output = transformer(src_data, dst_data[:, :-1]): 将源数据和目标数据（不包括每个序列中的最后一个标记）传递给 transformer。这在序列到序列的任务中很常见，其中目标被移动了一个标记。
- loss = criterion(...): 计算模型预测值与目标数据之间的损失（不包括每个序列中的第一个标记）。损失是通过将数据重新整形为一维张量并使用交叉熵损失函数来计算的。
- loss.backward():计算损失相对于模型参数的梯度。
- optimizer.step(): 使用计算出的梯度更新模型的参数。
- print(f"Epoch: {epoch+1}, Loss: {loss.item()}"): 打印当前 epoch 编号和该 epoch 的损失值。

### 小结
此代码段在随机生成的源序列和目标序列上训练 transformer 模型 100 个 epoch。它使用 Adam 优化器和交叉熵损失函数。每个 epoch 的损失都会被打印出来，以便您监控训练进度。在现实场景中，您可以将随机源序列和目标序列替换为您的任务中的实际数据，例如机器翻译。

## 7 Transformer模型性能评估
训练模型后，可以在验证数据集或测试数据集上评估其性能。以下是完成此操作的示例：

In [17]:
transformer.eval()

# Generate random sample validation data
val_src_data = torch.randint(1, src_vocab_size, (batch_size, max_seq_length))  # (batch_size, seq_length)
val_tgt_data = torch.randint(1, tgt_vocab_size, (batch_size, max_seq_length))  # (batch_size, seq_length)

#把训练数据放入GPU
val_src_data=val_src_data.to(device)
val_tgt_data=val_tgt_data.to(device)

with torch.no_grad():
    val_output = transformer(val_src_data, val_tgt_data)
    val_loss = criterion(val_output.contiguous().view(-1, tgt_vocab_size), val_tgt_data.contiguous().view(-1))
    print(f"Validation Loss: {val_loss.item()}")

Validation Loss: 8.023787498474121


### 评价方式：
transformer.eval(): 将 transformer 模型置于评估模式。这很重要，因为它会关闭某些只在训练期间使用的行为，如 dropout。
生成随机验证数据：
- val_src_data：1 到 src_vocab_size 之间的随机整数，表示形状为 (64, max_seq_length) 的验证源序列。
- val_tgt_data：1 到 dst_vocab_size 之间的随机整数，表示形状为 (64, max_seq_length) 的验证目标序列。

### 验证循环：
- with torch.no_grad(): 禁用梯度计算，因为我们在验证过程中不需要计算梯度。这可以减少内存消耗并加快计算速度。
- val_output = transformer(val_src_data, val_tgt_data[:, :-1]): 通过 transformer 传递验证源数据和验证目标数据（不包括每个序列中的最后一个标记）。
- val_loss = criterion(...): 计算模型的预测结果与验证目标数据（不包括每个序列中的第一个标记）之间的损失。损失是通过将数据重新整形为一维张量并使用之前定义的交叉熵损失函数来计算的。
- print(f"验证损失：{val_loss.item()}"): 打印验证损失值。

### 总结：
此代码段在随机生成的验证数据集上评估变换器模型，计算验证损失，并将其打印出来。在现实场景中，随机验证数据应替换为你正在处理的任务的实际验证数据。验证损失可以指示你的模型在不可见数据上的表现如何，这是衡量模型泛化能力的一个关键指标。

## 合成数据

In [18]:
d_model = 512
num_heads = 8
num_layers = 6
d_ff = 2048
max_seq_length = 100
dropout = 0.1
batch_size=64
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

max_seq_length1=10
src_vocab_size1=10
tgt_vocab_size1=10
batch_size=64
# Generate random sample data
src_data1 = torch.randint(1, src_vocab_size1, (batch_size, max_seq_length1))  # (batch_size, seq_length)
tgt_data1=src_data1
#tgt_data1 = torch.randint(1, tgt_vocab_size1, (batch_size, max_seq_length1))  # (batch_size, seq_length)
#把训练数据迁移到GPU
src_data1=src_data1.to(device)
tgt_data1=tgt_data1.to(device)

In [19]:
src_data1.shape

torch.Size([64, 10])

In [20]:
src_data1[:2,:]

tensor([[5, 7, 2, 6, 5, 9, 8, 2, 9, 3],
        [1, 2, 5, 5, 9, 5, 6, 4, 9, 6]], device='cuda:0')

In [21]:
tgt_data1[:2,:]

tensor([[5, 7, 2, 6, 5, 9, 8, 2, 9, 3],
        [1, 2, 5, 5, 9, 5, 6, 4, 9, 6]], device='cuda:0')

### 实例化模型

In [22]:
#实例化模型
transformer1 = Transformer(src_vocab_size1, tgt_vocab_size1, d_model, num_heads, num_layers, d_ff, max_seq_length1, dropout)
#把模型迁移到GPU，2023-11 add 
transformer1=transformer1.to(device)


### 8 利用合成数据训练模型

In [23]:
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(transformer1.parameters(), lr=0.0001, betas=(0.9, 0.98), eps=1e-9)

transformer1.train()

for epoch in range(100):
    optimizer.zero_grad()
    #output = transformer(src_data, tgt_data[:, :-1])
    output1 = transformer1(src_data1, tgt_data1)
    #loss = criterion(output.contiguous().view(-1, tgt_vocab_size), tgt_data[:, 1:].contiguous().view(-1))
    loss1 = criterion(output1.contiguous().view(-1, tgt_vocab_size1), tgt_data1.contiguous().view(-1))
    loss1.backward()
    optimizer.step()
    if (epoch+1)%10 ==0 :
        print(f"Epoch: {epoch+1}, Loss: {loss1.item()}")

Epoch: 10, Loss: 0.0202866792678833
Epoch: 20, Loss: 0.0023426671978086233
Epoch: 30, Loss: 0.0010118887294083834
Epoch: 40, Loss: 0.0005593075766228139
Epoch: 50, Loss: 0.0004094199393875897
Epoch: 60, Loss: 0.00033129670191556215
Epoch: 70, Loss: 0.00029342991183511913
Epoch: 80, Loss: 0.000264314585365355
Epoch: 90, Loss: 0.00024035561364144087
Epoch: 100, Loss: 0.0002225503558292985


## 如果把模型和训练数据迁移到GPU上

![image.png](attachment:image.png)

![image.png](attachment:image.png)

https://zhuanlan.zhihu.com/p/476849075?utm_id=0

In [1]:
import os
import collections

import pandas as pd
import requests
from IPython import display
from matplotlib import pyplot as plt
from matplotlib_inline import backend_inline

In [2]:
import numpy as np
import torch
from torch.utils import data
import torchvision
from PIL import Image
from scipy.spatial import distance_matrix
from torch import nn
from torch.nn import functional as F
from torchvision import transforms

In [3]:
# # 读取数据集
def read_data_nmt(dataset_path):
    """载入“英语－法语”数据集"""
    with open(dataset_path, 'r', encoding='utf-8') as f:
        return f.read()  # 返回字符串

In [4]:
dataset_path = os.path.join(r'fra-eng', 'fra.txt')
raw_text = read_data_nmt(dataset_path)

In [5]:
print(raw_text[:100])

Go.	Va !
Hi.	Salut !
Run!	Cours !
Run!	Courez !
Who?	Qui ?
Wow!	Ça alors !
Fire!	Au feu !
Help!	À l'


源数据格式：
英文 \t 法文 \n
英文 \t 法文 \n
英文 \t 法文 \n

In [6]:
# # 数据集预处理
def preprocess_nmt(text):
    """预处理数据集"""

    def no_space(char, prev_char):
        """如果char为标点，且prev_char不是空格，则返回true"""
        return char in set(',.!?') and prev_char != ' '

    # 使用空格替换不间断空格(\xa0 属于 latin1表示不间断空格)
    # 使用小写字母替换大写字母
    text = text.replace('\u202f', ' ').replace('\xa0', ' ').lower()
    # 在单词和标点符号之间插入空格
    out = [' ' + char if i > 0 and no_space(char, text[i - 1]) else char
           for i, char in enumerate(text)]
    return ''.join(out)

\u202f: 这是一个Unicode转义序列，代表"窄无断空格"（Narrow No-Break Space）。它是一个空格字符，但与普通的空格字符相比，它具有"无断"（No-Break）属性，意味着在其两侧的单词不会被分隔到两行上。在某些情况下，它可能被用来确保某些单词或短语在换行时保持在同一行上。  
\xa0: 这也是一个Unicode转义序列，代表"无断空格"（Non-Breaking Space），通常简写为 &nbsp; 在HTML中。与 \u202f 类似，它也是一个空格字符，具有"无断"属性，用于防止自动换行或分隔。

In [7]:
text = preprocess_nmt(raw_text)

### text 与 raw_text的格式形状类似，但是用空格分割了每个token（包括单词、标点等）

In [8]:
ar=text[:100]

In [9]:
print(ar)

go .	va !
hi .	salut !
run !	cours !
run !	courez !
who ?	qui ?
wow !	ça alors !
fire !	au feu !
hel


In [10]:
# # 从每一行中分出source和target，然后词元化
def tokenize_nmt(text, num_examples=None):
    """词元化“英语－法语”数据数据集"""
    source, target = [], []
    # 遍历每一行，text.split('\n')将文本按\n分割
    for i, line in enumerate(text.split('\n')):
        # 到num_examples截断,缺省是不截断
        if num_examples and i > num_examples:
            break
        # 将文本行按\t分割
        parts = line.split('\t')
        # 将每一部分按空格分割后，分别放入source, target
        if len(parts) == 2:
            source.append(parts[0].split(' '))
            target.append(parts[1].split(' '))
    return source, target

### 测试：调用上述函数，分割出source和target

In [11]:
source, target = tokenize_nmt(text)
print((source[-2]))
print((source[-1]))
print(len(source))
print(len(target))
print(source[:6])
print(target[:6])

['if', 'someone', 'who', "doesn't", 'know', 'your', 'background', 'says', 'that', 'you', 'sound', 'like', 'a', 'native', 'speaker', ',', 'it', 'means', 'they', 'probably', 'noticed', 'something', 'about', 'your', 'speaking', 'that', 'made', 'them', 'realize', 'you', "weren't", 'a', 'native', 'speaker', '.', 'in', 'other', 'words', ',', 'you', "don't", 'really', 'sound', 'like', 'a', 'native', 'speaker', '.']
['it', 'may', 'be', 'impossible', 'to', 'get', 'a', 'completely', 'error-free', 'corpus', 'due', 'to', 'the', 'nature', 'of', 'this', 'kind', 'of', 'collaborative', 'effort', '.', 'however', ',', 'if', 'we', 'encourage', 'members', 'to', 'contribute', 'sentences', 'in', 'their', 'own', 'languages', 'rather', 'than', 'experiment', 'in', 'languages', 'they', 'are', 'learning', ',', 'we', 'might', 'be', 'able', 'to', 'minimize', 'errors', '.']
167130
167130
[['go', '.'], ['hi', '.'], ['run', '!'], ['run', '!'], ['who', '?'], ['wow', '!']]
[['va', '!'], ['salut', '!'], ['cours', '!'], 

![image.png](attachment:image.png)

### 定义之前用过的Vocab类，用于词元化

In [12]:
# # 定义Vocab类
# .token_freqs 返回列表，元素为元组（由token频率高到低排列），元组第1个元素为token，第2个元素为对应的频率
# .idx_to_token 返回列表，元素为token（按频率从高到低排列），第1个token为'<unk>'
# .token_to_idx 返回字典，key为token，value为对应的索引id
# len(vocab)返回token的个数
# 以下两句，假设类Vocab对象为src_vocab
# src_vocab['the']返回‘the’对应的索引
# src_vocab.to_tokens(1)返回索引对应的token
class Vocab:
    """文本词表"""
    """将token（char或者word）从一个字符串映射到一个从0开始的数字索引（index）"""

    def __init__(self, tokens=None, min_freq=0, reserved_tokens=None):  # tokens是tokenize的返回值
        """初始化"""
        if tokens is None:
            tokens = []
        if reserved_tokens is None:
            reserved_tokens = []

        # 按出现频率排序
        counter = count_corpus(tokens)  # 获取每个token的频率
        self._token_freqs = sorted(counter.items(), key=lambda x: x[1], reverse=True)  # 按出现的频率，由高到低排序

        # 未知词元的索引为0
        # idx_to_token为token列表，第1个token为'<unk>'
        self.idx_to_token = ['<unk>'] + reserved_tokens
        # token_to_idx为[token]列表，第1个token为字典，key为token，value为对应的索引id
        self.token_to_idx = {token: idx for idx, token in enumerate(self.idx_to_token)}  # 生成字典

        # 将出现的token，按频率由高到低一次写入idx_to_token和token_to_idx
        for token, freq in self._token_freqs:
            # 如果一个tokens出现的次数少于min_freq，则丢弃
            if freq < min_freq:
                break
            if token not in self.token_to_idx:
                self.idx_to_token.append(token)  # token列表
                self.token_to_idx[token] = len(self.idx_to_token) - 1

    def __len__(self):
        """返回token个数"""
        return len(self.idx_to_token)

    def __getitem__(self, tokens):
        """根据token返回索引"""
        if not isinstance(tokens, (list, tuple)):
            return self.token_to_idx.get(tokens, self.unk)
        return [self.__getitem__(token) for token in tokens]

    def to_tokens(self, indices):
        """根据索引返回token"""
        if not isinstance(indices, (list, tuple)):
            return self.idx_to_token[indices]
        return [self.idx_to_token[index] for index in indices]

    @property
    def unk(self):  # 未知词元的索引为0
        return 0

    @property
    def token_freqs(self):
        return self._token_freqs


def count_corpus(tokens):
    """统计词元的频率"""
    # 这里的tokens是1D列表或2D列表
    if len(tokens) == 0 or isinstance(tokens[0], list):
        # 将词元列表展平成一个列表
        tokens = [token for line in tokens for token in line]
    return collections.Counter(tokens)

### 测试：实例化Vocab，生成source的词元（这里增加了3个词元）

In [13]:
# 获得source的vocab
# 忽略频率小于2的token
# 指定了额外的特定token：填充词元（“<pad>”）、开始词元（“<bos>”）和结束词元（“<eos>”）
src_vocab = Vocab(source, min_freq=2, reserved_tokens=['<pad>', '<bos>', '<eos>'])

<font color=blue>忽略频率小于2的token是为了过滤掉那些在语料库中出现次数极少的词语，这些词语往往没有足够的统计意义，可能是拼写错误、罕见的专有名词或者其他噪音数据。通过忽略这些频率较低的token，可以减少模型训练的复杂度，提高模型的效率和性能。此外，这也有助于减少数据噪音对模型的影响，使得模型更加稳健和准确。</font>

<font color='green'>在文本数据预处理时，unk 通常表示 "unknown" 的缩写，用来标记那些未在模型的词汇表中找到的单词或token。这是因为在实际应用中，模型的词汇表大小是有限的，而自然语言中的词汇是无穷尽的。当模型遇到不在其词汇表中的单词时，如果不进行处理，模型将无法识别这些单词。为了避免这种情况，通常会将这些未在词汇表中的单词替换为 unk 标记，以便模型能够处理它们。
除了 unk 之外，文本数据预处理中还可能使用其他标记，如 pad 用于填充序列以达到相同长度，bos 表示句子的开始（Beginning of Sentence），eos 表示句子的结束（End of Sentence）等。这些标记有助于模型更好地理解和处理文本数据。</font>

In [14]:
src_vocab.token_freqs[:10]

[('.', 139392),
 ('i', 45611),
 ('you', 43192),
 ('to', 36718),
 ('the', 33263),
 ('?', 27619),
 ('a', 23973),
 ('is', 16829),
 ('tom', 13990),
 ('that', 12651)]

In [15]:
print("打印前20个标记")
for i in range(20):
    print(src_vocab.to_tokens(i),end="|")
print()
print("打印索引为0-19对应的20个标记")
for i in range(20):
    print(src_vocab.idx_to_token[i],end="|")
print()
print("打印前20个标记对应的索引")
for i in range(20):
    print(src_vocab.token_to_idx[src_vocab.idx_to_token[i]],end="|")

打印前20个标记
<unk>|<pad>|<bos>|<eos>|.|i|you|to|the|?|a|is|tom|that|he|do|of|it|this|in|
打印索引为0-19对应的20个标记
<unk>|<pad>|<bos>|<eos>|.|i|you|to|the|?|a|is|tom|that|he|do|of|it|this|in|
打印前20个标记对应的索引
0|1|2|3|4|5|6|7|8|9|10|11|12|13|14|15|16|17|18|19|

In [16]:
src_vocab['the']

8

### 文本行截断/填充函数：
为了方便后面的张量运算，每个batch中的子序列的时序长度（num_steps）应该是相同的  
这里对长度大于设定num_steps的句子进行截断，对小于长度小于num_steps的句子采用填充词元填充

In [17]:
# # 截断或填充文本序列中的一行（batch中每一个子序列的num_steps应该一样）
def truncate_pad(line, num_steps, padding_token):
    """截断或填充文本序列"""
    if len(line) > num_steps:
        return line[:num_steps]  # 截断
    return line + [padding_token] * (num_steps - len(line))  # 填充

In [18]:
print(source[0])
print(truncate_pad(src_vocab[source[0]], 10, src_vocab['<pad>']))

['go', '.']
[47, 4, 1, 1, 1, 1, 1, 1, 1, 1]


遍历每一行，对每一行进行填充/截断，并存储每一行原始的长度
build_array_nmt返回的array是一个形状为（text行数，num_steps）的二维列表，即array是存储“用索引表示的文本行”的列表，valid_len是一个长度为text行数的一维列表，每一个元素对应每一行的原始长度.

In [19]:
# # 将文本序列转换为batch_size*num_batches个长度为num_steps的小序列
def build_array_nmt(lines, vocab, num_steps):
    """将机器翻译的文本序列转换成小批量"""
    lines = [vocab[l] for l in lines]  # 将token表示的行改用索引表示
    # # 每个句子后面加了结束词元（“<eos>”）
    lines = [l + [vocab['<eos>']] for l in lines]
    # # 截断或填充每一行的文本序列（batch中每一个子序列的num_steps应该一样）
    array = torch.tensor([truncate_pad(l, num_steps, vocab['<pad>']) for l in lines])
    # # valid_len为句子填充前的长度（除了pad以外的元素的个数）
    valid_len = (array != vocab['<pad>']).type(torch.int32).sum(1)
    return array, valid_len

### 整合上述函数，并生成迭代器

In [20]:
# # 整合上述函数
def load_data_nmt(dataset_path, batch_size, num_steps, num_examples=600):
    """返回翻译数据集的迭代器和词表"""
    text = preprocess_nmt(read_data_nmt(dataset_path))  # 读取数据集，并预处理
    source, target = tokenize_nmt(text, num_examples)  # 分割出source, target

    # 词元化
    src_vocab = Vocab(source, min_freq=2,
                      reserved_tokens=['<pad>', '<bos>', '<eos>'])
    tgt_vocab = Vocab(target, min_freq=2,
                      reserved_tokens=['<pad>', '<bos>', '<eos>'])

    # 遍历每一行，对每一行进行填充/截断，并存储每一行原始的长度
    src_array, src_valid_len = build_array_nmt(source, src_vocab, num_steps)
    tgt_array, tgt_valid_len = build_array_nmt(target, tgt_vocab, num_steps)

    # 生成迭代器
    data_arrays = (src_array, src_valid_len, tgt_array, tgt_valid_len)
    data_iter = load_array(data_arrays, batch_size)
    return data_iter, src_vocab, tgt_vocab

def load_array(data_arrays, batch_size, is_train=True):
    """Construct a PyTorch data iterator."""
    # TensorDataset 可以用来对 tensor 进行打包，就好像 python 中的 zip 功能。
    dataset = data.TensorDataset(*data_arrays)
    return data.DataLoader(dataset, batch_size, shuffle=is_train)

![image.png](attachment:image.png)

### 测试上述函数

![image.png](attachment:image.png)

https://github.com/IpsumDominum/Pytorch-Simple-Transformer

https://pytorch.org/tutorials/beginner/translation_transformer.html  
https://www.kaggle.com/code/arunmohan003/transformer-from-scratch-using-pytorch  
https://alexgrishin.ai/pytorch_implementaion_of_attention_is_all_you_need  
https://github.com/SamLynnEvans/Transformer  
https://github.com/hyunwoongko/transformer