## 编码器-解码器架构
正如我们在 9.5节中所讨论的，机器翻译是序列转换模型的⼀个核⼼问题，其输⼊和输出都是⻓度可变的序
列。为了处理这种类型的输⼊和输出，我们可以设计⼀个包含两个主要组件的架构：第⼀个组件是⼀个编码器
（encoder）：它接受⼀个⻓度可变的序列作为输⼊，并将其转换为具有固定形状的编码状态。第⼆个组件是解码
器（decoder）：它将固定形状的编码状态映射到⻓度可变的序列。这被称为编码器-解码器（encoder-decoder）
架构，如 图9.6.1 所⽰。
![image.png](attachment:image.png)
我们以英语到法语的机器翻译为例：给定⼀个英⽂的输⼊序列：“They”“are”“watching”“.”。⾸先，这种
“编码器－解码器”架构将⻓度可变的输⼊序列编码成⼀个“状态”，然后对该状态进⾏解码，⼀个词元接着
⼀个词元地⽣成翻译后的序列作为输出：“Ils”“regordent”“.”。由于“编码器－解码器”架构是形成后续
章节中不同序列转换模型的基础，因此本节将把这个架构转换为接⼝⽅便后⾯的代码实现。

### 编码器
在编码器接⼝中，我们只指定⻓度可变的序列作为编码器的输⼊X。任何继承这个Encoder基类的模型将完成
代码实现。

In [1]:
from torch import nn

In [None]:
# d2l.Encoder
class Encoder(nn.Module):
    """编码器-解码器架构的基本编码器接口"""
    def __init__(self, **kwargs):
        super(Encoder, self).__init__(**kwargs)
        
    def forward(self, X, *args):
        raise NotImplementedError

### 解码器
在下⾯的解码器接⼝中，我们新增⼀个init_state函数，⽤于将编码器的输出（enc_outputs）转换为编码后
的状态。注意，此步骤可能需要额外的输⼊，例如：输⼊序列的有效⻓度，这在 9.5.4节中进⾏了解释。为了
逐个地⽣成⻓度可变的词元序列，解码器在每个时间步都会将输⼊（例如：在前⼀时间步⽣成的词元）和编
码后的状态映射成当前时间步的输出词元。

In [None]:
# d2l.Decoder
class Decoder(nn.Module):
    """编码器-解码器架构的基本解码器接口"""
    def __init__(self, **kwargs):
        super(Decoder, self).__init__(**kwargs)
    
    def init_state(self, enc_outputs, *args):
        raise NotImplementedError
    
    def forward(self, X, state):
        raise NotImplementedError

### 合并编码器和解码器
总⽽⾔之，“编码器-解码器”架构包含了⼀个编码器和⼀个解码器，并且还拥有可选的额外的参数。在前向
传播中，编码器的输出⽤于⽣成编码状态，这个状态⼜被解码器作为其输⼊的⼀部分。

In [None]:
# d2l.EncoderDecoder(nn.Module)
class EnocderDecoder(nn.Module):
    """编码器-解码器架构的基类"""
    def __init__(self, encoder, decoder, **kwargs):
        super(EncoderDecoder, self).__init__(**kwargs)
        self.encoder = encoder
        self.decoder = decoder
        
    def forward(self, enc_X, dec_X, *args):
        enc_outputs = self.encoder(enc_X, *args)
        dec_state = self.decoder.init_state(enc_outputs, *args)
        return self.decoder(dec_X, dec_state)

“编码器－解码器”体系架构中的术语状态会启发⼈们使⽤具有状态的神经⽹络来实现该架构。在下⼀节中，
我们将学习如何应⽤循环神经⽹络，来设计基于“编码器－解码器”架构的序列转换模型。

⼩结

    • “编码器－解码器”架构可以将⻓度可变的序列作为输⼊和输出，因此适⽤于机器翻译等序列转换问题。
    • 编码器将⻓度可变的序列作为输⼊，并将其转换为具有固定形状的编码状态。
    • 解码器将具有固定形状的编码状态映射为⻓度可变的序列。

## 序列到序列学习（seq2seq）
正如我们在 9.5节中看到的，机器翻译中的输⼊序列和输出序列都是⻓度可变的。为了解决这类问题，我们
在 9.6节中设计了⼀个通⽤的”编码器－解码器“架构。本节，我们将使⽤两个循环神经⽹络的编码器和解码
器，并将其应⽤于序列到序列（sequence to sequence，seq2seq）类的学习任务 (Cho et al., 2014, Sutskever
et al., 2014)。

遵循编码器－解码器架构的设计原则，循环神经⽹络编码器使⽤⻓度可变的序列作为输⼊，将其转换为固定
形状的隐状态。换⾔之，输⼊序列的信息被编码到循环神经⽹络编码器的隐状态中。为了连续⽣成输出序列
的词元，独⽴的循环神经⽹络解码器是基于输⼊序列的编码信息和输出序列已经看⻅的或者⽣成的词元来预
测下⼀个词元。图9.7.1演⽰了如何在机器翻译中使⽤两个循环神经⽹络进⾏序列到序列学习。
![image.png](attachment:image.png)
在 图9.7.1中，特定的“(eos)”表⽰序列结束词元。⼀旦输出序列⽣成此词元，模型就会停⽌预测。在循环神
经⽹络解码器的初始化时间步，有两个特定的设计决定：⾸先，特定的“(bos)”表⽰序列开始词元，它是解码器的输⼊序列的第⼀个词元。其次，使⽤循环神经⽹络编码器最终的隐状态来初始化解码器的隐状态。例
如，在 (Sutskever et al., 2014)的设计中，正是基于这种设计将输⼊序列的编码信息送⼊到解码器中来⽣成输
出序列的。在其他⼀些设计中 (Cho et al., 2014)，如 图9.7.1所⽰，编码器最终的隐状态在每⼀个时间步都作
为解码器的输⼊序列的⼀部分。类似于 8.3节中语⾔模型的训练，可以允许标签成为原始的输出序列，从源
序列词元“(bos)”“Ils”“regardent”“.”到新序列词元“Ils”“regardent”“.”“(eos>)”来移动预测的位置。

In [None]:
# 下⾯，我们动⼿构建 图9.7.1的设计，并将基于 9.5节中介绍的“英－法”数据集来训练这个机器翻译模型。
import collections
import math
import torch
from torch import nn
from d2l import torch as d2l

### 编码器
从技术上讲，编码器将⻓度可变的输⼊序列转换成形状固定的上下⽂变量c，并且将输⼊序列的信息在该上
下⽂变量中进⾏编码。如 图9.7.1所⽰，可以使⽤循环神经⽹络来设计编码器。

考虑由⼀个序列组成的样本（批量⼤⼩是1）。假设输⼊序列是x 1 ,...,x T ，其中x t 是输⼊⽂本序列中的第t个
词元。在时间步t，循环神经⽹络将词元x t 的输⼊特征向量 x t 和h t−1 （即上⼀时间步的隐状态）转换为h t （即
当前步的隐状态）。使⽤⼀个函数f来描述循环神经⽹络的循环层所做的变换：
![image.png](attachment:image.png)
总之，编码器通过选定的函数q，将所有时间步的隐状态转换为上下⽂变量：
![image-2.png](attachment:image-2.png)
⽐如，当选择q(h 1 ,...,h T ) = h T 时（就像 图9.7.1中⼀样），上下⽂变量仅仅是输⼊序列在最后时间步的隐状
态h T 。

到⽬前为⽌，我们使⽤的是⼀个单向循环神经⽹络来设计编码器，其中隐状态只依赖于输⼊⼦序列，这个⼦
序列是由输⼊序列的开始位置到隐状态所在的时间步的位置（包括隐状态所在的时间步）组成。我们也可以
使⽤双向循环神经⽹络构造编码器，其中隐状态依赖于两个输⼊⼦序列，两个⼦序列是由隐状态所在的时间
步的位置之前的序列和之后的序列（包括隐状态所在的时间步），因此隐状态对整个序列的信息都进⾏了编
码。

现在，让我们实现循环神经⽹络编码器。注意，我们使⽤了嵌⼊层（embedding layer）来获得输⼊序列中每
个词元的特征向量。嵌⼊层的权重是⼀个矩阵，其⾏数等于输⼊词表的⼤⼩（vocab_size），其列数等于特征
向量的维度（embed_size）。对于任意输⼊词元的索引i，嵌⼊层获取权重矩阵的第i⾏（从0开始）以返回其
特征向量。另外，本⽂选择了⼀个多层⻔控循环单元来实现编码器。

In [None]:
# d2l.Seq2SeqEncoder
class Seq2SeqEncoder(d2l.Encoder):
    """用于序列到序列学习的循环神经网络编码器"""
    def __init__(self, vocab_size, embed_size, num_hiddens, num_layers,
                 dropout=0, **kwargs):
        super(Seq2SeqEncoder, self).__init__(**kwargs)
        # 嵌入层
        self.embedding = nn.Embedding(vocab_size, embed_size)
        self.rnn = nn.GRU(embed_size, num_hiddens, num_layers,
                          dropout=dropout)
        
    def forward(self, X, *args):
        # 输出'X'的形状：(batch_size, num_steps, embed_size)
        X = self.embedding(X)
        # 在循环神经网络模型中，第一个轴对应于时间步
        X = X.permute(1, 0, 2)
        # 如果未提及状态，则默认为0
        output, state = self.rnn(X)
        # output的形状：(num_steps, batch_size, num_hiddens)
        # state的形状：(num_layers, batch_size, num_hiddens)
        return output, state

循环层返回变量的说明可以参考 8.6节。

下⾯，我们实例化上述编码器的实现：我们使⽤⼀个两层⻔控循环单元编码器，其隐藏单元数为16。给定⼀
⼩批量的输⼊序列X（批量⼤⼩为4，时间步为7）。在完成所有时间步后，最后⼀层的隐状态的输出是⼀个张
量（output由编码器的循环层返回），其形状为（时间步数，批量⼤⼩，隐藏单元数）。

In [None]:
encoder = Seq2SeqEncoder(vocab_size=10, embed_size=8, num_hiddens=16,
                         num_layers=2)
encoder.eval()
X = torch.zeros((4, 7), dtype=torch.long)
output, state = encoder(X)
output.shape

由于这⾥使⽤的是⻔控循环单元，所以在最后⼀个时间步的多层隐状态的形状是（隐藏层的数量，批量⼤⼩，
隐藏单元的数量）。如果使⽤⻓短期记忆⽹络，state中还将包含记忆单元信息。

In [None]:
state.shape

### 解码器
正如上⽂提到的，编码器输出的上下⽂变量c 对整个输⼊序列x 1 ,...,x T 进⾏编码。来⾃训练数据集的输出序
列y 1 ,y 2 ,...,y T ′ ，对于每个时间步t ′ （与输⼊序列或编码器的时间步t不同），解码器输出y t ′ 的概率取决于先
前的输出⼦序列 y 1 ,...,y t ′ −1 和上下⽂变量c，即P(y t ′ | y 1 ,...,y t ′ −1 ,c)。

为了在序列上模型化这种条件概率，我们可以使⽤另⼀个循环神经⽹络作为解码器。在输出序列上的任意时
间步t ′ ，循环神经⽹络将来⾃上⼀时间步的输出y t ′ −1 和上下⽂变量c作为其输⼊，然后在当前时间步将它们
和上⼀隐状态 s t ′ −1 转换为隐状态s t ′ 。因此，可以使⽤函数g来表⽰解码器的隐藏层的变换：
![image.png](attachment:image.png)
在获得解码器的隐状态之后，我们可以使⽤输出层和softmax操作来计算在时间步t ′ 时输出y t ′ 的条件概率分
布 P(y t ′ | y 1 ,...,y t ′ −1 ,c)。

根据 图9.7.1，当实现解码器时，我们直接使⽤编码器最后⼀个时间步的隐状态来初始化解码器的隐状态。这
就要求使⽤循环神经⽹络实现的编码器和解码器具有相同数量的层和隐藏单元。为了进⼀步包含经过编码的
输⼊序列的信息，上下⽂变量在所有的时间步与解码器的输⼊进⾏拼接（concatenate）。为了预测输出词元
的概率分布，在循环神经⽹络解码器的最后⼀层使⽤全连接层来变换隐状态。

In [None]:
# d2l.Seq2SeqDecoder(d2l.Decoder)
class Seq2SeqDecoder(d2l.Decoder):
    """用于序列到序列学习的循环神经网络解码器"""
    def __init__(self, vocab_size, embed_size, num_hiddens, num_layers,
                 dropout=0, **kwargs):
        super(Seq2SeqDecoder, self).__init__(**kwargs)
        self.embedding = nn.Embedding(vocab_size, embed_size)
        self.rnn = nn.GRU(embed_size + num_hiddens, num_hiddens, num_layers,
                          dropout=dropout)
        self.dense = nn.Linear(num_hiddens, vocab_size)
    
    def init_state(self, enc_outputs, *args):
        return enc_outputs[1]
    
    def forward(self, X, state):
        # 输出'X'的形状：(batch_size, num_steps, embed_size)
        X = self.embedding(X).permute(1, 0, 2)
        # 广播context,使用具有与X相同的num_steps
        context = state[-1].repeat(X.shape[0], 1, 1)
        X_and_context = torch.cat((X, context), 2)
        output, state = self.rnn(X_and_context, state)
        output = self.dense(output).permute(1, 0, 2)
        # output的形状：(batch_size, num_steps, vocab_size)
        # state的形状：(num_layers, batch_size, num_hiddens)
        return output, state

下⾯，我们⽤与前⾯提到的编码器中相同的超参数来实例化解码器。如我们所⻅，解码器的输出形状变为（批
量⼤⼩，时间步数，词表⼤⼩），其中张量的最后⼀个维度存储预测的词元分布。

In [None]:
decoder = Seq2SeqDecoder(vocab_size=10, embed_size=8, num_hiddens=16,
                         num_layers=2)
decoder.eval()
state = decoder.init_state(encoder(X))
output, state = decoder(X, state)
output.shape, state.shape

总之，上述循环神经⽹络“编码器－解码器”模型中的各层如 图9.7.2所⽰。
![image.png](attachment:image.png)