In [1]:
# 机器翻译是序列转换模型的一个核心问题， 其输入和输出都是长度可变的序列。 
# 为了处理这种类型的输入和输出， 我们可以设计一个包含两个主要组件的架构： 
# 第一个组件是一个编码器（encoder）： 它接受一个长度可变的序列x作为输入， 并将其转换为具有固定形状的编码状态。 
# 第二个组件是解码器（decoder）： 它将固定形状的编码状态，和输入x',映射到长度可变的序列。 这被称为编码器-解码器（encoder-decoder）架构

##### 编码器

In [3]:
# 在编码器接口中，我们只指定长度可变的序列作为编码器的输入X。 任何继承这个Encoder基类的模型将完成代码实现

from torch import nn

#@save
class Encoder(nn.Module):
    """编码器-解码器架构的基本编码器接口"""
    def __init__(self, **kwargs):
        super().__init__(**kwargs)

    def forward(self, X, *args): # 以tuple传递
        raise NotImplementedError # 表示这个方法还没实现，如果调用，会传递这个错误

##### 解码器

In [4]:
# 在下面的解码器接口中，我们新增一个init_state函数， 用于将编码器的输出（enc_outputs）转换为编码后的状态。
# 注意，此步骤可能需要额外的输入，例如：输入序列的有效长度
# 为了逐个地生成长度可变的词元序列
# 解码器在每个时间步都会将输入 （例如：在前一时间步生成的词元）和编码后的状态 映射成当前时间步的输出词元。

In [5]:
# 我看到这里的疑问：
# 为什么需要用编码器和解码器的结构，而不是直接将输入序列 x 映射到 output呢
# x直接映射outputs，无法学习到输入输出的长度，无法学习到上下文关系。并且编码解码允许逐步生成

In [6]:
#@save
class Decoder(nn.Module):
    def __init__(self, **kwargs):
        super().__init__(**kwargs)

    def init_state(self, enc_outputs, *args):
        raise NotImplementedError

    def forward(self, X, *args):
        raise NotImplementedError

In [None]:
#@save
class EncoderDecoder(nn.Module):
    """编码器-解码器架构的基类"""
    def __init__(self, encoder, decoder, **kwargs):
        super().__init__(**kwargs)
        self.encoder = encoder
        self.decoder = decoder

    def forward(self, enc_X, dec_X, *args):
        enc_outputs = self.encoder(enc_X, *args)
        dec_state = self.decoder.init_state(enc_outputs, *args)
        return self.decoder(dec_X, dec_state)