In [1]:
import torch
from torch import nn

# 编码器-解码器架构
机器翻译是一个序列转换模型, 输入和输出都是长度可变的序列, 为了处理这一种类型的输入和输出, 可以所涉及一个包含两个主要组件的架构: 
1. 编码器: 接受长度可变的序列作为输入, 并且将其转换为具有固定形状的编码状态
2. 解码器: 将固定形状的编码状态映射到长度可变的序列
编码器架构和解码器架构如下:
![image.png](attachment:aa961f5f-92cb-4f4e-93f0-6a8115a97c07.png)![image.png](attachment:5754a934-7c2b-426e-aa5f-a01215a559dd.png)

下面把上述架构转换为接口方便后续实现

## 编码器
编码器: 接受长度可辨的序列作为输入, 任何继承这一个 `Encoder` 基类的模型将完成代码实现:

In [3]:
#@save
class Encoder(nn.Module):
    """Encoder-Decoder 架构 Encoder"""
    def __init__(self, **kwargs):
        super(Encoder, self).__init__(**kwargs)
    def forward(self, X, *args):
        # 注意 Python 中强制规定接口实现的方法
        raise NotImplementedError

## 解码器
解码器: 结合对应的状态以及输入, 输出解码得到的对象, 其中的 `init_state`函数用于将编码器的输入转换为编码之后的状态, 这一个步骤可能需要额外的输入, 例如输入序列的有效长度等

In [5]:
#@save
class Decoder(nn.Module):
    """Encoder-Decoder 架构 Decoder"""
    def __init__(self, **kwargs):
        super(Decoder, self).__init__(**kwargs)
    def init_state(self, enc_outputs, *args):
        raise NotImplementedError
    def forward(self, X, state):
        raise NotImplemented

## 合并编码器和解码器
用于描述整个编码器和解码器架构

In [7]:
#@save
class EncoderDecoder(nn.Module):
    """Encoder-Decoder 架构"""
    def __init__(self, encoder, decoder, **kwargs):
        super(EncoderDecoder, self).__init__(**kwargs)
        self.encoder = encoder
        self.decoder = decoder
    def forward(self, enc_X, dec_X, *args):
        enc_outputs = self.encoder(enc_X, *args)
        dec_state = self.decoder.init_state(enc_outputs, *args)
        return self.decoder(dec_X, dec_state)