## Bahdanau注意力
9.7节中探讨了机器翻译问题：通过设计⼀个基于两个循环神经⽹络的编码器-解码器架构，⽤于序列到序列
学习。具体来说，循环神经⽹络编码器将⻓度可变的序列转换为固定形状的上下⽂变量，然后循环神经⽹络
解码器根据⽣成的词元和上下⽂变量按词元⽣成输出（⽬标）序列词元。然⽽，即使并⾮所有输⼊（源）词
元都对解码某个词元都有⽤，在每个解码步骤中仍使⽤编码相同的上下⽂变量。有什么⽅法能改变上下⽂变
量呢？

我们试着从 (Graves, 2013)中找到灵感：在为给定⽂本序列⽣成⼿写的挑战中，Graves设计了⼀种可微注意⼒
模型，将⽂本字符与更⻓的笔迹对⻬，其中对⻬⽅式仅向⼀个⽅向移动。受学习对⻬想法的启发，Bahdanau等
⼈提出了⼀个没有严格单向对⻬限制的可微注意⼒模型 (Bahdanau et al., 2014)。在预测词元时，如果不是所
有输⼊词元都相关，模型将仅对⻬（或参与）输⼊序列中与当前预测相关的部分。这是通过将上下⽂变量视
为注意⼒集中的输出来实现的。
### 模型
下⾯描述的Bahdanau注意⼒模型将遵循 9.7节中的相同符号表达。这个新的基于注意⼒的模型与 9.7节中的
模型相同，只不过 (9.7.3)中的上下⽂变量c 在任何解码时间步t ′ 都会被c t ′ 替换。假设输⼊序列中有T个词元，
解码时间步t ′ 的上下⽂变量是注意⼒集中的输出：
![image.png](attachment:image.png)
其中，时间步t ′ − 1时的解码器隐状态s t ′ −1 是查询，编码器隐状态h t 既是键，也是值，注意⼒权重α是使⽤
(10.3.2) 所定义的加性注意⼒打分函数计算的。

与 图9.7.2中的循环神经⽹络编码器-解码器架构略有不同，图10.4.1描述了Bahdanau注意⼒的架构。
![image-2.png](attachment:image-2.png)

In [None]:
import torch
from torch import nn
from d2l import torch as d2l

### 定义注意力解码器
下⾯看看如何定义Bahdanau注意⼒，实现循环神经⽹络编码器-解码器。其实，我们只需重新定义解码器即
可。为了更⽅便地显⽰学习的注意⼒权重，以下AttentionDecoder类定义了带有注意⼒机制解码器的基本接
⼝。

In [None]:
# d2l.AttentionDecoder
class AttentionDecoder(d2l.Decoder):
    """带有注意力机制解码器的基本接口"""
    def __init__(self, **kwargs):
        super(AttentionDecoder, self).__init__(**kwargs)
        
    @property
    def attention_weights(self):
        raise NotImplementedError

接下来，让我们在接下来的Seq2SeqAttentionDecoder类中实现带有Bahdanau注意⼒的循环神经⽹络解码器。
⾸先，初始化解码器的状态，需要下⾯的输⼊：

1. 编码器在所有时间步的最终层隐状态，将作为注意⼒的键和值；
2. 上⼀时间步的编码器全层隐状态，将作为初始化解码器的隐状态；
3. 编码器有效⻓度（排除在注意⼒池中填充词元）。

在每个解码时间步骤中，解码器上⼀个时间步的最终层隐状态将⽤作查询。因此，注意⼒输出和输⼊嵌⼊都
连结为循环神经⽹络解码器的输⼊。

In [None]:
class Seq2SeqAttentionDecoder(AttentionDecoder):
    def __init__(self, vocab_size, embed_size, num_hiddens, num_layers,
                 dropout=0, **kwargs):
        super(Seq2SeqAttentionDecoder, self).__init__(**kwargs)
        self.attention = d2l.AdditiveAttention(
            num_hiddens, num_hiddens, num_hiddens, dropout)
        self.embedding = nn.Embedding(vocab_size, embed_size)
        self.rnn = nn.GRU(
            embed_size + num_hiddens, num_hiddens, num_layers,
            dropout=dropout)
        self.dense = nn.Linear(num_hiddens, vocab_size)
        
    def init_state(self, enc_outputs, enc_valid_lens, *args):
        # outputs的形状为(batch_size, num_steps, num_hiddens)
        # hidden_state的形状为(num_layers, batch_size, num_hiddens)
        outputs, hidden_state = enc_outputs
        return (outputs.permute(1, 0, 2), hidden_state, enc_valid_lens)
    
    def forward(self, X, state):
        # enc_outputs的形状为(batch_size, num_steps, num_hiddens)
        # hidden_state的形状为(num_layers, batch_size, num_hiddens)
        enc_outputs, hidden_state, enc_valid_lens = state
        # 输出X的形状为(num_steps, batch_size, embed_size)
        X = self.embedding(X).permute(1, 0, 2)
        outputs, self._attention_weights = [], []
        for x in X:
            # query的形状为(batch_size, 1, num_hiddens)
            query = torch.unsqueeze(hidden_state[-1], dim=1)
            # context的形状为(batch_size, 1, num_hiddens)
            context = self.attention(
                query, enc_outputs, enc_outputs, enc_valid_lens)
            # 在特征维度上连接
            x = torch.cat((context, torch.unsqueeze(x, dim=1)), dim=-1)
            # 将x变形为(1, batch_size, embed_size+num_hiddens)
            out, hidden_state = self.rnn(x.permute(1, 0, 2), hidden_state)
            outputs.append(out)
            self._attention_weights.append(self.attention.attention_weights)
        # 全连接层变换后, outputs的形状为
        # (num_steps, batch_size, vocab_size)
        outputs = self.dense(torch.cat(outputs, dim=0))
        return outputs.permute(1, 0, 2), [enc_outputs, hidden_state,
                                          enc_valid_lens]
    
    @property
    def attention_weights(self):
        return self._attention_weights

接下来，使⽤包含7个时间步的4个序列输⼊的⼩批量测试Bahdanau注意⼒解码器。

In [None]:
encoder = d2l.Seq2SeqEncoder(vocab_size=10, embed_size=8, num_hiddens=16,
                             num_layers=2)
encoder.eval()
decoder = Seq2SeqAttentionDecoder(vocab_size=10, embed_size=8, num_hiddens=16,
                                  num_layers=2)
decoder.eval()
X = torch.zeros((4, 7), dtype=torch.long) # (batch_size, num_steps)
state = decoder.init_state(encoder(X), None)
output, state = decoder(X, state)
output.shape, len(state), state[0].shape, len(state[1]), state[1][0].shape

### 训练
与 9.7.4节类似，我们在这⾥指定超参数，实例化⼀个带有Bahdanau注意⼒的编码器和解码器，并对这个模
型进⾏机器翻译训练。由于新增的注意⼒机制，训练要⽐没有注意⼒机制的 9.7.4节慢得多。

In [None]:
embed_size, num_hiddens, num_layers, dropout = 32, 32, 2, 0.1
batch_size, num_steps = 64, 10
lr, num_epochs, device = 0.005, 250, d2l.try_gpu()

train_iter, src_vocab, tgt_vocab = d2l.load_data_nmt(batch_size, num_steps)
encoder = d2l.Seq2SeqEncoder(
    len(src_vocab), embed_size, num_hiddens, num_layers, dropout)
decoder = Seq2SeqAttentionDecoder(
    len(tgt_vocab), embed_size, num_hiddens, num_layers, dropout)
net = d2l.EncoderDecoder(encoder, decoder)
d2l.train_seq2seq(net, train_iter, lr, num_epochs, tgt_vocab, device)

模型训练后，我们⽤它将⼏个英语句⼦翻译成法语并计算它们的BLEU分数。

In [None]:
engs = ['go .', "i lost .", "he\'s calm .", "i\'m home ."]
fras = ['va !', "j\'ai perdu .", 'il est calme .', 'je suis chez moi .']
for eng, fra in zip(engs, fras):
    translation, dec_attention_weight_seq = d2l.predict_seq2seq(
        net, eng, src_vocab, tgt_vocab, num_steps, device, True)
    print(f'{eng}=>{translation}, ',
          f'bleu {d2l.bleu(translation, fra, k=2):.3f}')

In [None]:
attention_weights = torch.cat([step[0][0][0] for step in dec_attention_weight_seq], 0).reshape((
    1, 1, -1, num_steps))

In [None]:
# 加上一个包含序列结束词元
d2l.show_heatmaps(
    attention_weights[:, :, :, :len(engs[-1].split()) + 1].cpu(),
    xlabel='Key positions', ylabel='Query positions')

#### ⼩结
    • 在预测词元时，如果不是所有输⼊词元都是相关的，那么具有Bahdanau注意⼒的循环神经⽹络编码器-解码器会有选择地统计输⼊序列的不同部分。这是通过将上下⽂变量视为加性注意⼒池化的输出来实现的。
    • 在循环神经⽹络编码器-解码器中，Bahdanau注意⼒将上⼀时间步的解码器隐状态视为查询，在所有时间步的编码器隐状态同时视为键和值。