In [2]:
import torch
import torch.nn as nn
from d2l import torch as d2l
import mdl.md2l as mdl

# 双向循环神经网络
对于 `RNN` 来说, 一个时间步 $t$ 的输出仅仅取决于前面的时间步的输入, 但是在现实情景中, 可能一个位置的输入不仅仅取决于前面序列, 还受到后面序列的影响(比如常见的选择填空), 所以为了解决这一个问题, 可以使用双向循环神经网络

## 隐马尔可夫模型中的动态规划
这一个小节主要考虑了马尔可夫链中概率前向传播和后向传播的可行性, 并且推到了前向递归和后向递归的一般规律

## 双向模型
具有单个隐藏层的双向循环神经网络架构如下:
![image.png](attachment:c5fd049e-08c1-4fc5-9241-b39339afc2df.png)

### 定义
对于任意一个小批量的输入数据 $\mathbf{X}_t \in \mathbb{R}^{n \times d}$, 并且令隐藏层激活函数为 $\phi$, 在双向架构中, 设该时间步长的前项和反向隐状态分别为 $\overrightarrow{\mathbf{H}}_t \in \mathbb{R}^{n \times h}$ 以及 $\overleftarrow{\mathbf{H}}_t \in \mathbb{R}^{n \times h}$, 同时前向和反向隐状态的更新如下:
$$
\begin{aligned}
\overrightarrow{\mathbf{H}}_t &= \phi(\mathbf{X}_t \mathbf{W}_{xh}^{(f)} + \overrightarrow{\mathbf{H}}_{t-1} \mathbf{W}_{hh}^{(f)} + \mathbf{b}_h^{(f)}), \\
\overleftarrow{\mathbf{H}}_t &= \phi(\mathbf{X}_t \mathbf{W}_{xh}^{(b)} + \overleftarrow{\mathbf{H}}_{t+1} \mathbf{W}_{hh}^{(b)} + \mathbf{b}_h^{(b)}),
\end{aligned}
$$
其中, 权重 $\mathbf{W}_{xh}^{(f)} \in \mathbb{R}^{d \times h}$, $\mathbf{W}_{hh}^{(f)} \in  \mathbb{R}^{h \times h}$, $\mathbf{W}_{xh}^{(b)} \in \mathbb{R}^{d \times h}$,$\mathbf{W}_{hh}^{(b)} \in  \mathbb{R}^{h \times h}$, 以及偏置 $\mathbf{b}_h^{(f)} \in \mathbb{R}^{1 \times h}$, $\mathbf{b}_h^{(b)} \in \mathbb{R}^{1 \times h}$ 都是对应的模型参数

接下来需要把前项隐状态和反向隐状态连接起来, 同时输入输出层的隐状态 $\mathbf{H}_t \in \mathbb{R}^{n \times 2h}$, 最终输出层信息为 $\mathbf{O}_t \in \mathbb{R}^{n \times q}$, 那么有如下式子成立:
$$
\mathbf{O}_t = \mathbf{H}_t \mathbf{W}_{hq} + \mathbf{b}_q
$$
其中权重矩阵 $\mathbf{W}_{hq} \in \mathbb{R}^{2h \times q}$ 以及偏置 $\mathbf{b}_q \in \mathbb{R}^{1 \times q}$

### 模型计算代价以及应用
注意对于双向循环网络, 输入是序列两侧的信息, 所以对于一些任务的应用受限, 比如不可以用于预测后面序列, 这是由于在预测下一个词元的时候, 不知道下一个词元的下文是什么, 所以无法得到比较好的精度

另外一个问题就是, 双向循环神经网络接计算速度比较慢, 反向传播海依赖于前向传播的结果(存在两条链上的梯度传播), 引用场景比如词元注释, 填充缺失单词等 

## 双向循环神经网络实现以及错误应用
> 这里反向传播链比较长, 训练时间比较长, 这里暂时不训练了

In [3]:
# 加载数据
batch_size, num_steps = 32, 35
train_iter, vocab = mdl.load_data_time_machine(batch_size, num_steps)

In [5]:
# 定义模型
vocab_size, num_hiddens, num_layers = len(vocab), 256, 2
num_inputs = vocab_size
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
lstm_layer = nn.LSTM(num_inputs, num_hiddens, num_layers, bidirectional=True)
model = mdl.RNNModel(lstm_layer, len(vocab))
model = model.to(device)

In [None]:
# 模型训练
num_epochs, lr = 100, 1
mdl.train_ch8(model, train_iter, vocab, lr, num_epochs, device)

最终的训练结果如下:
![image.png](attachment:8524b465-9b06-446b-9190-e2ce12cc3f1f.png)