# 循环神经网络

单词$x_t$在时间步$t$的条件概率仅仅取决于前面的$n-1$个单词，而对于之前$t-(n-1)$的单词，要想将影响合并到$x_t$上，需要增加$n$，模型的参数量会成指数性增长，因为词表$\mathcal {V}$需要存储$|\mathcal {V}|^n$个数字，因此使用隐变量模型
$$P(x_t \mid x_{t-1},\dots,x_1) \approx P(x_t \mid h_{t-1})$$

其中$h_{t-1}$是隐状态，也成为了隐藏变量，它存储了到时间步$t-1$的序列信息，通常，我们可以基于当前的输入$x_t,h_{t-1}$来计算时间步t处的任何时间的隐状态：
$$h_t = f(x_t,h_{t-1})$$

*RNN是具有隐状态的神经网络*
## 无隐状态的神经网络
给定小批量样本$ \mathbf{X} \in \mathbb{R}^{n \times d}$，则隐藏层的输出$ \mathbf{H} \in \mathbb{R}^{n \times h}$通过下式计算：
$$\mathbf{H}= \phi(\mathbf{H}\mathbf{W}_{xh}+\mathbf {b}_h )$$

之后我们有隐藏层的参数$\mathbf{W} \in \mathbb{R}^{d \times h}$，偏置参数为$b_h \in \mathbb{R}^{1 \times h}$，以$\mathbf{H}$作为输入，输入为：
$$\mathbf{O}= \mathbf{H} \mathbf{W}_{hq} + \mathbf{b}_q$$

## 有隐状态的循环神经网络

假设在时间步$t$有小批量输入$\mathbf{X}_t \in \mathbb{R}^{n \times d}$。对于$n$个序列样本的小批量，$\mathbf{X}_t$的每一行对应来自于该序列的时间步$t$处的一个样本，截下来用$\mathbf{H}_t \in \mathbb{R}^{n \times h}$表示时间步t的隐藏变量，与MLP不同的是，在这里保存了前一个时间步的隐藏变量$\mathbf{H}_{t-1}$,并且引入新的权重$\mathbf{W}_{hh} \in \mathbb{R}^{h \times h}$

当前步的隐藏变量，由当前时间步的输入与前一个时间步的隐藏变量一起计算得出：
$$\mathbf{H}_t = \phi (\mathbf{X}_t \mathbf{W}_{xh} + \mathbf{H}_{t-1} \mathbf{W}_{hh}+\mathbf{b}_h)$$

对于输出有:
$$\mathbf{O}_t = \mathbf{H}_t \mathbf{W}_{hq} + \mathbf{b}_q$$

由于在当前的时间步$t$中，隐状态的定义与前一个时间步中使用的定义相同，因此上面的公式计算是`循环的`(Recurrent)，基于循环计算的隐状态神经网络被称为`循环神经网络`(recurrent neural networks, RNNs),在RNN中，执行循环计算的层被称为`循环层`(recurren layer)

In [1]:
import torch as t
X,W_xh=t.normal(0,1,(3,1)),t.normal(0,1,(1,4))
H,W_hh=t.normal(0,1,(3,4)),t.normal(0,1,(4,4))
t.matmul(X,W_xh)+t.matmul(H,W_hh)

tensor([[-0.3878,  2.8297,  1.5097, -4.3425],
        [-0.6364, -0.9101, -3.7470,  0.3966],
        [-0.6947,  0.2756, -0.2900, -1.9641]])

In [2]:
t.matmul(t.cat((X,H),1),t.cat((W_xh,W_hh),0))

tensor([[-0.3878,  2.8297,  1.5097, -4.3425],
        [-0.6364, -0.9101, -3.7470,  0.3966],
        [-0.6947,  0.2756, -0.2900, -1.9641]])