## 8.4 Recurrent Neural Networks
### 8.4.1 Neural Networks without Hidden States

$$\mathbf{H}=\phi(\mathbf{XW}_{xh}+\mathbf{b}_h)$$

$$\mathbf{O}=\mathbf{HW}_{hq}+\mathbf{b}_q$$

### 8.4.2 Recurrent Neural Networks with Hidden States

$$\mathbf{H}_t=\phi(\mathbf{X}_t\mathbf{W}_{xh}+\mathbf{H}_{t-1}\mathbf{W}_{hh}+\mathbf{b}_h$$

$$\mathbf{O}_t=\mathbf{H}_t\mathbf{W}_{hq}+\mathbf{b}_q$$


In [1]:
from d2l import mxnet as d2l
from mxnet import np, npx
npx.set_np()

In [2]:
X, W_xh = np.random.normal(0, 1, (3, 1)), np.random.normal(0, 1, (1, 4))
H, W_hh = np.random.normal(0, 1, (3, 4)), np.random.normal(0, 1, (4, 4))
np.dot(X, W_xh) + np.dot(H, W_hh)

array([[-2.524012  ,  2.5171356 ,  4.6078534 , -0.2956891 ],
       [ 0.03744125,  3.84428   ,  1.1564783 ,  2.189958  ],
       [ 0.37973815, -2.796899  ,  5.916139  , -2.3432026 ]])

In [3]:
np.dot(np.concatenate((X, H), 1), np.concatenate((W_xh, W_hh), 0))

array([[-2.524012  ,  2.5171356 ,  4.607854  , -0.2956891 ],
       [ 0.03744116,  3.84428   ,  1.1564783 ,  2.189958  ],
       [ 0.3797381 , -2.7968993 ,  5.916139  , -2.3432024 ]])

### 8.4.3 RNN-based Character-Level Language Models
### 8.4.4 Perplexity

交叉熵（cross-entropy）：$$\frac1n\sum_{t=1}^n-\log P(x_t|x_{t-1},\cdots,x_1)$$

困惑度（perplexity）：$\exp(-\frac1n\sum_{t=1}^n\log P(x_t|x_{t-1},\cdots,x_1))$

困惑度是对交叉熵损失函数做指数运算后得到的值，用于评价语言模型的质量：

1.  最佳情况下，模型总是把标签类别的概率预测为 1，此时困惑度也为1；
2.  最坏情况下，模型总是把标签类别的概率预测为 0，此时困惑度为 $+\infty$；
3.  基线情况下，模型总是把所有类别的概率预测为相同，此时困惑度为类别个数。

注：任何一个有效的模型的困惑度必须小于类别个数。