# 循环神经网络
循环神经⽹络（recurrent neural networks，RNNs）是具有隐状态的神经⽹络。

+ 值得注意的是，隐藏层和隐状态指的是两个截然不同的概念。如上所述，隐藏层是在从输⼊到输出的路径上（以观测⻆度来理解）的隐藏的层，⽽隐状态则是在给定步骤所做的任何事情（以技术⻆度来定义）的输⼊，并且这些状态只能通过先前时间步的数据来计算。

## 1. 无隐状态的神经网络
![image.png](attachment:91b9aeba-2fd4-46f0-961e-eca7f8e9538a.png)

## 2. 有隐状态的RNN
![image.png](attachment:3e6c759e-817c-4311-8680-bc3fce83f972.png)
![image.png](attachment:0dd3e1b7-77d6-47e6-891f-dab7c6ab41ee.png)

In [1]:
import torch
from d2l import torch as d2l

In [2]:
X, W_xh = torch.normal(0, 1, (3, 1)), torch.normal(0, 1, (1, 4)) # 输入和输入-隐藏层权重
H, W_hh = torch.normal(0, 1, (3, 4)), torch.normal(0, 1, (4, 4))

torch.matmul(X, W_xh) + torch.matmul(H, W_hh)

tensor([[ 1.4001,  0.7894,  0.8937, -0.8200],
        [-0.0979,  1.4583, -0.2733,  0.6743],
        [ 5.2451, -3.4582, -0.0645, -0.7186]])

## 3. 基于RNN的字符级语言模型
![image.png](attachment:c6f0d5bc-2c49-48f3-8d7c-2e85025df5ff.png)
在训练过程中，我们对每个时间步的输出层的输出进⾏softmax操作，然后利⽤交叉熵损失计算模型输出和
标签之间的误差。由于隐藏层中隐状态的循环计算，图8.4.2中的第3个时间步的输出O3 由⽂本序列“m”“a”
和“c”确定。由于训练数据中这个⽂本序列的下⼀个字符是“h”，因此第3个时间步的损失将取决于下⼀个
字符的概率分布，⽽下⼀个字符是基于特征序列“m”“a”“c”和这个时间步的标签“h”⽣成的。

## 4. 困惑度Perplexity
我们可以通过⼀个序列中所有的n个词元的交叉熵损失的平均值来衡量
困惑度的最好的理解是“下⼀个词元的实际选择数的调和平均数”。我们看看⼀些案例。
+ 在最好的情况下，模型总是完美地估计标签词元的概率为1。在这种情况下，模型的困惑度为1。
+ 在最坏的情况下，模型总是预测标签词元的概率为0。在这种情况下，困惑度是正⽆穷⼤。
+ 在基线上，该模型的预测是词表的所有可⽤词元上的均匀分布。在这种情况下，困惑度等于词表中唯⼀词元的数量。事实上，如果我们在没有任何压缩的情况下存储序列，这将是我们能做的最好的编码⽅式。因此，这种⽅式提供了⼀个重要的上限，⽽任何实际模型都必须超越这个上限。


## 总结
+ 对隐状态使⽤循环计算的神经⽹络称为循环神经⽹络（RNN）。
+ 循环神经⽹络的隐状态可以捕获直到当前时间步序列的历史信息。
+ 循环神经⽹络模型的参数数量不会随着时间步的增加⽽增加。
+ 我们可以使⽤循环神经⽹络创建字符级语⾔模型。
+ 我们可以使⽤困惑度来评价语⾔模型的质量。