## 2.5 构建循环神经网络
循环神经网络（Recurrent Neural Network，RNN）是一类在序列数据分析中常用的人工神经网络。与传统的前馈神经网络不同，RNN具有记忆功能，可以处理输入数据的序列关系。RNN的核心思想是引入循环结构，使得网络在处理每个序列元素时都能考虑前面的信息。这使得RNN在许多自然语言处理、语音识别、时间序列预测等任务中表现出色。
然而，传统的RNN也存在一些问题，例如难以处理长序列、梯度消失和梯度爆炸等。为了解决这些问题，出现了一些改进的循环神经网络结构，如长短时记忆网络（LSTM）和门控循环单元（GRU）。这些结构在一定程度上缓解了RNN的限制，使得网络能够更好地捕捉长序列的信息和建模序列之间的依赖关系。


### 2.5.1从神经网络到有隐含状态的循环神经网络
我们先回顾一下含隐含层的多层感知机。设隐含层的激活函数为f。给定一个小批量样本$X∈R^{nxd}$，其中批量大小为n，输入维度为d，则隐含层的输出H∈R^nxh通过式（2.6）计算：
$$ H=f(xw_{xh}+b_h)                                                           \tag{2.6}$$
其中隐含层权重参数为$w_{xh}∈R^{dxh}$、偏置参数为$b_h∈R^{1xh}$，隐藏单元的数目为h。将隐藏变量H用作输出层的输入。输出层由式（2.7）给出：
 $$ O=HW_{hm}+b_m                                                          \tag{2.7}$$
其中，m是输出个数，$O∈R^{nxm}$是输出变量，$W_hm∈R^{hxm}$是权重参数，$b_m∈R^{1xm}$ 是输出层的偏置参数。如果是分类问题，我们可以用sigmoid 或softmax函数来计算输出类别的概率分布。以上运行过程可用图2-35表示。
![image.png](attachment:image.png)
图2-35 多层感知机运算过程  
其中，*表示内积，[n,d]表示形状大小。
含隐含状态的循环神经网络的结构如图2-36所示。
![image-2.png](attachment:image-2.png)
图2-36循环神经网络的结构图  
每个时间步的处理逻辑如图2-37所示。
![image-3.png](attachment:image-3.png)
图2-37 循环神经网络每个时间步的详细处理逻辑

假设矩阵X、$W_{xh}$、H和$W_{hh}$的大小分别为(2，3)、(3，4)、(2，4)和(4，4)。我们将X乘以$W_{xh}$，将H乘以$W_{hh}$，然后将这两个乘法的结果相加，最后利用广播机制加上偏移量$B_h$(1,4)，得到一个大小为 (2，4) 的$H_t$矩阵。
假设矩阵$W_{hm}$和$B_m$的大小分别为 (4，2) 、 (1，2)，可得大小为（2,2）的$O_t$矩阵。具体实现过程如下：

In [1]:
import torch
import torch.nn.functional as F
##计算H_t，假设激活函数为ReLU
X, W_xh = torch.normal( 0, 1,(2, 3)), torch.normal( 0, 1,(3, 4))
H, W_hh = torch.normal( 0, 1,(2, 4)), torch.normal( 0, 1,(4, 4))
B_h= torch.normal( 0, 1,(1, 4))
H1=torch.matmul(X, W_xh) + torch.matmul(H, W_hh)+B_h
H_t=F.relu(H1)
##计算O_t，输出激活函数为softmax
W_hm=torch.normal( 0, 1,(4, 2))
B_m= torch.normal( 0, 1,(1, 2))
O=torch.matmul(H_t, W_hm) +B_m
O_t=F.softmax(O,dim=-1)
print("H_t的形状：{}，O_t的形状：{}".format(H_t.shape,O_t.shape))


H_t的形状：torch.Size([2, 4])，O_t的形状：torch.Size([2, 2])


当然，也可以先对矩阵进行拼接，再进行运算，结果是一样的。
沿列（axis=1）拼接矩阵X和H，得到形状为（2,7）的矩阵[X,H]，沿行（axis=0）拼接矩阵$W_{xh}$和$W_{hh}$,得到形状为（7,4）的矩阵:
$\left[\begin{matrix}W_{xh}\\ W_{hh}\end{matrix}\right]$
再将这两个拼接的矩阵相乘,最后与$B_h$相加，我们得到与上面形状相同的 (2,4) 的输出矩阵。

In [2]:
H01=torch.matmul(torch.cat((X, H), 1), torch.cat((W_xh, W_hh), 0)) + B_h
H02=F.relu(H01)
###查看矩阵H_t和H02
print("-"*30+"矩阵H_t"+"-"*30)
print(H_t)
print("-"*30+"矩阵H02"+"-"*30)
print(H02)


------------------------------矩阵H_t------------------------------
tensor([[3.0769, 0.0000, 0.0000, 0.0000],
        [0.0000, 0.0000, 0.0000, 2.4205]])
------------------------------矩阵H02------------------------------
tensor([[3.0769, 0.0000, 0.0000, 0.0000],
        [0.0000, 0.0000, 0.0000, 2.4205]])
