<h2>循环神经网络</h2>
<p>基础公式：</p>
<p>$$\mathbf{h_{t}} = f(\mathbf{U}\mathbf{h_{t-1}}+\mathbf{W}\mathbf{x_{t}}+\mathbf{b})$$</p>
<p>其中\(f(*) \)是非线性激活函数</p>
<p><img src="https://pic1.zhimg.com/70/v2-397376bafce3f0c634f9f73161044c52_1440w.image?source=172ae18b&amp;biz_tag=Post" alt="Pytorch实现RNN" /></p>

In [30]:
import torch
import matplotlib.pyplot as plt
import torch.nn as nn
import torch.optim as optim
import numpy as np
# 创建一维数据和label，用pytorch创建一个最简单的RNN网络
# 确保数据和标签的数据类型为 torch.float（即 torch.float32） RNN期待的输入数据通常是三维的，其形状为 (序列长度, 批量大小, 特征数量)。
data = torch.tensor([[1.], [2.], [3.]], dtype=torch.float).reshape(3, 1, 1)
label = torch.tensor([2., 3., 4.], dtype=torch.float)

torch.manual_seed(0)

# 输入为1，中间隐藏层数量也为1, 堆叠层数为3 第一个参数是输入的特征数量，第二个参数是隐藏层的特征数量。你的数据形状需要与这些参数相匹配
# 隐藏层的特征数量决定了网络的输出形状，在这个例子中，输出为简单的一维数字，因此隐藏层的形状为1
rnn = nn.RNN(1, 1, num_layers=3, nonlinearity='relu')
# 初始化隐藏状态 层数，批量大小，隐藏层形状
h0 = torch.zeros(3, 1, 1)

output, hn = rnn(data, h0)

# 输出参数
for name, param in rnn.named_parameters():
    print(f"{name}: {param.size()}")
    print(param.data)
print(f"hn:{hn}")
print(f"output:{output}")

weight_ih_l0: torch.Size([1, 1])
tensor([[-0.0075]])
weight_hh_l0: torch.Size([1, 1])
tensor([[0.5364]])
bias_ih_l0: torch.Size([1])
tensor([-0.8230])
bias_hh_l0: torch.Size([1])
tensor([-0.7359])
weight_ih_l1: torch.Size([1, 1])
tensor([[-0.3852]])
weight_hh_l1: torch.Size([1, 1])
tensor([[0.2682]])
bias_ih_l1: torch.Size([1])
tensor([-0.0198])
bias_hh_l1: torch.Size([1])
tensor([0.7929])
weight_ih_l2: torch.Size([1, 1])
tensor([[-0.0887]])
weight_hh_l2: torch.Size([1, 1])
tensor([[0.2646]])
bias_ih_l2: torch.Size([1])
tensor([-0.3022])
bias_hh_l2: torch.Size([1])
tensor([-0.1966])
hn:tensor([[[0.0000]],

        [[1.0360]],

        [[0.0000]]], grad_fn=<StackBackward0>)
output:tensor([[[0.]],

        [[0.]],

        [[0.]]], grad_fn=<StackBackward0>)


<p>前向计算：</p>
<p>$$ h_{0}=f(-0.0075*1+0.5364*0+(-0.8230)+(-0.7356))=f(-1.56)=0 $$</p>
<p>$$ h_{1}=f(<span style="color: var(--jp-content-font-color1); font-family: var(--jp-code-font-family); font-size: var(--jp-code-font-size); background-color: #ffffff; white-space: pre-wrap;">-0.3852</span>*2+<span style="color: var(--jp-content-font-color1); font-family: var(--jp-code-font-family); font-size: var(--jp-code-font-size); background-color: #ffffff; white-space: pre-wrap;">0.2682</span>*h_{0}+(-<span style="color: var(--jp-content-font-color1); font-family: var(--jp-code-font-family); font-size: var(--jp-code-font-size); background-color: #ffffff; white-space: pre-wrap;">0.0198</span>)+<span style="color: var(--jp-content-font-color1); font-family: var(--jp-code-font-family); font-size: var(--jp-code-font-size); background-color: #ffffff; white-space: pre-wrap;">0.7929</span>)=f(0.0027)=0.0027 $$</p>
<p>$$ h_{2}=f(<span style="background-color: #ffffff; color: var(--jp-content-font-color1); font-family: var(--jp-code-font-family); font-size: var(--jp-code-font-size); white-space: pre-wrap;">-0.0887</span>*3+<span style="background-color: #ffffff; color: var(--jp-content-font-color1); font-family: var(--jp-code-font-family); font-size: var(--jp-code-font-size); white-space: pre-wrap;">0.2646</span>*h_{1}+(<span style="background-color: #ffffff; color: var(--jp-content-font-color1); font-family: var(--jp-code-font-family); font-size: var(--jp-code-font-size); white-space: pre-wrap;">-0.3022</span>)<span style="background-color: #ffffff; color: var(--jp-content-font-color1); font-family: var(--jp-code-font-family); font-size: var(--jp-code-font-size); white-space: pre-wrap;">-0.1966</span>)=f(-0.7641)=0$$</p>