# RNN 简介

# 时间序列模型概念简介
简介时序模型的不同之处

# RNN网络结构图
![rnn](images/rnn.png)

RNN公式：
![rnn_rule](images/rnn_rule.png)

# 观察torch.nn.RNN的输入输出

In [1]:
import torch
import torch.nn as nn

In [3]:
# 单向、单层rnn
single_rnn = nn.RNN(input_size=4, hidden_size=3, num_layers=1, batch_first=True) # batch_first=True表示输入数据的维度为[batch_size, seq_len, input_size]
input = torch.randn(1, 5, 4) # 输入数据维度为[batch_size, seq_len, input_size]
output, h_n = single_rnn(input) # output维度为[batch_size, seq_len, hidden_size=3]，h_n维度为[num_layers=1, batch_size, hidden_size=3]
print(output, output.shape, h_n, h_n.shape,  sep='\n')

tensor([[[ 0.1926, -0.5641, -0.1246],
         [ 0.3857, -0.5942,  0.3756],
         [-0.7565, -0.9860, -0.6089],
         [ 0.1879, -0.8991, -0.3685],
         [ 0.4113, -0.8877, -0.5903]]], grad_fn=<TransposeBackward1>)
torch.Size([1, 5, 3])
tensor([[[ 0.4113, -0.8877, -0.5903]]], grad_fn=<StackBackward0>)
torch.Size([1, 1, 3])


In [4]:
output[:, 2, :] 

tensor([[-0.7565, -0.9860, -0.6089]], grad_fn=<SliceBackward0>)

In [6]:
# 双向、单层rnn
bi_rnn = nn.RNN(input_size=4, hidden_size=3, num_layers=1, batch_first=True, bidirectional=True)
bi_output, bi_h_n = bi_rnn(input)
print(bi_output, bi_output.shape, bi_h_n, bi_h_n.shape, sep='\n')

tensor([[[ 0.9352, -0.1535,  0.3298,  0.8335, -0.9024, -0.6281],
         [ 0.3034, -0.5223, -0.9183,  0.8817, -0.4630, -0.6553],
         [ 0.9745, -0.4444,  0.7889,  0.9376, -0.6616, -0.8148],
         [ 0.7716, -0.2623, -0.8482,  0.7856, -0.1788, -0.9494],
         [ 0.7237, -0.5549, -0.1000,  0.7960, -0.4034, -0.1305]]],
       grad_fn=<TransposeBackward1>)
torch.Size([1, 5, 6])
tensor([[[ 0.7237, -0.5549, -0.1000]],

        [[ 0.8335, -0.9024, -0.6281]]], grad_fn=<StackBackward0>)
torch.Size([2, 1, 3])


# 从零手搓 RNN 

## 导入必要的库

In [18]:
import torch
import torch.nn as nn

## 定义 RNN 模型类
创建一个继承自nn.Module的类来定义我们的 RNN 模型结构，在类中要实现__init__构造函数用于初始化模型的各层，以及forward方法用于定义前向传播过程。

In [20]:
import torch
import torch.nn as nn

class RNNModel(nn.Module):
    def __init__(self, input_size, hidden_size, num_layers, num_classes):
        super(RNNModel, self).__init__()
        self.rnn = nn.RNN(input_size, hidden_size, num_layers, batch_first=True)
        self.fc = nn.Linear(hidden_size, num_classes)

    def forward(self, x):
        h0 = torch.zeros(self.rnn.num_layers, x.size(0), self.rnn.hidden_size).to(x.device)
        out, _ = self.rnn(x, h0)
        out = out[:, -1, :]
        out = self.fc(out)
        return out

在上述代码中：

- `__init__`方法：
接受参数input_size（输入特征的维度，比如对于文本的词向量表示，就是词向量的维度）、hidden_size（RNN 隐藏层的神经元数量）、num_layers（RNN 的层数）、num_classes（要预测的类别数量）。
创建了nn.RNN实例，它代表了基本的循环神经网络层，batch_first=True表示输入张量的第一个维度是批次大小，符合常见的数据组织形式便于使用。
同时定义了一个全连接层self.fc，用于将 RNN 层输出的特征转换为对应类别数量的得分。

- `forward`方法：
首先初始化了隐藏状态h0，其维度根据 RNN 的层数、批次大小和隐藏层大小来确定，并确保其与输入数据x在同一个设备（CPU 或 GPU）上。
然后将输入x和初始隐藏状态h0传入rnn层进行前向传播，得到输出out和最终的隐藏状态（这里用_忽略最终隐藏状态，因为我们主要关注最后时刻的输出用于分类）。
接着取out中最后一个时间步的输出，通过全连接层self.fc将其转换为类别预测的结果。

## 使用模型示例
以下是简单的示例代码展示如何实例化模型、创建输入数据并进行前向传播得到预测结果（这里假设输入数据维度合适且已经经过必要的预处理，比如文本数据已经转换为词向量序列等情况）。

In [21]:
# 假设输入特征维度为10，隐藏层大小为20，2层RNN，要预测5个类别
input_size = 10
hidden_size = 20
num_layers = 2
num_classes = 5
batch_size = 32
seq_length = 10

# 创建模型实例
model = RNNModel(input_size, hidden_size, num_layers, num_classes)

# 创建随机输入数据，维度为 (batch_size, seq_length, input_size)
input_data = torch.rand(batch_size, seq_length, input_size)

# 前向传播得到输出（预测结果）
output = model(input_data)
print(output.shape)  # 输出形状应该为 (batch_size, num_classes)

torch.Size([32, 5])


上述代码：
- 首先定义了模型相关的参数，如输入特征维度、隐藏层大小、层数、类别数量以及输入数据的批次大小和序列长度等。
- 接着实例化了RNNModel类创建了模型对象model。
- 然后生成了随机的符合要求维度的输入数据input_data，并将其传入模型进行前向传播得到输出output，最后打印输出的形状，确认其符合预期（批次大小对应的每个样本都有对应num_classes个预测得分）。
  
请注意，这只是一个非常基础的 RNN 模型实现示例，在实际应用中，可能还需要根据具体任务来调整模型结构、添加更多的功能，比如：
- 可以使用其他的 RNN 变种，如LSTM（长短期记忆网络）、GRU（门控循环单元），只需要将nn.RNN替换为nn.LSTM或者nn.GRU等，相应的初始化参数和返回值的处理会稍有不同。
- 对输入数据通常需要更严谨的预处理，比如对于文本数据要进行合适的分词、构建词表、将文本转为词向量等操作，对于数值型序列数据可能要进行归一化等处理。
- 还需要定义合适的损失函数、优化器等来进行模型的训练以及评估模型的性能等，这些都是完整构建一个可用的基于 RNN 的深度学习模型的重要环节。

## 训练和评估

定义损失函数和优化器：
损失函数：根据任务类型选择合适的损失函数，如对于分类任务常用交叉熵损失函数nn.CrossEntropyLoss()，对于回归任务常用均方误差损失函数nn.MSELoss()等。
优化器：选择合适的优化器来更新模型的参数，如随机梯度下降（SGD）、Adagrad、Adadelta、RMSProp、Adam 等优化器。例如：

In [23]:
model = RNNModel(input_size, hidden_size, num_layers, num_classes)
criterion = nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(model.parameters(), lr=learning_rate)

NameError: name 'learning_rate' is not defined

In [None]:
训练模型：
在训练集上对模型进行多次迭代训练，每次迭代称为一个 epoch。在每个 epoch 中，将训练数据分成小批次（batch），对每个批次进行以下操作：
前向传播：将输入数据传入模型，得到模型的输出。
计算损失：根据模型的输出和真实标签，计算损失值。
反向传播：调用loss.backward()方法，计算损失对模型参数的梯度。
更新参数：使用优化器的step()方法，根据计算得到的梯度更新模型的参数。


## forword

In [8]:
import torch
import torch.nn as nn

In [9]:
batch_size, seq_len, input_size, hidden_size = 2, 3, 2, 3 # 批次大小、序列长度、输入维度、隐藏层维度
num_layers = 1 # rnn层数

input = torch.randn(batch_size, seq_len, input_size) # 初始化输入数据
h_prev = torch.zeros(batch_size, hidden_size) # 初始化隐藏层状态

In [10]:
rnn = nn.RNN(input_size, hidden_size, num_layers, batch_first=True) # 初始化rnn
rnn_output, h_n = rnn(input, h_prev.unsqueeze(0)) # rnn输出和隐藏层状态
print(rnn_output, rnn_output.shape, h_n, h_n.shape, sep='\n')

tensor([[[ 0.8950,  0.4833, -0.5547],
         [ 0.1424,  0.4373, -0.6090],
         [-0.5399,  0.7522, -0.0882]],

        [[ 0.2022,  0.8119, -0.3363],
         [ 0.0075,  0.5236, -0.5589],
         [ 0.6017,  0.2810, -0.6089]]], grad_fn=<TransposeBackward1>)
torch.Size([2, 3, 3])
tensor([[[-0.5399,  0.7522, -0.0882],
         [ 0.6017,  0.2810, -0.6089]]], grad_fn=<StackBackward0>)
torch.Size([1, 2, 3])


In [11]:
rnn.state_dict()

OrderedDict([('weight_ih_l0',
              tensor([[ 0.5479,  0.4916],
                      [-0.2934, -0.2234],
                      [-0.2745, -0.0150]])),
             ('weight_hh_l0',
              tensor([[ 0.1761, -0.3001,  0.5395],
                      [-0.2634, -0.2903,  0.3202],
                      [-0.4855,  0.2617, -0.0028]])),
             ('bias_ih_l0', tensor([ 0.4256,  0.4981, -0.3173])),
             ('bias_hh_l0', tensor([ 0.1950,  0.4163, -0.2147]))])

In [12]:
class RNN：
def __init__(self,input_size=4, hidden_size=3, num_layers=1, batch_first=True):
    self.input_size = input_size
    self.hidden_size = hidden_size
    self.num_layers = num_layers
def rnn_forward(input, W_ih, W_hh, b_ih, b_hh, h_prev):
    batch_size, seq_len, input_size = input.shape
    hidden_size = W_ih.shape[0] # 隐藏层维度, seq_len就等于hidden_size，所以是W_ih.shape[0]
    h_output = torch.zeros(batch_size, seq_len, hidden_size) # 初始化一个输出矩阵output 看官方参数来定义
    for t in range(seq_len):
        x_t = input[:, t, :].unsqueeze(2) # input[:,t,:].shape = [batch_size,input_size] -> (batch_size,input_size,1)

        # w_ih_batch.shape = [hidden_size,input_size]->(1,hidden_size,input_size)->(batch_size,hidden_size,input_size)
        # tile(batch_size, 1, 1): 第0维变成原来的batch_size倍（默认行复制）其他两维为1保持不动-> (batch_size,hidden_size,input_size)
        w_ih_batch = W_ih.unsqueeze(0).tile(batch_size, 1, 1)

        # w_hh_batch.shaoe = [hidden_size,input_size]->(1,hidden_size,input_size)->(batch_size,hidden_size,input_size)
        w_hh_batch = W_hh.unsqueeze(0).tile(batch_size, 1, 1)

        # w_ih_times_x.shape=(batch_size,hidden_size,1) -> (batch_size,hidden_size)
        w_ih_times_x = torch.bmm(w_ih_batch, x_t).squeeze(-1)  # W_ih * x_t

        # h_prev.unsqueeze(2) : (batch_size,hidden_size,1)
        # w_hh_times_h.shape =(batch_size,hidden_size,1)->(batch_size,hidden_size)
        w_hh_times_h = torch.bmm(w_hh_batch, h_prev.unsqueeze(2)).squeeze(-1)

        # h_prev = (1,batch_size,hidden_size)->(batch_size, hidden_size)
        h_prev = torch.tanh(w_ih_times_x + b_ih + w_hh_times_h + b_hh)

        h_output[:,t,:] = h_prev
        
    # 按官方api格式返回
    # h_prev.unsqueeze(0) : (1,batch_size,hidden_size) 因为官方参数为(D∗num_layers,bs,hidden_size)
    return h_output, h_prev.unsqueeze(0)

In [13]:
rnn_output, h_n = rnn(input, h_prev.unsqueeze(0))
custom_output, custom_hn = rnn_forward(input, rnn.weight_ih_l0, rnn.weight_hh_l0, rnn.bias_ih_l0, rnn.bias_hh_l0, h_prev)
print('custom', rnn_output, rnn_output.shape, h_n, h_n.shape, sep='\n')
print('torch api', custom_output, custom_output.shape, custom_hn, custom_hn.shape, sep='\n')

custom
tensor([[[ 0.8950,  0.4833, -0.5547],
         [ 0.1424,  0.4373, -0.6090],
         [-0.5399,  0.7522, -0.0882]],

        [[ 0.2022,  0.8119, -0.3363],
         [ 0.0075,  0.5236, -0.5589],
         [ 0.6017,  0.2810, -0.6089]]], grad_fn=<TransposeBackward1>)
torch.Size([2, 3, 3])
tensor([[[-0.5399,  0.7522, -0.0882],
         [ 0.6017,  0.2810, -0.6089]]], grad_fn=<StackBackward0>)
torch.Size([1, 2, 3])
torch api
tensor([[[ 0.8950,  0.4833, -0.5547],
         [ 0.1424,  0.4373, -0.6090],
         [-0.5399,  0.7522, -0.0882]],

        [[ 0.2022,  0.8119, -0.3363],
         [ 0.0075,  0.5236, -0.5589],
         [ 0.6017,  0.2810, -0.6089]]], grad_fn=<CopySlices>)
torch.Size([2, 3, 3])
tensor([[[-0.5399,  0.7522, -0.0882],
         [ 0.6017,  0.2810, -0.6089]]], grad_fn=<UnsqueezeBackward0>)
torch.Size([1, 2, 3])


## 训练