# Recurrent Neural Networks  (RNN)
## 1. Introduction
前馈神经网络中，信息只有单向传播，这一定程度上使得模型容易学习，但同时也削弱了模型的能力。前馈神经网络可以看作一个复杂的函数，每次输入独立，输出只依赖于当前的输入。但实际任务中，网络输出不仅与当前输入相关，还与之前的输出相关。例如，自然语言处理中，一句话的意思不仅仅取决于当前的词，还取决于之前的词。为了解决这个问题，RNN应运而生。RNN是一类有短期记忆能力的神经网络，常用于处理序列数据，使得它们特别适合处理语言处理、时间序列分析、生物信息学等领域的任务。

#### 核心概念

- **循环结构**：RNN的核心特点是网络中存在循环，这意味着网络的输出可以再次作为输入。这种结构使得RNN能够保留过去信息的记忆，并将其用于当前的计算中。
- **隐藏状态**：RNN通过隐藏状态（hidden state）来存储过去信息的摘要。隐藏状态在序列的每个时间步上都会更新，以包含到当前步骤为止的信息。
- **参数共享**：在处理序列的每个元素时，RNN在其所有时间步上共享参数。这种参数共享机制使得RNN能够处理变长的输入序列。

#### 基本结构

一个基本的RNN单元包含一个简单的神经网络层，该层不仅接收当前时间步的输入，还接收上一个时间步的隐藏状态作为输入。输出包括当前时间步的隐藏状态（可以传递到下一个时间步）和实际的输出（可选）。

<img src="./images/img_7.png">

#### 数学表示

假设在时间步$\( t \)$的输入是$\( x_t \)$，上一个时间步的隐藏状态是$\( h_{t-1} \)$，那么RNN单元可以表示为：

- 更新隐藏状态：$$\[ h_t = f(W_{hh}h_{t-1} + W_{xh}x_t + b_h) \]$$
- 生成输出（可选）：$$\[ y_t = g(W_{hy}h_t + b_y) \]$$

其中，$\( W_{hh} \)$、$\( W_{xh} \)$和$\( W_{hy} \)$是权重矩阵，$\( b_h \)$和$\( b_y \)$是偏置项，$\( f \)$和$\( g \)$是激活函数，通常$\( f \)$是非线性激活函数如$tanh$或$ReLU$，$\( g \)$可以是softmax函数（用于分类任务）。

#### 挑战

- **梯度消失和梯度爆炸**：由于RNN的循环结构，它在训练过程中很容易遇到梯度消失和梯度爆炸问题，这使得模型难以学习长距离依赖。
- **长期依赖问题**：标准RNN在处理长序列时效果不佳，因为随着时间的推移，信息会逐渐丢失。

#### 变体

为了解决标准RNN的一些问题，研究者们提出了一些变体，如长短期记忆网络（LSTM）和门控循环单元（GRU）。这些变体通过引入门机制来控制信息的流动，从而更有效地捕捉长期依赖关系。


## 2. 应用模式
循环神经网络（RNN）可以有多种不同的模式，这些模式决定了网络如何处理输入序列和产生输出序列。这些模式包括：

#### 1. 序列到序列（One-to-Many）
- **场景**：当需要从单个输入生成一系列数据时使用，例如音乐生成或图像描述。
- **结构**：一个输入对应多个输出。

#### 2. 序列到单个输出（Many-to-One）
- **场景**：适用于序列分类任务，如情感分析或者主题识别，整个输入序列对应一个单独的输出。
- **结构**：多个输入对应一个输出。

<img src="./images/img_9.png">

#### 3. 序列到序列（Many-to-Many，同步）
- **场景**：当输入和输出都是序列，并且对于每个输入时间步都有一个对应的输出时使用，如机器翻译（输入和输出序列长度相同）。
- **结构**：每个输入对应一个输出，序列长度保持不变。
<img src="./images/img_10.png">

#### 4. 序列到序列（Many-to-Many，异步）
- **场景**：输入和输出都是序列，但输出序列的长度可以不同，如语音识别或者机器翻译（输入和输出序列长度不同）。
- **结构**：多个输入对应多个输出，序列长度可以变化。
<img src="./images/img_11.png">

#### 5. 双向RNN（Bidirectional RNN）
- **场景**：当需要考虑输入序列的前后文时使用，比如在文本处理中更好地理解上下文。
- **结构**：RNN在两个方向上运行，正向和反向，每个时间步的输出是两个方向隐藏状态的函数。

#### 6. 深层RNN（Deep RNN）
- **场景**：为了增加模型的复杂性和学习能力，可以堆叠多个RNN层。
- **结构**：每个时间步的输出除了传递给下一个时间步，也传递给下一个RNN层。

这些模式可以根据具体任务的需求进行组合和匹配，以达到更好的性能。例如，双向和深层RNN可以结合起来处理复杂的序列到序列任务。选择哪种模式取决于输入数据的性质和想要的输出类型。

## 3. 参数学习
同样可以使用梯度下降等方法（optimizer）来学习参数，但是由于RNN中存在递归调用的函数，其参数的梯度计算方法与前馈神经网络有所不同。RNN中的梯度计算方法主要有以下几种：

#### 1. 时间反向传播（Backpropagation Through Time，BPTT）
循环神经网络（RNN）的梯度计算通常使用反向传播（Backpropagation Through Time, BPTT）算法。反向传播是一种用于计算神经网络中参数的梯度的常用方法，而BPTT是针对具有时间步骤的循环结构的特殊情况。

以下是RNN的梯度计算步骤：

1. 前向传播：首先，通过输入数据和前一时间步骤的隐藏状态进行前向传播，计算当前时间步骤的隐藏状态和输出。

2. 计算损失：使用前向传播得到的输出计算损失函数（通常是根据任务选择的，如均方误差或交叉熵）来衡量模型的性能。

3. 反向传播：从时间步骤T（最后一个时间步骤）开始，计算梯度。

4. 通过时间步骤反向传播：然后，通过时间步骤t从T到1依次反向传播梯度，更新权重和偏差。每个时间步骤的梯度计算包括以下步骤：
   a. 计算隐藏状态梯度：
   b. 计算权重和偏差的梯度：

5. 参数更新：使用计算得到的梯度，通过梯度下降或其他优化算法更新权重矩阵和偏差向量。

这些步骤组成了BPTT算法，用于计算RNN模型的梯度，以便在训练过程中更新参数以最小化损失函数。这个过程在训练中迭代进行，直到达到收敛或设定的训练迭代次数。

#### 2. 实时递归学习（Real-Time Recurrent Learning，RTRL）
RTRL是一种精确的梯度计算方法，它通过计算每个时间步上的梯度来更新参数。RTRL的计算复杂度随着时间步的增加而增加，因此在实际应用中很少使用。

通常，传统的反向传播算法在实际训练中更为常用，因为它更高效，尤其是对于长序列和大规模数据。

## 4. Long Range Dependency
RNN的一个主要问题是难以捕捉长期依赖关系。当序列长度较长时，RNN的梯度会出现梯度消失或梯度爆炸的问题，导致模型难以学习长期依赖关系。为了解决这个问题，研究者们提出了一些变体，如长短期记忆网络（LSTM）和门控循环单元（GRU）。

### 4.1 LSTM
长短期记忆网络（Long Short-Term Memory，LSTM）是一种特殊的RNN变体，它通过引入门机制来控制信息的流动，从而更有效地捕捉长期依赖关系。LSTM单元包括一个细胞状态和三个门：输入门、遗忘门和输出门。

- **输入门（Input Gate）**：决定是否更新单元状态（cell state）。它使用sigmoid激活函数来处理输入数据和先前时间步骤的隐藏状态，以产生一个在0到1之间的值。
- **遗忘门（Forget Gate）**：决定在当前时间步骤是否保留前一时间步骤的单元状态的信息。它也使用sigmoid激活函数来产生一个在0到1之间的值。
- **输出门（Output Gate）**：决定在当前时间步骤的隐藏状态中传递哪些信息给下一个时间步骤的隐藏状态，并将单元状态的一部分映射到输出。它使用sigmoid激活函数来产生一个在0到1之间的值，同时使用双曲正切激活函数来产生一个在-1到1之间的值。

#### 注意：
一般深度学习网络参数时，初始化参数值都较小，但使用LSTM时，参数初始化值要稍微大一些，因为过小的值使得遗忘门的值较小，意味着前一时刻的信息会损失过多，这样的网络难以捕捉到长距离依赖。

LSTM的结构原理可以简要概括如下：

1. 输入门（Input Gate）：
   - 输入门决定是否更新单元状态（cell state）。它使用sigmoid激活函数来处理输入数据和先前时间步骤的隐藏状态，以产生一个在0到1之间的值。
   - 输入门的计算公式为：
     $\[i_t = \sigma(W_{xi}x_t + W_{hi}h_{t-1} + W_{ci}c_{t-1} + b_i)\]$
   其中，$\(i_t\)$是输入门的输出，$\(x_t\)$是当前时间步骤的输入，$\(h_{t-1}\)$是前一时间步骤的隐藏状态，$\(c_{t-1}\)$是前一时间步骤的单元状态，$\(W_{xi}\)$、$\(W_{hi}\)$、$\(W_{ci}\)$和$\(b_i\)$是与输入门相关的权重和偏差。

2. 遗忘门（Forget Gate）：
   - 遗忘门决定在当前时间步骤是否保留前一时间步骤的单元状态的信息。它也使用sigmoid激活函数来产生一个在0到1之间的值。
   - 遗忘门的计算公式为：
     $\[f_t = \sigma(W_{xf}x_t + W_{hf}h_{t-1} + W_{cf}c_{t-1} + b_f)\]$
   其中，$\(f_t\)$是遗忘门的输出，$\(x_t\)$是当前时间步骤的输入，$\(h_{t-1}\)$是前一时间步骤的隐藏状态，$\(c_{t-1}\)$是前一时间步骤的单元状态，$\(W_{xf}\)$、$\(W_{hf}\)$、$\(W_{cf}\)$和$\(b_f\)$是与遗忘门相关的权重和偏差。

3. 更新单元状态（Cell State Update）：
   - 更新单元状态的过程包括两部分：首先，通过输入门来确定哪些信息将被添加到单元状态中；然后，通过遗忘门来确定哪些信息将被从单元状态中删除。
   - 更新单元状态的计算公式为：
     $\[c_t = f_t \cdot c_{t-1} + i_t \cdot \tanh(W_{xc}x_t + W_{hc}h_{t-1} + b_c)\]$
   其中，$\(c_t\)$是当前时间步骤的单元状态，$\(\tanh\)$是双曲正切激活函数，$\(W_{xc}\)$、$\(W_{hc}\)$和$\(b_c\)$是与单元状态更新相关的权重和偏差。

4. 输出门（Output Gate）：
   - 输出门决定在当前时间步骤的隐藏状态中传递哪些信息给下一个时间步骤的隐藏状态，并将单元状态的一部分映射到输出。它使用sigmoid激活函数来产生一个在0到1之间的值，同时使用双曲正切激活函数来产生一个在-1到1之间的值。
   - 输出门的计算公式为：
     $\[o_t = \sigma(W_{xo}x_t + W_{ho}h_{t-1} + W_{co}c_t + b_o)\]$
   其中，$\(o_t\)$是输出门的输出，$\(x_t\)$是当前时间步骤的输入，$\(h_{t-1}\)$是前一时间步骤的隐藏状态，$\(c_t\)$是当前时间步骤的单元状态，$\(W_{xo}\)$、$\(W_{ho}\)$、$\(W_{co}\)$和$\(b_o\)$是与输出门相关的权重和偏差。

5. 隐藏状态（Hidden State）：
   - 最后，通过输出门和单元状态来计算当前时间步骤的隐藏状态：
     $\[h_t = o_t \cdot \tanh(c_t)\]$
   其中，$\(h_t\)$是当前时间步骤的隐藏状态，$\(\tanh\)$是双曲正切激活函数，$\(o_t\)$是输出门的输出，$\(c_t\)$是当前时间步骤的单元状态。

LSTM的结构允许它在处理长序列时保留和传递信息，同时有效地防止梯度消失问题。它在自然语言处理、语音识别、时间序列预测等领域取得了显著的成功。


### 代码示例

In [49]:
import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import DataLoader, TensorDataset
from torch.utils.data import random_split

# 定义LSTM模型
class LSTMModel(nn.Module):
    def __init__(self, input_size, hidden_size, num_layers, output_size):
        super(LSTMModel, self).__init__()
        self.hidden_size = hidden_size
        self.num_layers = num_layers
        
        # LSTM循环单元
        self.lstm = nn.LSTM(input_size, hidden_size, num_layers, batch_first=True)
        # 全连接层
        self.fc = nn.Linear(hidden_size, output_size)
        self.sigmoid = nn.Sigmoid()
        
    def forward(self, x):
        h0 = torch.zeros(self.num_layers, x.size(0), self.hidden_size).to(x.device)
        c0 = torch.zeros(self.num_layers, x.size(0), self.hidden_size).to(x.device)
        out, _ = self.lstm(x, (h0, c0))
        out = self.fc(out[:, -1, :])
        out = self.sigmoid(out)
        return out

In [56]:
# 准备示例数据
batch_size = 32
sequence_length = 5
input_size = 10
output_size = 1
total_samples = 100000

# 生成随机输入数据和标签
data = torch.randn(total_samples, sequence_length, input_size)
labels = torch.randint(0, 2, (total_samples, output_size), dtype=torch.float32)

# 创建数据集
dataset = TensorDataset(data, labels)

# 划分训练集和验证集
train_size = int(0.8 * total_samples)  # 80%的样本用于训练
test_size = total_samples - train_size  # 剩余部分用于验证

train_dataset, valid_dataset = random_split(dataset, [train_size, test_size])

# 创建数据加载器
train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)
test_loader = DataLoader(valid_dataset, batch_size=batch_size, shuffle=False)

In [54]:
# 训练模型
def train(model, device, train_loader, optimizer, epoch):
    model.train()
    for batch_idx, (data, target) in enumerate(train_loader):
        data, target = data.to(device), target.to(device)
        optimizer.zero_grad()
        outputs = model(data)
        loss = nn.BCELoss()(outputs, target)
        loss.backward()
        optimizer.step()
        
        if batch_idx % 100 == 0:
            print(f"Train Epoch: {epoch} [{batch_idx * len(data)}/{len(train_loader.dataset)} ({100. * batch_idx / len(train_loader):.0f}%)]\tLoss: {loss.item():.6f}")

# 测试模型
def test(model, device, test_loader):
    model.eval()
    test_loss = 0
    correct = 0

    with torch.no_grad():
        for data, target in test_loader:
            data, target = data.to(device), target.to(device)
            outputs = model(data)
            test_loss += nn.BCELoss()(outputs, target).item()
            predicted = (outputs > 0.5).float()
            correct += (predicted == target).sum().item()
        
    test_loss /= len(test_loader.dataset)
    accuracy = correct / len(test_loader.dataset)

    print(f"\nTest set: Average loss: {test_loss:.4f}, Accuracy: {accuracy * 100:.2f}%")

In [57]:
# 设置设备并实例化模型，定义损失函数和优化器，开始训练和测试
device = torch.device("cuda" )
# device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model = LSTMModel(input_size, hidden_size=16, num_layers=2, output_size=output_size).to(device)
optimizer = optim.Adam(model.parameters())

for epoch in range(1, 11):
    train(model, device, train_loader, optimizer, epoch)
    test(model, device, test_loader)

Test set: Average loss: 0.0217, Accuracy: 50.38%
Test set: Average loss: 0.0217, Accuracy: 49.55%
Test set: Average loss: 0.0217, Accuracy: 49.52%
Test set: Average loss: 0.0217, Accuracy: 49.91%
Test set: Average loss: 0.0217, Accuracy: 49.70%
Test set: Average loss: 0.0217, Accuracy: 49.97%
Test set: Average loss: 0.0217, Accuracy: 49.41%
Test set: Average loss: 0.0217, Accuracy: 49.50%
Test set: Average loss: 0.0218, Accuracy: 49.73%
Test set: Average loss: 0.0218, Accuracy: 49.45%
