# 循环神经网络（RNN）介绍

## 什么是循环神经网络？

循环神经网络（Recurrent Neural Network，RNN）是一种深度学习模型，专门设计用于处理序列数据，例如时间序列、自然语言、音频信号等。相较于传统的前馈神经网络，RNN 具备一种独特的结构，使得网络可以在处理序列数据时在不同时间步之间共享信息，从而更好地捕捉序列中的时间相关性和模式。


## RNN 的结构和工作原理

RNN 的核心思想是引入循环结构，使得网络在每个时间步都可以接收当前时间步的输入和上一个时间步的隐藏状态。这使得网络具有了一种记忆能力，可以将之前时间步的信息传递到后续时间步中。

RNN 的一个基本单元如下图所示：

![RNN Cell](../img/1.png)

在上图中，`xt` 表示输入序列在时间步 t 的输入，`at` 表示在时间步 t 的隐藏状态，`Yt` 表示在时间步 t 的输出。RNN 在每个时间步都执行相同的操作，输入数据和上一个时间步的隐藏状态通过权重矩阵进行组合，并经过激活函数（通常为 tanh 或 sigmoid）得到新的隐藏状态和输出。

首先看一个简单的循环神经网络如，它由输入层、一个隐藏层和一个输出层组成：
![RNN Cell](../img/2.png)
当我们刚开始学习时，这种图可能会感到**抽象和困惑**。我在刚开始学习的时候也曾有过类似的疑问，诸如每个节点到底代表输入的一个值，还是一整层的**向量集合**？另外，隐藏层如何连接到自身？等等问题。

让我们用更直观的方式理解这个图。如果我们将上面带有 "W" 的箭头圈去掉，它就变成了最基本的**全连接神经网络**。在这里：

- **"x" 是一个向量**，代表输入层的值（虽然图中没有显示出代表神经元节点的圆圈）；
- **"s" 也是一个向量**，代表隐藏层的值（虽然图中隐藏层只画了一个节点，你可以想象这一层实际上有多个节点，节点数量与向量 "s" 的维度相同）。

**"U" 表示输入层到隐藏层的权重矩阵**，**"o" 是一个向量**，代表输出层的值；**"V" 表示隐藏层到输出层的权重矩阵**。

接下来，我们来看一下 **"W" 是什么**。循环神经网络中，隐藏层的值 "s" 不仅取决于当前时刻的输入 "x"，还取决于上一时刻隐藏层的值 "s"。而**权重矩阵 "W" 正是用来将上一时刻的隐藏层值作为当前时刻的输入进行加权的**。
<img src="../img/1.jpg" alt="RNN Cell" width="1200"/>

在循环神经网络中，我们可以用以下公式来表示其计算方法：

在时间步（时刻）**t**：

- 输入层的值为 **x<sub>t</sub>**。
- 隐藏层的值为 **s<sub>t</sub>**，该值不仅仅取决于当前时刻的输入 **x<sub>t</sub>**，还取决于上一时刻隐藏层的值 **s<sub>t-1</sub>**。计算方式为：

  **s<sub>t</sub> = tanh(U * x<sub>t</sub> + W * s<sub>t-1</sub>)**

  其中，**U** 表示输入层到隐藏层的权重矩阵，**W** 是隐藏层到自身的权重矩阵，**tanh** 是双曲正切函数，用于增强网络的非线性能力。

- 输出层的值为 **o<sub>t</sub>**，其计算方式与常规神经网络一样：

  **o<sub>t</sub> = softmax(V * s<sub>t</sub>)**

  其中，**V** 表示隐藏层到输出层的权重矩阵，**softmax** 是用于将输出转化为概率分布的函数，使得各个类别的输出概率之和为1。

这样，循环神经网络在每个时间步都根据当前输入和前一时刻的隐藏状态来计算隐藏状态和输出值，从而在序列数据上实现记忆和学习。
<img src="../img/3.png" alt="RNN Cell" width="800"/>

然而，传统的 RNN 存在**梯度消失**和**梯度爆炸**等问题，导致在处理长序列时难以有效地传递信息。为了解决这个问题，产生了一些改进的 RNN 变体，如长短时记忆网络（LSTM）和门控循环单元（GRU），它们引入了门控机制，更好地捕捉序列中的长距离依赖。

## 应用领域

RNN 在许多领域都有广泛的应用：

- **自然语言处理（NLP）**：RNN 可以用于文本生成、语言建模、机器翻译、文本分类和情感分析等任务。
- **语音识别**：RNN 可以处理音频数据，用于语音识别、语音合成等。
- **时间序列预测**：RNN 被应用于股票价格预测、天气预测、交通流量预测等。
- **图像描述生成**：结合卷积神经网络（CNN），RNN 可以生成图像描述。
- **视频分析**：RNN 可用于动作识别、视频标注等。

## 实现工具与库

许多深度学习框架提供了对 RNN 及其变体的支持，包括 TensorFlow、PyTorch、Keras 等。这些框架提供了高级的接口，帮助您构建、训练和部署 RNN 模型。使用 GPU 可以加速训练过程。

## 总结

循环神经网络是一种强大的神经网络模型，专门用于处理序列数据。通过引入循环结构和记忆机制，RNN 可以在序列数据中捕捉时间相关性，使其在多个应用领域都取得了卓越的成果。尽管传统的 RNN 存在一些问题，但通过改进的变体如 LSTM 和 GRU，我们能够更好地解决长序列的依赖关系。

如需进一步了解如何使用 RNN，您可以查看相关的教程和实际代码示例。


## 人名分类示例

以下示例展示了如何使用循环神经网络（RNN）实现人名的分类任务。该任务的目标是根据输入的任意长度的姓名（字符串），预测姓名来自哪个国家（18 个类别）。

### 数据预处理

数据来源：[下载链接](http://download.pytorch.org/tutorial/data.zip)
http://download.pytorch.org/tutorial/data.zip
对于每个字符，我们首先将其转换为 one-hot 向量，表示为 [0,0,...,1,...,0] 的形式。然后，我们使用 RNN 进行处理。在迭代训练过程中，我们采取以下步骤：

1. 随机选择一个标签（国家类别）和一个姓名。
2. 将姓名转换为形状为 [length, 1, 57] 的 one-hot 张量，其中 length 表示姓名长度。将标签也转换为形状为 [1] 的张量。
3. 初始化隐藏层状态信息。
4. 循环遍历姓名中的每个字符的 one-hot 向量，将其输入到 RNN 中。
5. 得到输出，即预测的 18 个分类。


In [None]:
from io import open
import glob
import unicodedata
import string
import math
import os
import time
import torch.nn as nn
import torch
import random
import matplotlib.pyplot as plt
import torch.utils.data
from common_tools import set_seed
import enviroments

set_seed(1)  # 设置随机种子
BASE_DIR = os.path.dirname(os.path.abspath(__file__))
# device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
device = torch.device("cpu")

# 读取文件并按行分割
def readLines(filename):
    lines = open(filename, encoding='utf-8').read().strip().split('\n')
    return [unicodeToAscii(line) for line in lines]

def unicodeToAscii(s):
    return ''.join(
        c for c in unicodedata.normalize('NFD', s)
        if unicodedata.category(c) != 'Mn'
        and c in all_letters)

# 从 all_letters 中找到字母的索引，例如 "a" = 0
def letterToIndex(letter):
    return all_letters.find(letter)

# 仅用于演示，将字母转换为 <1 x n_letters> 张量
def letterToTensor(letter):
    tensor = torch.zeros(1, n_letters)
    tensor[0][letterToIndex(letter)] = 1
    return tensor

# 将一行转换为 <line_length x 1 x n_letters>，
# 或者是一系列的 one-hot 字母向量
def lineToTensor(line):
    tensor = torch.zeros(len(line), 1, n_letters)
    for li, letter in enumerate(line):
        tensor[li][0][letterToIndex(letter)] = 1
    return tensor

def categoryFromOutput(output):
    top_n, top_i = output.topk(1)
    category_i = top_i[0].item()
    return all_categories[category_i], category_i

def randomChoice(l):
    return l[random.randint(0, len(l) - 1)]

def randomTrainingExample():
    category = randomChoice(all_categories)                 # 随机选取类别
    line = randomChoice(category_lines[category])           # 随机选取一个样本
    category_tensor = torch.tensor([all_categories.index(category)], dtype=torch.long)
    line_tensor = lineToTensor(line)    # 字符串转为 one-hot
    return category, line, category_tensor, line_tensor

def timeSince(since):
    now = time.time()
    s = now - since
    m = math.floor(s / 60)
    s -= m * 60
    return '%dm %ds' % (m, s)

# 仅返回给定行的输出
def evaluate(line_tensor):
    hidden = rnn.initHidden()

    for i in range(line_tensor.size()[0]):
        output, hidden = rnn(line_tensor[i], hidden)

    return output

def predict(input_line, n_predictions=3):
    print('\n> %s' % input_line)
    with torch.no_grad():
        output = evaluate(lineToTensor(input_line))

        # 获取前 N 个预测的类别
        topv, topi = output.topk(n_predictions, 1, True)

        for i in range(n_predictions):
            value = topv[0][i].item()
            category_index = topi[0][i].item()
            print('(%.2f) %s' % (value, all_categories[category_index]))

def get_lr(iter, learning_rate):
    lr_iter = learning_rate if iter < n_iters else learning_rate*0.1
    return lr_iter

class RNN(nn.Module):
    def __init__(self, input_size, hidden_size, output_size):
        super(RNN, self).__init__()

        self.hidden_size = hidden_size

        self.u = nn.Linear(input_size, hidden_size)
        self.w = nn.Linear(hidden_size, hidden_size)
        self.v = nn.Linear(hidden_size, output_size)

        self.tanh = nn.Tanh()
        self.softmax = nn.LogSoftmax(dim=1)

    def forward(self, inputs, hidden):

        u_x = self.u(inputs)

        hidden = self.w(hidden)
        hidden = self.tanh(hidden + u_x)

        output = self.softmax(self.v(hidden))

        return output, hidden

    def initHidden(self):
        return torch.zeros(1, self.hidden_size)

def train(category_tensor, line_tensor):
    hidden = rnn.initHidden()

    rnn.zero_grad()

    line_tensor = line_tensor.to(device)
    hidden = hidden.to(device)
    category_tensor = category_tensor.to(device)

    for i in range(line_tensor.size()[0]):
        output, hidden = rnn(line_tensor[i], hidden)

    loss = criterion(output, category_tensor)
    loss.backward()

    # 根据学习率将参数的梯度添加到其值上
    for p in rnn.parameters():
        p.data.add_(-learning_rate, p.grad.data)

    return output, loss.item()

if __name__ == "__main__":
    # 配置
    path_txt = os.path.join(enviroments.names,"*.txt")
    all_letters = string.ascii_letters + " .,;'"
    n_letters = len(all_letters)    # 52 + 5 字符总数
    print_every = 5000
    plot_every = 5000
    learning_rate = 0.005
    n_iters = 200000

    # 步骤 1 数据
    # 构建 category_lines 字典，每种语言对应一组名字
    category_lines = {}
    all_categories = []
    for filename in glob.glob(path_txt):
        category = os.path.splitext(os.path.basename(filename))[0]
        all_categories.append(category)
        lines = readLines(filename)
        category_lines[category] = lines

    n_categories = len(all_categories)

    # 步骤 2 模型
    n_hidden = 128
    rnn = RNN(n_letters, n_hidden, n_categories)

    rnn.to(device)

    # 步骤 3 损失
    criterion = nn.NLLLoss()

    # 步骤 4 手动优化

    # 步骤 5 迭代
    current_loss = 0
    all_losses = []
    start = time.time()
    for iter in range(1, n_iters + 1):
        # 随机采样
        category, line, category_tensor, line_tensor = randomTrainingExample()

        # 训练
        output, loss = train(category_tensor, line_tensor)

        current_loss += loss

        # 打印迭代次数、损失、名称和预测
        if iter % print_every == 0:
            guess, guess_i = categoryFromOutput(output)
            correct = '✓' if guess == category else '✗ (%s)' % category
            print('迭代: {:<7} 时间: {:>8s} 损失: {:.4f} 名称: {:>10s}  预测: {:>8s} 标签: {:>8s}'.format(
                iter, timeSince(start), loss, line, guess, correct))

        # 将当前损失平均值添加到损失列表
        if iter % plot_every == 0:
            all_losses.append(current_loss / plot_every)
            current_loss = 0
    path_model = os.path.join(BASE_DIR, "rnn_state_dict.pkl")
    torch.save(rnn.state_dict(), path_model)
    plt.plot(all_losses)
    plt.show()

    predict('Yue Tingsong')
    predict('Yue tingsong')
    predict('yutingsong')

    predict('test your name')
