# 2 循环神经网络

上⼀节介绍的$n$元语法中，时间步$t$的词$\omega_t$基于前⾯所有词的条件概率只考虑了最近时间步的$n-1$个
词。如果要考虑⽐$t-(n-1)$更早时间步的词对$\omega_t$的可能影响，我们需要增⼤$n$。但这样模型参数的
数量将随之呈指数级增⻓。

本节将介绍循环神经⽹络。它并⾮刚性地记忆所有固定⻓度的序列，⽽是通过隐藏状态来存储之前时间
步的信息。⾸先我们回忆⼀下前⾯介绍过的多层感知机，然后描述如何添加隐藏状态来将它变成循环神
经⽹络。

## 2.1 不含隐藏状态的神经⽹络

让我们考虑⼀个含单隐藏层的多层感知机。给定样本数为$n$、输⼊个数（特征数或特征向量维度）为$d$的⼩批量数据样本$\mathbf{X}\in\mathbb{R}^{n\times d}$。设隐藏层的激活函数为$\phi$，那么隐藏层的输出$\mathbf{H}\in\mathbb{R}^{n\times h}$计算为
$$
\mathbf{H}=\phi(\mathbf{X}\mathbf{W}_{xh}+\mathbf{b}_h),
$$
其中隐藏层权重参数$\mathbf{W}_{xh}\in\mathbb{R}^{d\times h}$, 隐藏层偏差参数$\mathbf{b}_h\in\mathbb{R}^{1\times h}$，$h$为隐藏单元个数。上式相加的两项形状不同，因此将按照⼴播机制相加。把隐藏变量$\mathbf{H}$作为输出层的输⼊，且设输出个数为$q$（如分类问题中的类别数），输出层的输出为
$$
\mathbf{O}=\mathbf{H}\mathbf{W}_{hq}+\mathbf{b}_q,
$$
其中输出变量$\mathbf{O}\in\mathbb{R}^{n\times q}$, 输出层权重参数$\mathbf{W}_{hq}\in\mathbb{R}^{h\times q}$, 输出层偏差参数$\mathbf{b}_q\in\mathbb{R}^{1\times q}$。如果是分类问题，我们可以使⽤$softmax(\mathbf{O})$来计算输出类别的概率分布。

## 2.2 含隐藏状态的循环神经⽹络

现在我们考虑输⼊数据存在时间相关性的情况。假设$\mathbf{X}_t\in\mathbb{R}^{n\times d}$是序列中时间步$t$的⼩批量输⼊, $\mathbf{H}_t\in\mathbb{R}^{n\times h}$是该时间步的隐藏变量。与多层感知机不同的是，这⾥我们保存上⼀时间步的隐藏变量$\mathbf{H}_{t-1}$，并引⼊⼀个新的权重参数$\mathbf{W}_{hh}\in\mathbb{R}^{h\times h}$，该参数⽤来描述在当前时间步如何使⽤上⼀时间步的隐藏变量。具体来说，时间步 的隐藏变量的计算由当前时间步的输⼊和上⼀时间步的隐藏变量共同决定：
$$
\mathbf{H}_t=\phi(\mathbf{X}_t\mathbf{W}_{xh}+\mathbf{H}_{t-1}\mathbf{W}_{hh}+\mathbf{b}_h).
$$

与多层感知机相⽐，我们在这⾥添加了$\mathbf{H}_{t-1}\mathbf{W}_{hh}$⼀项。由上式中相邻时间步的隐藏变量$\mathbf{H}_t$和$\mathbf{H}_{t-1}$之间的关系可知，这⾥的隐藏变量能够捕捉截⾄当前时间步的序列的历史信息，就像是神经⽹络当前时间步的状态或记忆⼀样。因此，该隐藏变量也称为隐藏状态。由于隐藏状态在当前时间步的定义使⽤了上⼀时间步的隐藏状态，上式的计算是循环的。使⽤循环计算的⽹络即循环神经⽹络（recurrent neural network）。

循环神经⽹络有很多种不同的构造⽅法。含上式所定义的隐藏状态的循环神经⽹络是极为常⻅的⼀种。若⽆特别说明，本章中的循环神经⽹络均基于上式中隐藏状态的循环计算。在时间步$t$，输出层的输出和多层感知机中的计算类似
$$
\mathbf{O}_t=\mathbf{H}_t\mathbf{W}_{hq}+\mathbf{b}_q.
$$

循环神经⽹络的参数包括隐藏层的权重$\mathbf{W}_{xh}\in\mathbb{R}^{d\times h}$、$\mathbf{W}_{hh}\in\mathbf{R}^{hh}$和偏差$\mathbf{b}_h\in\mathbb{R}^{1\times h}$，以及输出层的权重$\mathbf{W}_{hq}\in\mathbb{R}^{h\times q}$和偏差$\mathbf{b}_q\in\mathbb{R}^{1\times q}$。值得⼀提的是，即便在不同时间步，循环神经⽹络也始终使⽤
这些模型参数。因此，循环神经⽹络模型参数的数量不随时间步的增加⽽增⻓。

图6.1展示了循环神经⽹络在3个相邻时间步的计算逻辑。在时间步$t$，隐藏状态的计算可以看成是将输⼊$\mathbf{X}_t$和前⼀时间步隐藏状态$\mathbf{H}_{t-1}$连结后输⼊⼀个激活函数为$\phi$的全连接层。该全连接层的输出就是当前时间步的隐藏状态$\mathbf{H}_t$，且模型参数为$\mathbf{W}_{xh}$与$\mathbf{W}_{hh}$的连结，偏差为$\mathbf{b}_h$。当前时间步$t$的隐藏状态$\mathbf{H}_t$将参与下⼀个时间步$t+1$的隐藏状态$\mathbf{H}_{t+1}$的计算，并输⼊到当前时间步的全连接输出层。
<img src="./figs/rnn_1.png" width="500px"/>

我们刚刚提到，隐藏状态中$\mathbf{X}_t\mathbf{W}_{xh}+\mathbf{H}_{t-1}\mathbf{W}_{hh}$的计算等价于$\mathbf{X}_t$与$\mathbf{H}_{t-1}$连结后的矩阵乘以$\mathbf{W}_{xh}$与$\mathbf{W}_{hh}$连结后的矩阵 。接下来，我们⽤⼀个具体的例⼦来验证这⼀点。⾸先，我们构造矩阵`X`、`W_xh`、`H`和`W_hh`，它们的形状分别为(3, 1)、 (1, 4)、 (3, 4)和(4, 4)。将`X`与`W_xh`、`H`与`W_hh`分别相乘，再把两个乘法运算的结果相加，得到形状为(3, 4)的矩阵。

In [1]:
import torch

X, W_xh = torch.randn(3, 1), torch.randn(1, 4)
H, W_hh = torch.randn(3, 4), torch.randn(4, 4)
torch.matmul(X, W_xh) + torch.matmul(H, W_hh)

tensor([[-0.4029, -0.7097,  0.3805, -1.2130],
        [-4.6149, -1.0635,  0.2622, -5.6111],
        [-0.0394,  0.5483,  0.3263, -0.8100]])

将矩阵`X`和`H`按列（维度1）连结，连结后的矩阵形状为(3, 5)。可⻅，连结后矩阵在维度1的⻓度为矩阵`X`和`H`在维度1的⻓度之和（1+4）。然后，将矩阵`W_xh`和`W_hh`按⾏（维度0）连结，连结后的矩阵形状为(5, 4)。最后将两个连结后的矩阵相乘，得到与上⾯代码输出相同的形状为(3, 4)的矩阵。

In [2]:
torch.matmul(torch.cat((X, H), dim=1), torch.cat((W_xh, W_hh),dim=0))

tensor([[-0.4029, -0.7097,  0.3805, -1.2130],
        [-4.6149, -1.0635,  0.2622, -5.6111],
        [-0.0394,  0.5483,  0.3263, -0.8100]])

## 3 语⾔模型数据集（周杰伦专辑歌词）

本节将介绍如何预处理⼀个语⾔模型数据集，并将其转换成字符级循环神经⽹络所需要的输⼊格式。为
此，我们收集了周杰伦从第⼀张专辑《Jay》到第⼗张专辑《跨时代》中的歌词，并在后⾯⼏节⾥应⽤
循环神经⽹络来训练⼀个语⾔模型。当模型训练好后，我们就可以⽤这个模型来创作歌词。

## 3.1 读取数据集

⾸先读取这个数据集，看看前40个字符是什么样的。

In [4]:
import torch
import random

with open('jaychou_lyrics.txt') as f:
    corpus_chars = f.read()

corpus_chars[:40]

'想要有直升机\n想要和你飞到宇宙去\n想要和你融化在一起\n融化在宇宙里\n我每天每天每'

这个数据集有6万多个字符。为了打印⽅便，我们把换⾏符替换成空格，然后仅使⽤前1万个字符来训练
模型。

In [5]:
corpus_chars = corpus_chars.replace('\n', ' ').replace('\r', ' ')
corpus_chars = corpus_chars[0:10000]

## 3.2 建⽴字符索引

我们将每个字符映射成⼀个从0开始的连续整数，⼜称索引，来⽅便之后的数据处理。为了得到索引，我们将数据集⾥所有不同字符取出来，然后将其逐⼀映射到索引来构造词典。接着，打印`vocab_size`，即词典中不同字符的个数，⼜称词典⼤⼩。

In [6]:
idx_to_char = list(set(corpus_chars))
char_to_idx = dict([(char, i) for i, char in enumerate(idx_to_char)])
vocab_size = len(char_to_idx)
vocab_size

1027

之后，将训练数据集中每个字符转化为索引，并打印前20个字符及其对应的索引。

In [7]:
corpus_indices = [char_to_idx[char] for char in corpus_chars]
sample = corpus_indices[:20]
print('chars:', ''.join([idx_to_char[idx] for idx in sample]))
print('indices:', sample)

chars: 想要有直升机 想要和你飞到宇宙去 想要和
indices: [420, 137, 1008, 732, 67, 615, 625, 420, 137, 576, 441, 462, 102, 689, 570, 843, 625, 420, 137, 576]


## 3.3 时序数据的采样

在训练中我们需要每次随机读取⼩批量样本和标签。与之前章节的实验数据不同的是，时序数据的⼀个
样本通常包含连续的字符。假设时间步数为5，样本序列为5个字符，即“想”“要”“有”“直”“升”。该样本
的标签序列为这些字符分别在训练集中的下⼀个字符，即“要”“有”“直”“升”“机”。我们有两种⽅式对时
序数据进⾏采样，

### 3.3.1 随机采样

下⾯的代码每次从数据⾥随机采样⼀个⼩批量。其中批量⼤⼩`batch_size`指每个⼩批量的样本数，`num_steps`为每个样本所包含的时间步数。 在随机采样中，每个样本是原始序列上任意截取的⼀段序列。相邻的两个随机⼩批量在原始序列上的位置不⼀定相毗邻。因此，我们⽆法⽤⼀个⼩批量最终时间步的隐藏状态来初始化下⼀个⼩批量的隐藏状态。在训练模型时，每次随机采样前都需要重新初始化隐藏状态。

In [8]:
import random

def data_iter_random(corpus_indices, batch_size, num_steps, device = None):
    num_examples = (len(corpus_indices) - 1) // num_steps
    epoch_size = num_examples // batch_size
    example_indices = list(range(num_examples))
    random.shuffle(example_indices)
    
    def _data(pos):
        return corpus_indices[pos: pos + num_steps]
    if device is None:
        device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
    
    for i in range(epoch_size):
        i = i * batch_size
        batch_indices = example_indices[i: i + batch_size]
        X = [_data(j * num_steps) for j in batch_indices]
        Y = [_data(j * num_steps + 1) for j in batch_indices]
        yield torch.tensor(X, dtype=torch.float32, device=device),\
              torch.tensor(Y, dtype=torch.float32, device=device)

让我们输⼊⼀个从0到29的连续整数的⼈⼯序列。设批量⼤⼩和时间步数分别为2和6。打印随机采样每次读取的⼩批量样本的输⼊`X`和标签`Y`。可⻅，相邻的两个随机⼩批量在原始序列上的位置不⼀定相毗邻。

In [9]:
my_seq = list(range(30))
for X, Y in data_iter_random(my_seq, batch_size=2, num_steps=6):
    print('X: ', X, '\nY:', Y, '\n')

X:  tensor([[18., 19., 20., 21., 22., 23.],
        [12., 13., 14., 15., 16., 17.]]) 
Y: tensor([[19., 20., 21., 22., 23., 24.],
        [13., 14., 15., 16., 17., 18.]]) 

X:  tensor([[ 6.,  7.,  8.,  9., 10., 11.],
        [ 0.,  1.,  2.,  3.,  4.,  5.]]) 
Y: tensor([[ 7.,  8.,  9., 10., 11., 12.],
        [ 1.,  2.,  3.,  4.,  5.,  6.]]) 



### 3.3.2 相邻采样

除对原始序列做随机采样之外，我们还可以令相邻的两个随机⼩批量在原始序列上的位置相毗邻。这时候，我们就可以⽤⼀个⼩批量最终时间步的隐藏状态来初始化下⼀个⼩批量的隐藏状态，从⽽使下⼀个⼩批量的输出也取决于当前⼩批量的输⼊，并如此循环下去。这对实现循环神经⽹络造成了两⽅⾯影响：⼀⽅⾯， 在训练模型时，我们只需在每⼀个迭代周期开始时初始化隐藏状态；另⼀⽅⾯，当多个相邻⼩批量通过传递隐藏状态串联起来时，模型参数的梯度计算将依赖所有串联起来的⼩批量序列。同⼀迭代周期中，随着迭代次数的增加，梯度的计算开销会越来越⼤。 为了使模型参数的梯度计算只依赖⼀次迭代读取的⼩批量序列，我们可以在每次读取⼩批量前将隐藏状态从计算图中分离出来。我们将在下⼀节（循环神经⽹络的从零开始实现）的实现中了解这种处理⽅式。

In [10]:
def data_iter_consecutive(corpus_indices, batch_size, num_steps, device = None):
    if device is None:
        device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
    corpus_indices = torch.tensor(corpus_indices, dtype = torch.float32, device = device)
    data_len = len(corpus_indices)
    batch_len = data_len // batch_size
    indices = corpus_indices[0: batch_size * batch_len].view(batch_size, batch_len)
    epoch_size = (batch_len - 1) // num_steps
    for i in range(epoch_size):
        i = i * num_steps
        X = indices[:, i: i + num_steps]
        Y = indices[:, i + 1: i + num_steps + 1]
        yield X, Y

同样的设置下，打印相邻采样每次读取的⼩批量样本的输⼊`X`和标签`Y`。相邻的两个随机⼩批量在原始序列上的位置相毗邻。

In [11]:
for X, Y in data_iter_consecutive(my_seq, batch_size=2, num_steps = 6):
    print('X: ', X, '\nY:', Y, '\n')

X:  tensor([[ 0.,  1.,  2.,  3.,  4.,  5.],
        [15., 16., 17., 18., 19., 20.]]) 
Y: tensor([[ 1.,  2.,  3.,  4.,  5.,  6.],
        [16., 17., 18., 19., 20., 21.]]) 

X:  tensor([[ 6.,  7.,  8.,  9., 10., 11.],
        [21., 22., 23., 24., 25., 26.]]) 
Y: tensor([[ 7.,  8.,  9., 10., 11., 12.],
        [22., 23., 24., 25., 26., 27.]]) 



# 4 循环神经⽹络的从零开始实现

在本节中，我们将从零开始实现⼀个基于字符级循环神经⽹络的语⾔模型，并在周杰伦专辑歌词数据集
上训练⼀个模型来进⾏歌词创作。⾸先，我们读取周杰伦专辑歌词数据集：

In [12]:
import time
import math
import numpy as np
import torch
from torch import nn, optim
import torch.nn.functional as F

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

## 4.1 ONE-HOT向量

为了将词表示成向量输⼊到神经⽹络，⼀个简单的办法是使⽤one-hot向量。假设词典中不同字符的数
量为$N$（即词典⼤⼩`vocab_size`），每个字符已经同⼀个从0到$N-1$的连续整数值索引⼀⼀对应。
如果⼀个字符的索引是整数$i$, 那么我们创建⼀个全0的⻓为$N$的向量，并将其位置为$i$的元素设成1。该
向量就是对原字符的one-hot向量。下⾯分别展示了索引为0和2的one-hot向量，向量⻓度等于词典⼤
⼩。

In [13]:
def one_hot(x, n_class, dtype=torch.float32):
    x = x.long()
    res = torch.zeros(x.shape[0], n_class, dtype=dtype,device=x.device)
    res.scatter_(1, x.view(-1, 1), 1)
    return res

x = torch.tensor([0, 2])
one_hot(x, vocab_size)

tensor([[1., 0., 0.,  ..., 0., 0., 0.],
        [0., 0., 1.,  ..., 0., 0., 0.]])

我们每次采样的⼩批量的形状是(批量⼤⼩, 时间步数)。下⾯的函数将这样的⼩批量变换成数个可以输⼊进⽹络的形状为(批量⼤⼩, 词典⼤⼩)的矩阵，矩阵个数等于时间步数。也就是说，时间步$t$的输⼊为$\mathbf{X}_t\in\mathbb{R}^{n\times d}$，其中$n$为批量⼤⼩，$d$为输⼊个数，即one-hot向量⻓度（词典⼤⼩）。

In [14]:
def to_onehot(X, n_class):
    return [one_hot(X[:, i], n_class) for i in range(X.shape[1])]

X = torch.arange(10).view(2, 5)
inputs = to_onehot(X, vocab_size)
print(len(inputs), inputs[0].shape)

5 torch.Size([2, 1027])


## 4.2 初始化模型参数

接下来，我们初始化模型参数。隐藏单元个数`num_hiddens`是⼀个超参数。

In [15]:
num_inputs, num_hiddens, num_outputs = vocab_size, 256, vocab_size
print('will use', device)

def get_params():
    def _one(shape):
        ts = torch.tensor(np.random.normal(0, 0.01, size=shape),\
                          device=device, dtype=torch.float32)
        return torch.nn.Parameter(ts, requires_grad=True)
    # 隐藏层参数
    W_xh = _one((num_inputs, num_hiddens))
    W_hh = _one((num_hiddens, num_hiddens))
    b_h = torch.nn.Parameter(torch.zeros(num_hiddens,\
                        device=device, requires_grad=True))
    # 输出层参数
    W_hq = _one((num_hiddens, num_outputs))
    b_q = torch.nn.Parameter(torch.zeros(num_outputs,\
                                         device=device, requires_grad=True))
    return nn.ParameterList([W_xh, W_hh, b_h, W_hq, b_q])

will use cpu


## 4.3 定义模型

我们根据循环神经⽹络的计算表达式实现该模型。⾸先定义`init_rnn_state`函数来返回初始化的隐
藏状态。它返回由⼀个形状为(批量⼤⼩,隐藏单元个数)的值为0的`NDArray`组成的元组。使⽤元组是
为了更便于处理隐藏状态含有多个`NDArray`的情况。

In [16]:
def init_rnn_state(batch_size, num_hiddens, device):
    return (torch.zeros((batch_size, num_hiddens), device=device), )

下⾯的`rnn`函数定义了在⼀个时间步⾥如何计算隐藏状态和输出。这⾥的激活函数使⽤了tanh函数。
3.8节（多层感知机）中介绍过，当元素在实数域上均匀分布时， tanh函数值的均值为0。

In [17]:
def rnn(inputs, state, params):
    W_xh, W_hh, b_h, W_hq, b_q = params
    H, = state
    outputs = []
    for X in inputs:
        H = torch.tanh(torch.matmul(X, W_xh) + torch.matmul(H,W_hh) + b_h)
        Y = torch.matmul(H, W_hq) + b_q
        outputs.append(Y)
    return outputs, (H,)

做个简单的测试来观察输出结果的个数（时间步数），以及第⼀个时间步的输出层输出的形状和隐藏状
态的形状。

In [18]:
state = init_rnn_state(X.shape[0], num_hiddens, device)
inputs = to_onehot(X.to(device), vocab_size)
params = get_params()
outputs, state_new = rnn(inputs, state, params)
print(len(outputs), outputs[0].shape, state_new[0].shape)

5 torch.Size([2, 1027]) torch.Size([2, 256])


## 4.4 定义预测函数

以下函数基于前缀`prefix`（含有数个字符的字符串）来预测接下来的`num_chars`个字符。这个函数稍显复杂，其中我们将循环神经单元`rnn`设置成了函数参数，这样在后⾯⼩节介绍其他循环神经⽹络时能重复使⽤这个函数。

In [19]:
def predict_rnn(prefix, num_chars, rnn, params, init_rnn_state,
                num_hiddens, vocab_size, device, idx_to_char,
                char_to_idx):
    state = init_rnn_state(1, num_hiddens, device)
    output = [char_to_idx[prefix[0]]]
    for t in range(num_chars + len(prefix) - 1):
        # 将上⼀时间步的输出作为当前时间步的输⼊
        X = to_onehot(torch.tensor([[output[-1]]], device=device),vocab_size)
        # 计算输出和更新隐藏状态
        (Y, state) = rnn(X, state, params)
        # 下⼀个时间步的输⼊是prefix⾥的字符或者当前的最佳预测字符
        if t < len(prefix) - 1:
            output.append(char_to_idx[prefix[t + 1]])
        else:
            output.append(int(Y[0].argmax(dim=1).item()))
    return ''.join([idx_to_char[i] for i in output])

我们先测试⼀下`predict_rnn`函数。我们将根据前缀“分开”创作⻓度为10个字符（不考虑前缀⻓度）
的⼀段歌词。因为模型参数为随机值，所以预测结果也是随机的。

In [20]:
predict_rnn('分开', 10, rnn, params, init_rnn_state, num_hiddens,
            vocab_size,device, idx_to_char, char_to_idx)

'分开命宇片站伦飘属嘴残界'

## 4.5 裁剪梯度

循环神经⽹络中较容易出现梯度衰减或梯度爆炸。我们会在6.6节（通过时间反向传播）中解释原因。
为了应对梯度爆炸，我们可以裁剪梯度（clip gradient）。假设我们把所有模型参数梯度的元素拼接成
⼀个向量$\mathbf{g}$，并设裁剪的阈值是$\theta$。裁剪后的梯度
$$
\min\left(\frac{\theta}{\|\mathbf{g}\|},1\right)\mathbf{g}
$$
的$L_2$范数不超过$\theta$.

In [21]:
def grad_clipping(params, theta, device):
    norm = torch.tensor([0.0], device=device)
    for param in params:
        norm += (param.grad.data ** 2).sum()
    norm = norm.sqrt().item()
    if norm > theta:
        for param in params:
            param.grad.data *= (theta / norm)

## 4.6 困惑度

我们通常使⽤困惑度（perplexity）来评价语⾔模型的好坏。回忆⼀下3.4节（softmax回归）中交叉熵
损失函数的定义。困惑度是对交叉熵损失函数做指数运算后得到的值。特别地，
- 最佳情况下，模型总是把标签类别的概率预测为1，此时困惑度为1；
- 最坏情况下，模型总是把标签类别的概率预测为0，此时困惑度为正⽆穷；
- 基线情况下，模型总是预测所有类别的概率都相同，此时困惑度为类别个数

显然，任何⼀个有效模型的困惑必须⼩于类别个数。在本例中，困惑度必须⼩于词典⼤⼩`vocab_size`。

## 4.7 定义模型训练函数

跟之前章节的模型训练函数相⽐，这⾥的模型训练函数有以下⼏点不同：

1. 使⽤困惑度评价模型.
2. 在迭代模型参数前裁剪梯度
3. 对时序数据采⽤不同采样⽅法将导致隐藏状态初始化的不同。相关讨论可参考6.3节（语⾔模型数据集（周杰伦专辑歌词））。

另外，考虑到后⾯将介绍的其他循环神经⽹络，为了更通⽤，这⾥的函数实现更⻓⼀些。

In [32]:
def sgd(params, lr, batch_size):
    for param in params:
        param.data -= lr * param.grad / batch_size

def train_and_predict_rnn(rnn, get_params, init_rnn_state,
                          num_hiddens,ocab_size, device, corpus_indices,
                          idx_to_char,char_to_idx, is_random_iter, num_epochs,
                          num_steps,lr, clipping_theta, batch_size,
                          pred_period,pred_len, prefixes):
    if is_random_iter:
        data_iter_fn = data_iter_random
    else:
        data_iter_fn = data_iter_consecutive
    params = get_params()
    loss = nn.CrossEntropyLoss()
    for epoch in range(num_epochs):
        if not is_random_iter:
            # 如使⽤相邻采样，在epoch开始时初始化隐藏状态
            state = init_rnn_state(batch_size, num_hiddens, device)
        l_sum, n, start = 0.0, 0, time.time()
        data_iter = data_iter_fn(corpus_indices, batch_size,num_steps, device)
        for X, Y in data_iter:
            # 如使⽤随机采样，在每个⼩批量更新前初始化隐藏状态
            if is_random_iter:
                state = init_rnn_state(batch_size, num_hiddens,device)
            else:
                # 否则需要使⽤detach函数从计算图分离隐藏状态, 这是为了
                # 使模型参数的梯度计算只依赖⼀次迭代读取的⼩批量序列(防⽌梯度计算开销太⼤)
                for s in state:
                    s.detach_()
            inputs = to_onehot(X, vocab_size)
            # outputs有num_steps个形状为(batch_size, vocab_size)的矩阵
            (outputs, state) = rnn(inputs, state, params)
            # 拼接之后形状为(num_steps * batch_size, vocab_size)
            outputs = torch.cat(outputs, dim=0)
            # Y的形状是(batch_size, num_steps)，转置后再变成⻓度为
            # batch * num_steps 的向量，这样跟输出的⾏⼀⼀对应
            y = torch.transpose(Y, 0, 1).contiguous().view(-1)
            # 使⽤交叉熵损失计算平均分类误差
            print('output shape: ', outputs.shape, 'y shape: ', y.shape)
            l = loss(outputs, y.long())
            
            # 梯度清0
            if params[0].grad is not None:
                for param in params:
                    param.grad.data.zero_()
            l.backward()
            # 裁剪梯度
            grad_clipping(params, clipping_theta, device)
            # 因为误差已经取过均值，梯度不⽤再做平均
            sgd(params, lr, 1)
            l_sum += l.item() * y.shape[0]
            n += y.shape[0]
        
        if (epoch + 1) % pred_period == 0:
            print('epoch %d, perplexity %f, time %.2f sec' % (epoch + 1, math.exp(l_sum / n), time.time() - start))
            for prefix in prefixes:
                print(' -', predict_rnn(prefix, pred_len, rnn,
                     params, init_rnn_state,num_hiddens, vocab_size, 
                    device, idx_to_char,char_to_idx))

## 4.8 训练模型并创作歌词

现在我们可以训练模型了。⾸先，设置模型超参数。我们将根据前缀“分开”和“不分开”分别创作⻓度为
50个字符（不考虑前缀⻓度）的⼀段歌词。我们每过50个迭代周期便根据当前训练的模型创作⼀段歌
词。

In [28]:
num_epochs, num_steps, batch_size, lr, clipping_theta = 250, 35, 32, 1e2, 1e-2
pred_period, pred_len, prefixes = 50, 50, ['分开', '不分开']

下⾯采⽤随机采样训练模型并创作歌词。

In [33]:
train_and_predict_rnn(rnn, get_params, init_rnn_state, num_hiddens,
                      vocab_size, device, corpus_indices,idx_to_char,
                      char_to_idx, True, num_epochs, num_steps, lr,
                      clipping_theta, batch_size, pred_period,
                      pred_len,prefixes)

epoch 50, perplexity 70.019645, time 0.37 sec
 - 分开 我不要再 你的让我 泪有我 别怪我 一子我有 我不要再 你小我 别怪我 一子我 一子我 别你我 一
 - 不分开 快我的外 在小村人 我有我 别怪我 一子我有 我不要再 你的让我 泪你我 别怪我 一子我有 我不要
epoch 100, perplexity 10.258757, time 0.40 sec
 - 分开 有时在没有 谁人在 有皮箱 是属四动 一颗用双 在人村中 你一定空 如果不能 你不放空 我有不能 
 - 不分开柳 我爱你这想 你不可我 温我的外婆 你制在人 在小村外  有一定热昏 相在都美走 三人在停羞 蜥蝪
epoch 150, perplexity 2.792841, time 0.36 sec
 - 分开 有使在上心仪 它哼哈兮 如果我有轻功 飞檐哈壁 是一耿练 如果我碰 你是上看痛气 后知后觉 又过我
 - 不分开扫 我后你看 你你我妈太这样 我只就这样牵着你的手不放开 爱可不能够永远单纯没有悲哀 我 想带你骑单
epoch 200, perplexity 1.539005, time 0.46 sec
 - 分开 一使用双心仪 哼哼哈兮 如果我有轻功 飞檐走壁 为人耿直不屈 一身正气 快使用双截棍 哼哼哈兮 快
 - 不分开期 我后你爸 你打我妈 这样对 干墟堂 什么了明信片的铁盒里藏著一片玫瑰花瓣 黄金葛爬满了雕花的门窗
epoch 250, perplexity 1.303682, time 0.37 sec
 - 分开 出使用双分 二慢温满天 一朵在角落 蜥什么不妥 这话什么奇怪的事都有 包括像猫的狗 印地安老斑鸠 
 - 不分开扫 我叫你爸  我跟回你 那场悲剧 是你完美演出的一场戏 宁愿心碎过泣 再狠狠忘记 你爱过人的证 心


# 5 循环神经⽹络的简洁实现

# 6 通过时间反向传播

在前⾯两节中，如果不裁剪梯度，模型将⽆法正常训练。为了深刻理解这⼀现象，本节将介绍循环神经
⽹络中梯度的计算和存储⽅法，即通过时间反向传播（back-propagation through time）。

我们在3.14节（正向传播、反向传播和计算图）中介绍了神经⽹络中梯度计算与存储的⼀般思路，并强
调正向传播和反向传播相互依赖。正向传播在循环神经⽹络中⽐较直观，⽽通过时间反向传播其实是反
向传播在循环神经⽹络中的具体应⽤。我们需要将循环神经⽹络按时间步展开，从⽽得到模型变量和参
数之间的依赖关系，并依据链式法则应⽤反向传播计算并存储梯度。

## 6.1 定义模型

简单起⻅，我们考虑⼀个⽆偏差项的循环神经⽹络，且激活函数为恒等映射（$\phi(x)=x$）。设时间步$t$的输⼊为单样本$\mathbf{x}_t\in\mathbb{R}^d$，标签为$\mathbf{y}_t$，那么隐藏状态$\mathbf{h}_t\in\mathbb{R}^h$的计算表达式为
$$
\mathbf{h}_t=\mathbf{W}_{hx}\mathbf{x}_t+\mathbf{W}_{hh}\mathbf{h}_{t-1},\ \ \ \ \ \ \ \ (34)
$$
其中$\mathbf{W}_{hx}\in\mathbb{R}^{h\times d}$和$\mathbf{W}_{hh}\in\mathbb{R}^{h\times h}$是隐藏层权᯿参数。设输出层权重参数$\mathbf{W}_{qh}\in\mathbb{R}^{q\times h}$，时间步$t$的输
出层变量$\mathbf{o}_t\in\mathbb{R}^q$计算为
$$
\mathbf{o}_t=\mathbf{W}_{qh}\mathbf{h}_t.\ \ \ \ \ \ \ \ \ \ \ (35)
$$
设时间步$t$的损失为$l(\mathbf{o}_t,\mathbf{y}_t)$。时间步数为$T$的损失函数$L$定义为
$$
L=\frac{1}{L}\sum\limits_{t=1}^Tl(\mathbf{o}_t,\mathbf{y}_t).\ \ \ \ \ \ \ \ \ \ \ (36)
$$
我们将$L$称为有关给定时间步的数据样本的⽬标函数，并在本节后续讨论中简称为⽬标函数。

## 6.2 模型计算图

为了可视化循环神经⽹络中模型变量和参数在计算中的依赖关系，我们可以绘制模型计算图，如图6.3
所示。例如，时间步3的隐藏状态$\mathbf{h}_3$的计算依赖模型参数$\mathbf{W}_{hx}$、$\mathbf{W}_{hh}$、上⼀时间步隐藏状态$\mathbf{h}_2$以及当前时间步输⼊$\mathbf{x}_3$。
<img src="./figs/rnn_2.png" width="500px"/>

## 6.3 ⽅法

刚刚提到，图6.3中的模型的参数是$\mathbf{W}_{hx}$, $\mathbf{W}_{hh}$和$\mathbf{W}_{qh}$。与3.14节（正向传播、反向传播和计算图）中的类似，训练模型通常需要模型参数的梯度$\partial \mathbf{L}/\partial \mathbf{W}_{hx}$、$\partial \mathbf{L}/\partial \mathbf{W}_{hh}$和$\partial \mathbf{L}/\partial \mathbf{W}_{qh}$。 根据图6.3中的依赖关系，我们可以按照其中箭头所指的反⽅向依次计算并存储梯度。为了表述⽅便，我们依然采⽤3.14节中表达链式法则的运算符prod。

⾸先，⽬标函数有关各时间步输出层变量的梯度$\partial \mathbf{L}/\partial \mathbf{o}_t\in\mathbb{R}^q$很容易计算：
$$
\frac{\partial \mathbf{L}}{\partial\mathbf{o}_t}=\frac{\partial l(\mathbf{o}_t,\mathbf{y}_t)}{T\cdot\partial\mathbf{o}_t}.
$$

下⾯，我们可以计算⽬标函数有关模型参数$\mathbf{W}_{qh}$的梯度$\partial \mathbf{L}/\partial \mathbf{W}_{qh}\in\mathbb{R}^{q\times h}$。根据图6.3，$\mathbf{L}$通过$\mathbf{o}_1,\dots,\mathbf{o}_T$依赖$\mathbf{W}_{qh}$。依据链式法则，
$$
\frac{\partial \mathbf{L}}{\partial \mathbf{W}_{qh}}=\sum\limits_{t=1}^T prod\left(\frac{\partial \mathbf{L}}{\partial \mathbf{o}_t},\frac{\partial \mathbf{o}_t}{\partial\mathbf{W}_{qh}}\right)=\sum\limits_{t=1}^T\frac{\partial\mathbf{L}}{\partial \mathbf{o}_t}\mathbf{h}_t^{\top}.\ \ \ \ \ \ \ \ \ \ \ \ (37)
$$

其次，我们注意到隐藏状态之间也存在依赖关系。 在图6.3中，$\mathbf{L}$只通过$\mathbf{o}_T$依赖最终时间步$T$的隐藏状态$\mathbf{h}_T$。因此，我们先计算⽬标函数有关最终时间步隐藏状态的梯度$\partial\mathbf{L}/\partial\mathbf{h}_T\in\mathbb{R}^h$。依据链式法则，我们得到
$$
\frac{\partial\mathbf{L}}{\partial\mathbf{h}_T}=prod\left(\frac{\partial\mathbf{L}}{\partial\mathbf{o}_T},\frac{\partial\mathbf{L}}{\partial\mathbf{h}_T}\right)=\mathbf{W}_{qh}^{\top}\frac{\partial\mathbf{L}}{\partial\mathbf{o}_T}.\ \ \ \ \ \ \ \ \ \ \ \ \ \ (38)
$$

接下来对于时间步$t<T$, 在图6.3中，$\mathbf{L}$通过$\mathbf{h}_{t+1}$和$\mathbf{h}_t$依赖 。依据链式法则，⽬标函数有关时间步$t<T$的隐藏状态的梯度$\partial\mathbf{L}/\partial\mathbf{h}_t\in\mathbb{R}^h$需要按照时间步从⼤到⼩依次计算：
$$
\frac{\partial\mathbf{L}}{\partial\mathbf{h}_t}=prod\left(\frac{\partial\mathbf{L}}{\partial\mathbf{h}_{t+1}},\frac{\partial\mathbf{h}_{t+1}}{\partial\mathbf{h}_t}\right)+prod\left(\frac{\partial\mathbf{L}}{\partial\mathbf{o}_t},\frac{\partial\mathbf{o}_t}{\partial\mathbf{h}_t}\right)=\mathbf{W}_{hh}^{\top}\frac{\partial\mathbf{L}}{\partial\mathbf{h}_{t+1}}+\mathbf{W}_{qh}^{\top}\frac{\partial\mathbf{L}}{\partial\mathbf{o}_t}\ \ \ \ \ \ \ \ \ \ \ \ (39)
$$

将上⾯的递归公式展开，对任意时间步$1\leq t\leq T$，我们可以得到⽬标函数有关隐藏状态梯度的通项公式
$$
\frac{\partial\mathbf{L}}{\partial \mathbf{h}_t}=\sum\limits_{i=t}^T(\mathbf{W}_{hh}^{\top})^{T-i}\mathbf{W}_{qh}^{\top}\frac{\partial\mathbf{L}}{\partial\mathbf{o}_{T+t-i}}.\ \ \ \ \ \ \ \ \ \ (40)
$$

由上式中的指数项可⻅，当时间步数$T$较⼤或者时间步$t$较⼩时，⽬标函数有关隐藏状态的梯度较容易出现衰减和爆炸。这也会影响其他包含$\partial\mathbf{L}/\partial\mathbf{h}_t$项的梯度，例如隐藏层中模型参数的梯度$\partial\mathbf{L}/\partial\mathbf{W}_{hx}\in\mathbb{R}^{h\times d}$和$\partial\mathbf{L}/\partial\mathbf{W}_{hh}\in\mathbb{R}^{h\times h}$。在图6.3中，$\mathbf{L}$通过$\mathbf{h}_1,\dots,\mathbf{h}_T$依赖这些模型参数。依据链式法则，我们有
$$
\begin{split}
\frac{\partial\mathbf{L}}{\partial\mathbf{W}_{hx}}&=\sum\limits_{t=1}^Tprod\left(\frac{\partial\mathbf{L}}{\partial\mathbf{h}_t},\frac{\partial\mathbf{h}_t}{\partial\mathbf{W}_{hx}}\right)=\sum\limits_{t=1}^T\frac{\partial\mathbf{L}}{\partial\mathbf{h}_t}\mathbf{x}_t^{\top},\\
{\partial\mathbf{W}_{hh}}&=\sum\limits_{t=1}^Tprod\left(\frac{\partial\mathbf{L}}{\partial\mathbf{h}_t},\frac{\partial\mathbf{h}_t}{\partial\mathbf{W}_{hh}}\right)=\sum\limits_{t=1}^T\frac{\partial\mathbf{L}}{\partial\mathbf{h}_t}\mathbf{h}_{t-1}^{\top}.
\end{split}
$$

我们已在3.14节⾥解释过，每次迭代中，我们在依次计算完以上各个梯度后，会将它们存储起来，从⽽避免᯿复计算。例如，由于隐藏状态梯度$\partial\mathbf{L}/\partial\mathbf{h}_t$被计算和存储，之后的模型参数梯度$\partial\mathbf{L}/\partial\mathbf{W}_{hx}$和$\partial\mathbf{L}/\partial\mathbf{W}_{hh}$的计算可以直接读取$\partial\mathbf{L}/\partial\mathbf{h}_t$的值，⽽⽆须重复计算它们。此外，反向传播中的梯度计算可能会依赖变量的当前值。它们正是通过正向传播计算出来的。 举例来说，参数梯度$\partial\mathbf{L}/\partial\mathbf{W}_{hh}$的计算需要依赖隐藏状态在时间步$t=0,\dots,T-1$的当前值$\mathbf{h}_t$（$\mathbf{h}_0$是初始化得到的）。这些值是通过从输⼊层到输出层的正向传播计算并存储得到的。

# 7 ⻔控循环单元（GRU）

上⼀节介绍了循环神经⽹络中的梯度计算⽅法。我们发现，当时间步数较⼤或者时间步较⼩时，循环神
经⽹络的梯度较容易出现衰减或爆炸。虽然裁剪梯度可以应对梯度爆炸，但⽆法解决梯度衰减的问题。
通常由于这个原因，循环神经⽹络在实际中较难捕捉时间序列中时间步距离较⼤的依赖关系。

⻔控循环神经⽹络（gated recurrent neural network）的提出，正是为了更好地捕捉时间序列中时间
步距离较⼤的依赖关系。它通过可以学习的⻔来控制信息的流动。其中，⻔控循环单元（ gated
recurrent unit， GRU）是⼀种常⽤的⻔控循环神经⽹络 [1, 2]。另⼀种常⽤的⻔控循环神经⽹络则将在
下⼀节中介绍。

## 7.1 ⻔控循环单元

下⾯将介绍⻔控循环单元的设计。它引⼊了᯿置⻔（reset gate）和更新⻔（update gate）的概念，
从⽽修改了循环神经⽹络中隐藏状态的计算⽅式。

如图6.4所示，⻔控循环单元中的重置⻔和更新⻔的输⼊均为当前时间步输⼊$\mathbf{X}_t$与上⼀时间步隐藏状态$\mathbf{H}_{t-1}$，输出由激活函数为sigmoid函数的全连接层计算得到。
<img src="./figs/rnn_3.png" width="500px"/>

具体来说，假设隐藏单元个数为$h$，给定时间步$t$的⼩批量输⼊$\mathbf{X}_t\in\mathbb{R}^{n\times d}$（样本数为$n$，输⼊个数为$d$）和上⼀时间步隐藏状态$\mathbf{H}_{t-1}\in\mathbb{R}^{n\times h}$。重置⻔$\mathbf{R}_t\mathbb{n\times h}$和更新⻔$\mathbf{Z}_t\in\mathbb{R}^{n\times h}$的计算如下：
$$
\begin{split}
\mathbf{R}_t&=\sigma(\mathbf{X}_t\mathbf{W}_{xr}+\mathbf{H}_{t-1}\mathbf{W}_{hr}+\mathbf{b}_r),\\
\mathbf{Z}_t&=\sigma(\mathbf{X}_t\mathbf{W}_{xz}+\mathbf{H}_{t-1}\mathbf{W}_{hz}+\mathbf{b}_r),
\end{split}
$$
其中$\mathbf{W}_{xr},\mathbf{W}_{xz}\in\mathbb{R}^{d\times h}$和$\mathbf{W}_{hr},\mathbf{W}_{hz}\in\mathbb{R}^{h\times h}$是权重参数，$\mathbf{b}_r,\mathbf{b}_z\in\mathbf{R}^{1\times h}$是偏差参数。 3.8节（多层感知机）节中介绍过， sigmoid函数可以将元素的值变换到0和1之间。因此，重置⻔$\mathbf{R}_t$和更新⻔$\mathbf{Z}_t$中每个元素的值域都是[0,1]。

接下来，⻔控循环单元将计算候选隐藏状态来辅助稍后的隐藏状态计算。如图6.5所示，我们将当前时
间步᯿置⻔的输出与上⼀时间步隐藏状态做按元素乘法（符号为$\odot$）。如果重置⻔中元素值接近0，那
么意味着重置对应隐藏状态元素为0，即丢弃上⼀时间步的隐藏状态。如果元素值接近1，那么表示保留
上⼀时间步的隐藏状态。然后，将按元素乘法的结果与当前时间步的输⼊连结，再通过含激活函数tanh
的全连接层计算出候选隐藏状态，其所有元素的值域为[-1,1]。

<img src="./figs/rnn_4.png" width="400px"/>

具体来说，时间步$t$的候选隐藏状态$\tilde{\mathbf{H}}_t\in\mathbb{R}^{n\times h}$的计算为
$$
\tilde{\mathbf{H}}_t=\tanh(\mathbf{X}_t\mathbf{W}_{xh}+(\mathbf{R}_t\odot\mathbf{H}_{t-1})\mathbf{W}_{hh}+\mathbf{b}_h),
$$
其中$\mathbf{W}_{xh}\in\mathbb{R}^{d\times h}$和$\mathbf{W}_{hh}\in\mathbb{R}^{h\times h}$是权重参数，$\mathbf{b}_h\in\mathbb{R}^{1\times h}$是偏差参数。从上⾯这个公式可以看出，
重置⻔控制了上⼀时间步的隐藏状态如何流⼊当前时间步的候选隐藏状态。⽽上⼀时间步的隐藏状态可
能包含了时间序列截⾄上⼀时间步的全部历史信息。因此，重置⻔可以⽤来丢弃与预测⽆关的历史信
息。

最后，时间步$t$的隐藏状态$\mathbf{H}_t\in\mathbb{R}^{n\times h}$的计算使⽤当前时间步的更新⻔$\mathbf{Z}_t$来对上⼀时间步的隐藏状态$\mathbf{H}_{t-1}$和当前时间步的候选隐藏状态$\tilde{\mathbf{H}}_t$做组合：
$$
\mathbf{H}_t=\mathbf{Z}_t\odot\mathbf{H}_{t-1}+(1-\mathbf{Z}_t)\odot\tilde{\mathbf{H}}_t.
$$

<img src="./figs/rnn_5.png" width="500px"/>

值得注意的是，更新⻔可以控制隐藏状态应该如何被包含当前时间步信息的候选隐藏状态所更新，如图
6.6所示。假设更新⻔在时间步$t'$到$t$（$t'<t$）之间⼀直近似1。那么，在时间步$t'$到$t$之间的输⼊信息⼏乎没有流⼊时间步$t$的隐藏状态$\mathbf{H}_t$。实际上，这可以看作是较早时刻的隐藏状态$\mathbf{H}_{t'-1}$⼀直通过时间保存并传递⾄当前时间步$t$。这个设计可以应对循环神经⽹络中的梯度衰减问题，并更好地捕捉时间序列中时间步距离较⼤的依赖关系。

我们对⻔控循环单元的设计稍作总结：
- 重置⻔有助于捕捉时间序列⾥短期的依赖关系；
- 更新⻔有助于捕捉时间序列⾥⻓期的依赖关系。

# 8 ⻓短期记忆（LSTM）

本节将介绍另⼀种常⽤的⻔控循环神经⽹络：⻓短期记忆（long short-term memory， LSTM） [1]。它
⽐⻔控循环单元的结构稍微复杂⼀点。

## 8.1 ⻓短期记忆

LSTM 中引⼊了3个⻔，即输⼊⻔（ input gate）、遗忘⻔（ forget gate）和输出⻔（ output
gate），以及与隐藏状态形状相同的记忆细胞（某些⽂献把记忆细胞当成⼀种特殊的隐藏状态），从⽽
记录额外的信息。

与⻔控循环单元中的重置⻔和更新⻔⼀样，如图6.7所示，⻓短期记忆的⻔的输⼊均为当前时间步输⼊$\mathbf{X}_t$与上⼀时间步隐藏状态$\mathbf{H}_{t-1}$，输出由激活函数为sigmoid函数的全连接层计算得到。如此⼀来，这3个⻔元素的值域均为[0,1]。

<img src="./figs/rnn_6.png" width="500px"/>

具体来说，假设隐藏单元个数为$h$，给定时间步$t$的⼩批量输⼊$\mathbf{X}_t\in\mathbb{R}^{n\times d}$（样本数为$n$，输⼊个数为$d$）和上⼀时间步隐藏状态$\mathbf{H}_{t-1}\in\mathbb{R}^{n\times h}$。 时间步$t$的输⼊⻔$\mathbf{I}_t\in\mathbb{R}^{n\times h}$、遗忘⻔$\mathbf{F}_t\in\mathbb{R}^{n\times h}$和输出⻔$\mathbf{O}_t\in\mathbb{R}^{n\times h}$分别计算如下：
$$
\begin{split}
\mathbf{I}_t&=\sigma(\mathbf{X}_t\mathbf{W}_{xi}+\mathbf{H}_{t-1}\mathbf{W}_{hi}+\mathbf{b}_i),\\
\mathbf{F}_t&=\sigma(\mathbf{X}_t\mathbf{W}_{xf}+\mathbf{H}_{t-1}\mathbf{W}_{hf}+\mathbf{b}_f)\\
\mathbf{O}_t&=\sigma(\mathbf{X}_t\mathbf{W}_{xo}+\mathbf{H}_{t-1}\mathbf{W}_{ho}+\mathbf{b}_o),
\end{split}
$$
其中的$\mathbf{W}_{xi},\mathbf{W}_{xf},\mathbf{W}_{xo}\in\mathbb{R}^{d\times h}$和$\mathbf{W}_{hi},\mathbf{W}_{hf},\mathbf{W}_{ho}\in\mathbb{R}^{h\times h}$是权重参数，$\mathbf{b}_i,\mathbf{b}_f,\mathbf{b}_o\in\mathbf{R}^{1\times h}$是偏差参数。

接下来，⻓短期记忆需要计算候选记忆细胞$\tilde{\mathbf{C}}_t$。它的计算与上⾯介绍的3个⻔类似，但使⽤了值域在[-1,1]的tanh函数作为激活函数，如图6.8所示。

<img src="./figs/rnn_7.png" width="500px"/>

具体来说，时间步$t$的候选记忆细胞$\tilde{\mathbf{C}}_t\in\mathbb{R}^{n\times h}$的计算为
$$
\tilde{\mathbf{C}}_t=\tanh(\mathbf{X}_t\mathbf{W}_{xc}+\mathbf{H}_{t-1}\mathbf{W}_{hc}+\mathbf{b}_c),\ \ \ \ \ \ \ \ \ (41)
$$
其中$\mathbf{W}_{xc}\in\mathbb{R}^{d\times h}$和$\mathbf{W}_{hc}\in\mathbb{R}^{h\times h}$是权重参数，$\mathbf{b}_{c}\in\mathbb{R}^{1\times h}$是偏差参数。

我们可以通过元素值域在[0,1]的输⼊⻔、遗忘⻔和输出⻔来控制隐藏状态中信息的流动，这⼀般也是通
过使⽤按元素乘法（符号为$\odot$）来实现的。当前时间步记忆细胞$\mathbf{C}_t\in\mathbb{R}^{n\times h}$的计算组合了上⼀时间步记忆细胞和当前时间步候选记忆细胞的信息，并通过遗忘⻔和输⼊⻔来控制信息的流动：
$$
\mathbf{C}_t=\mathbf{F}_t\odot\mathbf{C}_{t-1}+\mathbf{I}_t\odot\tilde{\mathbf{C}}_t.
$$

如图6.9所示，遗忘⻔控制上⼀时间步的记忆细胞$\mathbf{C}_{t-1}$中的信息是否传递到当前时间步，⽽输⼊⻔则控制当前时间步的输⼊$\mathbf{X}_t$通过候选记忆细胞$\tilde{\mathbf{C}}_t$如何流⼊当前时间步的记忆细胞。如果遗忘⻔⼀直近似1且输⼊⻔⼀直近似0，过去的记忆细胞将⼀直通过时间保存并传递⾄当前时间步。这个设计可以应对循环神经⽹络中的梯度衰减问题，并更好地捕捉时间序列中时间步距离较⼤的依赖关系。

<img src="./figs/rnn_8.png" width="500px"/>

有了记忆细胞以后，接下来我们还可以通过输出⻔来控制从记忆细胞到隐藏状态$\mathbf{H}_t\in\mathbb{R}^{n\times h}$的信息的流动：
$$
\mathbf{H}_t=\mathbf{O}_t\odot\tanh(\mathbf{C}_t).
$$

这⾥的tanh函数确保隐藏状态元素值在-1到1之间。需要注意的是，当输出⻔近似1时，记忆细胞信息将
传递到隐藏状态供输出层使⽤；当输出⻔近似0时，记忆细胞信息只⾃⼰保留。图6.10展示了⻓短期记
忆中隐藏状态的计算。

<img src="./figs/rnn_9.png" width="500px"/>