# 6.7 门控循环单元（GRU）

上一节介绍了循环神经网络中的梯度计算方法。我们发现，当时间步数较大或者时间步较小时，循环神经网络的梯度较容易出现衰减或爆炸。虽然裁剪梯度可以应对梯度爆炸，但无法解决梯度衰减的问题。通常由于这个原因，循环神经网络在实际中较难捕捉时间序列中时间步距离较大的依赖关系。

门控循环神经网络（gated recurrent neural network）的提出，正是为了更好地捕捉时间序列中时间步距离较大的依赖关系。它通过可以学习的门来控制信息的流动。其中，门控循环单元（gated recurrent unit，GRU）是一种常用的门控循环神经网络 [1, 2]。

## 6.7.1 门控循环单元

它引入了重置门（reset gate）和更新门（update gate）的概念，从而修改了循环神经网络中隐藏状态的计算方式。

如图6.4所示，门控循环单元中的重置门和更新门的输入均为当前时间步输入$X_t$与上一时间步隐藏状态$H_{t−1}$，输出由激活函数为sigmoid函数的全连接层计算得到。

![Snipaste_2020-10-03_19-06-51.png](attachment:Snipaste_2020-10-03_19-06-51.png)

具体来说，假设隐藏单元个数为$h$，给定时间步$t$的小批量输入$X_t \in \mathbb R^{n×d}$（样本数为$n$，输入个数为$d$）和上一时间步隐藏状态$H_{t-1}\in \mathbb R^{n \times h}$。重置门$R_t \in \mathbb R^{n×h}$和更新门$Z_t \in \mathbb R^{n×h}$的计算如下：

$$R_t=\sigma (X_t W_{xr}+H_{t-1}W_{hr}+b_r)$$

$$Z_t=\sigma (X_t W_{xz}+H_{t-1}W_{hz}+b_z)$$

其中$W_{xr}$,$W_{xz} \in \mathbb R^{d×h}$和$W_{hr},W_{hz}\in \mathbb R^{h×h}$是权重参数,$b_r$,$b_z \in \mathbb R^{1×h}$是偏差参数。3.8节（多层感知机）节中介绍过，sigmoid函数可以将元素的值变换到0和1之间。因此，重置门$R_t$和更新门$Z_t$中每个元素的值域都是[0,1]。

### 6.7.1.2 候选隐藏状态

接下来，门控循环单元将计算候选隐藏状态来辅助稍后的隐藏状态计算。如图6.5所示，我们将当前时间步重置门的输出与上一时间步隐藏状态做按元素乘法（符号为⊙）。如果重置门中元素值接近0，那么意味着重置对应隐藏状态元素为0，即丢弃上一时间步的隐藏状态。如果元素值接近1，那么表示保留上一时间步的隐藏状态。然后，将按元素乘法的结果与当前时间步的输入连结，再通过含激活函数tanh的全连接层计算出候选隐藏状态，其所有元素的值域为[−1,1]。

![Snipaste_2020-10-03_19-39-26.png](attachment:Snipaste_2020-10-03_19-39-26.png)

其中$W_{xh}\in \mathbb R^{d×h}$和$W_{hh}\in \mathbb R^{h×h}$是权重参数，$b_h \in \mathbb R^{1×h}是偏差参数。从上面这个公式可以看出，重置门控制了上一时间步的隐藏状态如何流入当前时间步的候选隐藏状态。而上一时间步的隐藏状态可能包含了时间序列截至上一时间步的全部历史信息。因此，重置门可以用来丢弃与预测无关的历史信息。

### 6.7.1.3 隐藏状态

最后，时间步$t$的隐藏状态$H_t \in \mathbb R^{n×h}$的计算使用当前时间步的更新门$Z_t$来对上一时间步的隐藏状态$H_{t−1}$和当前时间步的候选隐藏状态$\hat H_t$做组合：
$$H_t=Z_t\odot H_{t-1}+(1-Z_t)\odot \hat H_t$$

![Snipaste_2020-10-03_19-49-40.png](attachment:Snipaste_2020-10-03_19-49-40.png)

值得注意的是，更新门可以控制隐藏状态应该如何被包含当前时间步信息的候选隐藏状态所更新，如图6.6所示。假设更新门在时间步$t'$到$t$(t′<t)之间一直近似1。那么，在时间步$t'$到$t$之间的输入信息几乎没有流入时间步$t$的隐藏状态$H_t$。实际上，这可以看作是较早时刻的隐藏状态$H_{t'-1}$一直通过时间保存并传递至当前时间步$t$。这个设计可以应对循环神经网络中的梯度衰减问题，并更好地捕捉时间序列中时间步距离较大的依赖关系。

我们对门控循环单元的设计稍作总结：

* 重置门有助于捕捉时间序列里短期的依赖关系；
* 更新门有助于捕捉时间序列里长期的依赖关系。

## 6.7.2 读取数据集

In [3]:
#使用周杰伦歌词数据集训练模型作词

import numpy as np
import torch
from torch import nn,optim
import torch.nn.functional as F

import sys
sys.path.append("..")
import d2lzh_pytorch as d2l
device=torch.device('cuda' if torch.cuda.is_available()else 'cpu')

(corpus_indices,char_to_idx,idx_to_char,vocab_size)=d2l.load_data_jay_lyrics()

## 6.7.3 从零开始实现

### 6.7.3.1 初始化模型参数

In [4]:
#num_hiddens隐藏单元个数
num_inputs,num_hiddens,num_outputs=vocab_size,256,vocab_size
print('will use',device)

def get_params():
    def _one(shape):
        ts=torch.tensor(np.random.normal(0,0.01,size=shape),device=device,dtype=torch.float32)
        return torch.nn.Parameter(ts,requires_grad=True)
    def _three():
        return (_one((num_inputs,num_hiddens)),
                _one((num_hiddens,num_hiddens)),
                torch.nn.Parameter(torch.zeros(num_hiddens,device=device,dtype=torch.float32),requires_grad=True))
    W_xz,W_hz,b_z=_three() #更新门参数
    W_xr,W_hr,b_r=_three() #重置门参数
    W_xh,W_hh,b_h=_three() #候选隐藏状态参数
    
    #输出层参数
    W_hq=_one((num_hiddens,num_outputs))
    b_q=torch.nn.Parameter(torch.zeros(num_output,device=device,dtype=torch.float32),requires_grad=True)
    return nn.ParameterList([W_xz,W_hz,b_z,W_xr,W_hr,b_r,W_xh,W_hh,b_h,W_hq,b_q])

will use cpu


### 6.7.3.2 定义模型

定义隐藏状态初始化函数init_gru_state。同6.4节（循环神经网络的从零开始实现）中定义的init_rnn_state函数一样，它返回由一个形状为(批量大小, 隐藏单元个数)的值为0的Tensor组成的元组。

In [5]:
def init_gru_state(batch_size,num_hiddens,device):
    return (torch.zeros((batch_size,num_hiddens),device=device),)

In [6]:
def gru(inputs,state,params):
    W_xz,W_hz,b_z,W_xr,W_hr,b_r,W_xh,W_hh,b_h,W_hq,b_q=params
    H,=state
    outputs=[]
    for X in inputs:
        Z=torch.sigmoid(torch.matmul(X,W_xz)+torch.matmul(H,W_hz)+b_z)#更新门
        R=torch.sigmoid(torch.matmul(X,W_xr)+torch.matmul(H,W_hr)+b_r)#重置门
        H_tilda=torch.tanh(torch.matmul(X,W_xh)+torch.matmul(R*H,W_hh)+b_h)#候选隐藏状态参数
        H=Z*H+(1-Z)*H_tilda#隐藏状态参数
        Y=torch.matmul(H,W_hq)+b_q
        outputs.append(Y)
    return outputs,(H,)
        

### 6.7.3.3 训练模型并创作歌词

我们在训练模型时只使用相邻采样。设置好超参数后，我们将训练模型并根据前缀“分开”和“不分开”分别创作长度为50个字符的一段歌词。

In [9]:
num_epochs,num_steps,batch_size,lr,clipping_theta=160,35,32,1e2,1e-2
pred_period,pred_len,prefixes=40,50,['分开','不分开']

In [None]:
# 每过40个迭代周期便根据当前训练的模型创作一段歌词。

d2l.train_and_predict_rnn(gru,get_params,init_gru_state,num_hiddens,
                         vocaab_size,device,corpus_indices,idx_to_char,
                         char_to_idx,False,num_epochs,num_steps,lr,
                         clipping_theta,batch_size,pred_period,pred_len,
                         prefixes)

## 6.7.4 简洁实现

In [None]:
#直接调用nn模块的GRU类
lr=1e-2
gru_layer=nn.GRU(input_size=vocab_size,hidden_size=num_hiddens)
model=d2l.RNNModel(gru_layer,vocab_size).to(device)
d2l.train_and_predict_rnn(gru,get_params,init_gru_state,num_hiddens,
                         vocaab_size,device,corpus_indices,idx_to_char,
                         char_to_idx,False,num_epochs,num_steps,lr,
                         clipping_theta,batch_size,pred_period,pred_len,
                         prefixes)

参考文献

[1] Cho, K., Van Merriënboer, B., Bahdanau, D., & Bengio, Y. (2014). On the properties of neural machine translation: Encoder-decoder approaches. arXiv preprint arXiv:1409.1259.

[2] Chung, J., Gulcehre, C., Cho, K., & Bengio, Y. (2014). Empirical evaluation of gated recurrent neural networks on sequence modeling. arXiv preprint arXiv:1412.3555.