# **门控循环单元GRU**

梯度裁剪可以有效地解决神经网络梯度爆炸的问题，但是往往无法解决梯度衰减的问题。梯度衰减回导致后面的时间步难以捕捉和较前时间步的联系    
    
**门控神经单元GRU**是为了更好的捕捉序列中时间步距离较大时的依赖关系，通过学习的门在控制信息的流动

## **GRU**

### **重置门和更新门**

<div align=center>
<img width="500" src="../image/6.7_gru_1.svg"/>
</div>
<div align=center>图6.4 门控循环单元中重置门和更新门的计算</div>

GRU引入了重置门和更新门两个概念，修改了循环神经网络内部的计算方式      
门控神经网络的重置门和更新门的输入都是上一步的隐藏状态$\boldsymbol H_{t-1}$和当前时间步的输入$\boldsymbol X_t$,而输出由激活函数为sigmoid的全连接层得到

假设隐藏单元的个数为$h$，给定时间步$t$的小批量输入为$X_t \in \mathbb R^{n \times d}$($n$是样本数, $d$是向量长度); 上一个时间步的隐藏状态为
$H_{t-1} \in \mathbb R^{n \times h}$。       
那么重置门的输出$R_t \in \mathbb R^{n \times h}$和更新门的输出为$Z_t \in \mathbb R^{n \times h}$计算过程为

$\begin{aligned}
\boldsymbol R_t = \sigma(X_tW_{xr} + H_{t-1}W_{hr} + b_r)\\
\boldsymbol Z_t = \sigma(X_tW_{xz} + H_{t-1}W_{hz} + b_z)
\end{aligned}$

其中$W_{xr}, W_{xz} \in \mathbb R^{d \times h}$，而$W_{hr}, W_{hz} \in \mathbb R^{h \times h}$,重置门和更新门的每一个元素的值域都是$[0, 1]$

### **候选隐藏状态的计算**

<div align=center>
<img width="500" src="../image/6.7_gru_2.svg"/>
</div>
<div align=center>图6.5 门控循环单元中候选隐藏状态的计算</div>

- 将上一时间步的隐藏状态和重置门做元素乘法，如果重置门接近于0那么就是丢弃当前元素，如果重置门接近于1，那么就是保留当前元素
- 上一步计算的结果和本时间步的输入连接，再通过激活函数为tanh的全连接层输出候选隐藏妆台

时间步$t$的候选隐藏状态$\tilde H_t \in \mathbb R^{n \times h}$的计算过程为

$\tilde H_t = tanh(X_tW_{xh} + (R_t \odot H_{t-1})W_{hh} + b_h)$

重置门控制了上一步的隐藏状态以何种形式流入当前的的候选隐藏状态，**重置门用来丢弃和预测无关的信息**

### **隐藏状态**

最终隐藏状态的计算的输入为更新门的输出$Z_t$,上一步的隐藏状态$H_{t-1}$,候选隐藏状态$\tilde H_t$

$H_t = Z_t \odot H_{t-1} + (1 - Z_t)\odot \tilde H_t$

更新门可以控制隐藏状态应该如何被包含当前时间步输入信息的候选隐藏状态所更新。如果更新门的数值一直为1的话，那么当前输入就不会进入到输出的隐藏状态中，这可以被看作是较早的隐藏状态一直保存到当前步，能够有效的应对梯度衰减的问题

<div align=center>
<img width="500" src="../image/6.7_gru_3.svg"/>
</div>
<div align=center>图6.6 门控循环单元中隐藏状态的计算</div>

总结下来就是：    
- 重置门有利于捕捉时间序列的短期依赖关系
- 更新门有助于捕捉时间序列的长期依赖关系  

In [1]:
import numpy as np
import torch
from torch import nn, optim
import torch.nn.functional as F

import sys
sys.path.append("../utils") 
import d2lzh as d2l

In [2]:
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

In [3]:
(corpus_indices, char_to_idx, idx_to_char, vocab_size) = d2l.load_data_jay_lyrics()

## **从零实现GRU**

In [4]:
num_inputs, num_hiddens, num_outputs = vocab_size, 256, vocab_size
print('will use', device)

will use cuda


In [5]:
# 设置参数
def get_params():
    # 输出层初始化
    def _one(shape):
        ts = torch.tensor(np.random.normal(0, 0.01, size=shape), device=device, dtype=torch.float32)
        return torch.nn.Parameter(ts, requires_grad=True)
    # 更新门，重置门，隐藏状态计算参数
    def _three():
        return (_one((num_inputs, num_hiddens)), 
                _one((num_hiddens, num_hiddens)),
                torch.nn.Parameter(torch.zeros(num_hiddens, device=device, dtype=torch.float32), requires_grad=True))
    W_xz, W_hz, b_z = _three() # 更新门参数
    W_xr, W_hr, b_r = _three() # 重置门参数
    W_xh, W_hh, b_h = _three() # 候选隐藏状态参数
    
    # 输出层参数
    W_hq = _one((num_hiddens, num_outputs))
    b_q = torch.nn.Parameter(torch.zeros(vocab_size, device=device, dtype=torch.float32), requires_grad=True)
    return nn.ParameterList([W_xz, W_hz, b_z, W_xr, W_hr, b_r, W_xh, W_hh, b_h, W_hq, b_q])

### **定义模型**

In [6]:
def init_gru_state(batch_size, num_hiddens, device):
    return (torch.zeros((batch_size, num_hiddens), device=device), )

In [7]:
# 计算模型 inputs(num_steps, batch_size, vocab_size)
def gru(inputs, state, params):
    W_xz, W_hz, b_z, W_xr, W_hr, b_r, W_xh, W_hh, b_h, W_hq, b_q = params
    H, _ = state
    outputs = []
    for X in inputs:
        Z = torch.sigmoid(torch.matmul(X, W_xz) + torch.matmul(H, W_hz) + b_z)
        R = torch.sigmoid(torch.matmul(X, W_xr) + torch.matmul(H, W_hr) + b_r)
        H_tilda = torch.tanh(torch.matmul(X, W_xh) + R * torch.matmul(H, W_hh) + b_h)
        H = Z * H_tilda + (1 - Z) * X
        Y = torch.matmul(H, W_hq) + b_q
        outputs.append(Y)
    return outputs, (H, )

### **训练**

In [8]:
num_epochs, num_steps, batch_size, lr, clipping_theta = 160, 35, 32, 1e2, 1e-2
pred_period, pred_len, prefixes = 40, 50, ['分开', '不分开']

In [9]:
d2l.train_and_predict_rnn(gru, get_params, init_gru_state, num_hiddens,
                          vocab_size, device, corpus_indices, idx_to_char,
                          char_to_idx, False, num_epochs, num_steps, lr,
                          clipping_theta, batch_size, pred_period, pred_len,
                          prefixes)

ValueError: not enough values to unpack (expected 3, got 2)