## **循环神经网络从0实现**

In [1]:
import zipfile
def load_data_jay_lyrics():
    """Load the Jay Chou lyric data set (available in the Chinese book)."""
    with zipfile.ZipFile('../d2l-zh/data/jaychou_lyrics.txt.zip') as zin:
        with zin.open('jaychou_lyrics.txt') as f:
            corpus_chars = f.read().decode('utf-8')
    corpus_chars = corpus_chars.replace('\n', ' ').replace('\r', ' ')
    corpus_chars = corpus_chars[0:10000]
    idx_to_char = list(set(corpus_chars))
    char_to_idx = dict([(char, i) for i, char in enumerate(idx_to_char)])
    vocab_size = len(char_to_idx)
    corpus_indices = [char_to_idx[char] for char in corpus_chars]
    return corpus_indices, char_to_idx, idx_to_char, vocab_size

In [2]:
################# 1、读取数据
import d2lzh as d2l
import math 
from mxnet import autograd,nd
from mxnet.gluon import loss as gloss
import time  

(corpus_indices, char_to_idx, idx_to_char,vocab_size) = load_data_jay_lyrics()

In [3]:
############### 2、one-hot向量
### 为了将词表示成向量输入到神经网络，一个简单的方法是使用one-hot向量。
### 假设词典中不同字符的数量为N(即词典大小 vocab_size)，每个字符已经同一个从 0 到 N-1 的连续整数值索引一一对应。如果一个字符的索引是整数i,那么，我们创建
### 一个全0的长为N的向量，并将其位置为 i 元素设为1 。 该向量就是对原字符的 one-hot向量。

# 例 索引为0和2的one-hot向量，长度 N = vocab_size
nd.one_hot(nd.array([0,2]), vocab_size)


[[1. 0. 0. ... 0. 0. 0.]
 [0. 0. 1. ... 0. 0. 0.]]
<NDArray 2x1027 @cpu(0)>

In [4]:
# 每次采样的小批量形状是 (批大小，时间步)。
# 下面的函数将这样的小批量变换成数个可以输入进网络的形状为（批大小，词典大小）的矩阵。
# 即 时间步 t 的输入为 nXd,其中，n为批大小，d为输入个数，即one-hot向量长度（词典大小）

def to_onehot(X,size): 
    return [nd.one_hot(x,size) for x in X.T]

x = nd.arange(20).reshape((2,5))
inputs = to_onehot(x, vocab_size)
len(inputs), inputs[0].shape

(5, (2, 1027))

In [5]:
############## 3、初始化模型参数
num_inputs,num_hiddens,num_outputs = vocab_size, 256, vocab_size
ctx = d2l.try_gpu()
print("will use",ctx)

def get_params():
    def _one(shape):
        return nd.random.normal(scale = 0.01, shape = shape, ctx = ctx)
    
    # 隐藏层参数
    w_xh = _one((num_inputs,num_hiddens))
    w_hh = _one((num_hiddens,num_hiddens))
    b_h = nd.zeros(num_hiddens, ctx = ctx)
    
    # 输出层参数
    w_hq = _one((num_hiddens,num_outputs))
    b_q = nd.zeros(num_outputs,ctx = ctx)
    
    # 附上梯度
    params = [w_xh, w_hh, b_h, w_hq, b_q]
    for param in params:
        param.attach_grad()
    return params



will use gpu(0)


In [6]:
########## 4.定义模型
# 定义init_rnn_state函数来返回初始化的隐藏状态 ,返回值为（批大小，隐藏单元个数）
def init_rnn_state(batch_size, num_hiddens, ctx):
    return (nd.zeros(shape = (batch_size, num_hiddens), ctx = ctx), )

# 下面的rnn函数定义了在一个时间步里如何计算隐藏状态和输出
def rnn(inputs, state, params):
    # input,output 皆为num_steps 个形状为(batch_size, vocab_size) 的矩阵
    w_xh, w_hh,b_h,w_hq, b_q = params 
    H, = state
    outputs = []
    
    for X in inputs:
        H = nd.tanh(nd.dot(X,w_xh) + nd.dot(H,w_hh) + b_h) ## nd.dot(H,w_hh) : H为上一个状态的隐藏状态
        Y = nd.dot(H,w_hq) + b_q
        outputs.append(Y)
    return outputs,(H,)
        

In [7]:
# test
state = init_rnn_state(x.shape[0], num_hiddens, ctx)
inputs = to_onehot(x.as_in_context(ctx), vocab_size)
params = get_params()
outputs, state_new = rnn(inputs, state, params)
len(outputs), outputs[0].shape, state_new[0].shape

(5, (2, 1027), (2, 256))

In [8]:
############ 5.定义预测函数
# 以下函数基于前缀prefix（含有数个字符的字符串）来预测接下来的num_chars个字符
def predict_rnn(prefix, num_chars, rnn, params, init_rnn_state, num_hiddens, vocab_size, ctx, idx_to_char, char_to_idx):
    state = init_rnn_state(1, num_hiddens, ctx)
    output = [char_to_idx[prefix[0]]]
    
    for t in range(num_chars + len(prefix) - 1):
        # 将上一时间步的输出作为当前时间步的输入
        X = to_onehot(nd.array([output[-1]], ctx = ctx), vocab_size)
        
        # 计算输出和更新隐藏状态
        (Y, state) = rnn(X, state, params)
        
        # 下一个时间步的输入是prefix里的字符或当前最佳预测字符
        if t<len(prefix) - 1:
            output.append(char_to_idx[prefix[t+1]])
        else:
            output.append(int(Y[0].argmax(axis = 1).asscalar()))
    return "".join([idx_to_char[i] for i in output])

In [9]:
#  test
predict_rnn("分开",10,rnn,params, init_rnn_state, num_hiddens, vocab_size, ctx, idx_to_char, char_to_idx)

'分开马鹿久感马纵躲灰试征'

#### **裁剪梯度**

循环神经网络中容易出来梯度衰减或梯度爆炸。为了应对梯度梯度爆炸，我们可以裁剪梯度（clip gradient)。假设我们把所有模型参数的梯度元素拼接成一个向量$g$，并设裁剪的阈值是$\theta$，裁剪后的梯度
#### $$min\big(\frac{\theta}{||g||},1\big)g$$
的$L_2$ 范数不超过$\theta$

In [10]:
def grad_clipping(params,theta, ctx):
    norm = nd.array([0], ctx)
    for param in params:
        norm += (param.grad **2).sum()
    norm = norm.sqrt().asscalar()
    if norm > theta:
        for param in params:
            param.grad[:] *= theta/norm

In [11]:
############# 未完