## 读取数据集

In [1]:
from mxnet import nd
import random
import zipfile

In [2]:
with zipfile.ZipFile('C:/Users/Administrator/DoDL/data/jaychou_lyrics.txt.zip') as zin:
    with zin.open('jaychou_lyrics.txt') as f:
        corpus_chars = f.read().decode('utf-8')
corpus_chars[: 200]

'想要有直升机\n想要和你飞到宇宙去\n想要和你融化在一起\n融化在宇宙里\n我每天每天每天在想想想想著你\n这样的甜蜜\n让我开始乡相信命运\n感谢地心引力\n让我碰到你\n漂亮的让我面红的可爱女人\n温柔的让我心疼的可爱女人\n透明的让我感动的可爱女人\n坏坏的让我疯狂的可爱女人\n坏坏的让我疯狂的可爱女人\n漂亮的让我面红的可爱女人\n温柔的让我心疼的可爱女人\n透明的让我感动的可爱女人\n坏坏的让我疯狂的可爱女人\n坏坏的让我'

In [3]:
corpus_chars = corpus_chars.replace('\n',' ').replace('\r', ' ')
corpus_chars = corpus_chars[: 10000]

## 建立字符索引 
我们将每个字符映射成一个从0开始的连续整数，又称索引，来方便之后的数据处理。为了得到索引，我们将数据集里所有不同字符取出来，然后将其逐一映射到索引来构造词典。</p>接着，打印vocab_size，即词典中不同字符的个数，又称词典大小。

In [4]:
idx_to_char = list(set(corpus_chars))
char_to_idx = dict([(char, i) for i,char in enumerate(idx_to_char)])
vocab_size = len(char_to_idx)

In [5]:
corpus_indices = [char_to_idx[char] for char in corpus_chars]
sample = corpus_indices[:20]
print('chars:',''.join([idx_to_char[idx] for idx in sample]))
print('index:',sample)

chars: 想要有直升机 想要和你飞到宇宙去 想要和
index: [688, 1012, 752, 395, 314, 413, 55, 688, 1012, 246, 292, 803, 376, 74, 300, 782, 55, 688, 1012, 246]


## 数据随机采样

In [18]:
def data_iter_random(corpus_indices, batch_size, num_steps):
    num_examples = (len(corpus_indices) - 1) // num_steps
    epoch_size = num_examples // batch_size
    example_indices = list(range(num_examples))
    random.shuffle(example_indices)
    
    def _data(pos):
        return corpus_indices[pos : pos + num_steps]
    
    for i in range(epoch_size):
        i = i * batch_size
        batch_indices = example_indices[i : i + batch_size]
        #表示一个batch_size样本
        X = [_data(j * num_steps) for j in batch_indices]
        Y = [_data(j * num_steps + 1) for j in batch_indices]
        yield nd.array(X), nd.array(Y)

In [22]:
my_seq = list(range(30))
for X, Y in data_iter_random(my_seq, batch_size=2, num_steps=6):
    print('X: ', X, '\nY: ', Y, '\n')

X:  
[[ 6.  7.  8.  9. 10. 11.]
 [ 0.  1.  2.  3.  4.  5.]]
<NDArray 2x6 @cpu(0)> 
Y:  
[[ 7.  8.  9. 10. 11. 12.]
 [ 1.  2.  3.  4.  5.  6.]]
<NDArray 2x6 @cpu(0)> 

X:  
[[18. 19. 20. 21. 22. 23.]
 [12. 13. 14. 15. 16. 17.]]
<NDArray 2x6 @cpu(0)> 
Y:  
[[19. 20. 21. 22. 23. 24.]
 [13. 14. 15. 16. 17. 18.]]
<NDArray 2x6 @cpu(0)> 



## 相邻采样 

In [27]:
def data_iter_consecutive(corpus_indices, batch_size, num_steps):
    corpus_indices = nd.array(corpus_indices)
    data_len = len(corpus_indices)
    batch_len = data_len // batch_size
    indices = corpus_indices[0 : batch_len * batch_size].reshape(
        (batch_size, batch_len))
    epoch_size = (batch_len - 1) // num_steps
    
    for i in range(epoch_size):
        i = i * num_steps
        X = indices[:, i : i+num_steps]
        #每个预测值label为X其后一位
        Y = indices[:, i+1 : i+num_steps+1]
        yield X, Y

In [28]:
for X, Y in data_iter_consecutive(my_seq, 2, 6):
    print('X: ', X, '\nY: ', Y)

X:  
[[ 0.  1.  2.  3.  4.  5.]
 [15. 16. 17. 18. 19. 20.]]
<NDArray 2x6 @cpu(0)> 
Y:  
[[ 1.  2.  3.  4.  5.  6.]
 [16. 17. 18. 19. 20. 21.]]
<NDArray 2x6 @cpu(0)>
X:  
[[ 6.  7.  8.  9. 10. 11.]
 [21. 22. 23. 24. 25. 26.]]
<NDArray 2x6 @cpu(0)> 
Y:  
[[ 7.  8.  9. 10. 11. 12.]
 [22. 23. 24. 25. 26. 27.]]
<NDArray 2x6 @cpu(0)>


In [94]:
#对每列X生成其one_hot变量
def to_onehot(X, size):
    return [nd.one_hot(x, size) for x in X.T]

In [95]:
X = nd.arange(10).reshape(2, 5)
inputs = to_onehot(X, vocab_size)
len(inputs), inputs[0].shape

(5, (2, 1027))

## 初始化模型参数 

In [37]:
num_inputs, num_hiddens, num_outputs = vocab_size, 256, vocab_size

def get_params():
    def _one(shape):
        return nd.random.normal(scale=0.1, shape=shape)
    
    W_xh = _one((num_inputs, num_hiddens))
    W_hh = _one((num_hiddens, num_hiddens))
    b_h = _one(num_hiddens)
    
    W_hq = _one((num_hiddens, num_outputs))
    b_q = _one(num_outputs)
    
    params = [W_xh, W_hh, b_h, W_hq, b_q]
    for param in params:
        param.attach_grad()
    return params

我们根据循环神经网络的计算表达式实现该模型。首先定义init_rnn_state函数来返回初始化的隐藏状态。它返回由一个形状为(批量大小, 隐藏单元个数)的值为0的NDArray组成的元组。使用元组是为了更便于处理隐藏状态含有多个NDArray的情况。

In [38]:
def init_rnn_state(batch_size, num_hiddens):
    return (nd.zeros(shape=(batch_size, num_hiddens)))

In [85]:
def rnn(inputs, state, params):
    W_xh, W_hh, b_h, W_hq, b_q = params
    H = state
    outputs = []
    for i in range(len(inputs)):
        H = nd.tanh(nd.dot(inputs[i], W_xh) + nd.dot(H, W_hh) + b_h)
        Y = nd.dot(H, W_hq) + b_q
        outputs.append(Y)
    return outputs, H

In [87]:
state = init_rnn_state(X.shape[0], num_hiddens)
params = get_params()
#在RNN中输入的是one_hot后的X
outputs, state_new = rnn(inputs, state, params)
outputs, state_new

([
  [[ 0.28881067  0.10467796 -0.03929904 ...  0.24380223  0.05025802
     0.10280765]
   [ 0.01412531  0.11303437  0.25134018 ...  0.30578032  0.06342063
    -0.09509572]]
  <NDArray 2x1027 @cpu(0)>, 
  [[ 1.0610616  -0.15160188  0.14880267 ... -0.22473614 -0.23408815
    -0.98566633]
   [ 0.8338173   0.73671293  0.20909488 ... -0.15139954 -0.10566447
    -0.65294963]]
  <NDArray 2x1027 @cpu(0)>, 
  [[ 0.9164351   0.12394084 -0.1295506  ... -0.71881616 -1.1520063
    -0.8472549 ]
   [ 0.8577522   0.00307181 -0.38918775 ... -0.86028135 -0.6300004
    -0.8050769 ]]
  <NDArray 2x1027 @cpu(0)>, 
  [[ 1.2964106  -0.3300189   0.27917066 ... -0.8488905   0.00639812
    -1.1021763 ]
   [ 1.0541924   0.26212704  0.04923218 ... -0.670039   -0.355806
    -0.71618265]]
  <NDArray 2x1027 @cpu(0)>, 
  [[ 1.2386703  -1.0265653   0.4204648  ... -0.24065225 -1.4249232
     0.4760417 ]
   [ 2.4123933  -0.13645622  0.42140067 ...  0.04470438 -0.6946712
     1.4926794 ]]
  <NDArray 2x1027 @cpu(0)>], 
 [

## 定义预测函数 
以下函数基于前缀prefix（含有数个字符的字符串）来预测接下来的num_chars个字符。这个函数稍显复杂，其中我们将循环神经单元rnn设置成了函数参数，这样在后面小节介绍其他循环神经网络时能重复使用这个函数。

In [98]:
def predict_rnn(prefix, num_chars, rnn, params, init_rnn_state,
               num_hiddens, vocab_size, idx_to_char, char_to_idx):
    state = init_rnn_state(1, num_hiddens)
    output = [char_to_idx[prefix[0]]]
    for t in range(num_chars + len(prefix) - 1):
        X = to_onehot(nd.array([output[-1]]), vocab_size)
        (Y, state) = rnn(X, state, params)
        if t < len(prefix) - 1:
            output.append(char_to_idx[prefix[t + 1]])
        else:
            output.append(int(Y[0].argmax(axis=1).asscalar()))
    return ''.join([idx_to_char[i] for i in output])

In [100]:
predict_rnn('我',10, rnn, params, init_rnn_state, num_hiddens, vocab_size,
            idx_to_char, char_to_idx)

'我种霜掉果丘我雕野呆擅'

## 梯度裁剪 

In [118]:
def grad_clipping(params, theta):
    norm = nd.array([0])
    for param in params:
        norm += (param.grad ** 2).sum()
    norm = norm.sqrt().asscalar()
    if norm > theta:
        for param in params:
            param.grad[:] *= theta / norm

## 训练模型 

In [120]:
import utils
from mxnet import autograd
from mxnet.gluon import loss as gloss
import time
import math

In [121]:
def train_and_predict_rnn(rnn, get_params, init_rnn_state, num_hiddens,
                         vocab_size, corpus_indices, idx_to_char,
                          char_to_idx, is_random_iter, num_epochs,
                          num_steps, lr, clipping_theta, batch_size,
                          pred_period, pred_len, prefixes):
    if is_random_iter:
        data_iter_fn = data_iter_random
    else:
        data_iter_fn = data_iter_consecutive
    params = get_params()
    loss = gloss.SoftmaxCrossEntropyLoss()
    
    for epoch in range(num_epochs):
        if not is_random_iter:
            state = init_rnn_state(batch_size, num_hiddens)
        l_sum, n, start = 0.0, 0, time.time()
        data_iter = data_iter_fn(corpus_indices, batch_size, num_steps)
        for X, Y in data_iter:
            if is_random_iter:
                state = init_rnn_state(batch_size, num_hiddens)
            else:
                for s in state:
                    s.detach()
            with autograd.record():
                inputs = to_onehot(X, vocab_size)
                (outputs, state) = rnn(inputs, state, params)
                outputs = nd.concat(*outputs, dim=0)
                y = Y.T.reshape((-1, ))
                l = loss(outputs, y).mean()
            l.backward()
            grad_clipping(params, clipping_theta)
            utils.sgd(params, lr, 1)
            l_sum += l.asscalar() * y.size
            n += y.size
            
            if (epoch + 1) % pred_period == 0:
                print('epoch %d, perplexity %f, time %.2f sec' % (
                    epoch + 1, math.exp(l_sum / n), time.time() - start))
                for prefix in prefixes:
                    print(' -', predict_rnn(
                        prefix, pred_len, rnn, params, init_rnn_state,
                        num_hiddens, vocab_size, idx_to_char, char_to_idx))

In [122]:
num_epochs, num_steps, batch_size, lr, clipping_theta = 250, 35, 32, 1e2, 1e-2
pred_period, pred_len, prefixes = 50, 50, ['分开', '不分开']

In [125]:
train_and_predict_rnn(rnn, get_params, init_rnn_state, num_hiddens,
                      vocab_size, corpus_indices, idx_to_char,
                      char_to_idx, False, num_epochs, num_steps, lr,
                      clipping_theta, batch_size, pred_period, pred_len,
                      ['我', '你'])

epoch 50, perplexity 88.385174, time 0.32 sec
 - 我 我 你   我   我   想  不   你   我 我      我 你 我   我   我  
 - 你 一说   你  我    你  我 我  我   我  不   是   你   我    你   
epoch 50, perplexity 94.004696, time 0.75 sec
 - 我的要的可爱女人的透我的我的你我不在我不要你我不你我的你我想我的开你我不你我不的在我的我的你我不人我不
 - 你的让我心我的可爱女人我不你的的爱么人我的你的让我想狂的可爱女人 我坏的的我疯狂的可爱女人 温坏的让我
epoch 50, perplexity 96.466495, time 1.19 sec
 - 我 说有   透  一 我  使  我爱   上  一 我 一直  我说  说上  一上  一上两 一
 - 你 一说   你  我 我  血  我 我 一颗  三 我 它颗四  说两  颗  我什两  给  我
epoch 50, perplexity 93.385771, time 1.60 sec
 - 我 你有   你的 我 我 了 我 我 我颗 你 我有 我 我 了 我 我 我颗 你  有 我 我 一
 - 你 一说 我 我 一的 我 我 了 我 我 我 我 我 我 我 我的  一 我 我 了 我 我的 你 
epoch 50, perplexity 92.742482, time 2.03 sec
 - 我 我有我 我 我 我步四 我 我 我 我颗了 一颗我 三 我颗 你只 我 我不了 我给我 我 我 我
 - 你 一说 我爱 我不能  我有 我 我有了 我 我 我步我 我步开 别在我 三步四 我什我 我 我颗了
epoch 50, perplexity 93.207922, time 2.45 sec
 - 我 你有你   我 我     有 我 我 一   不 我 你 一   我  有 我有  不要   你
 - 你 一不   你的 我  我 我有 我 你  我  有 我  这不  不  不 我 一     有么 
epoch 50, perplexity 93.308260, time 2.87 sec
 - 我 我不你的你在我 我想是的的