In [44]:
from mxnet import autograd, nd, gluon
from mxnet.gluon import loss as gloss
import random
import utils
import time
import math
import zipfile

In [45]:
with zipfile.ZipFile('C:/Users/Administrator/DoDL/data/jaychou_lyrics.txt.zip') as zin:
    with zin.open('jaychou_lyrics.txt') as f:
        corpus_chars = f.read().decode('utf-8')
corpus_chars = corpus_chars.replace('\n',' ').replace('\r', ' ')
idx_to_char = list(set(corpus_chars))
char_to_idx = dict([(char, i) for i,char in enumerate(idx_to_char)])
vocab_size = len(char_to_idx)
corpus_indices = [char_to_idx[char] for char in corpus_chars]

In [46]:
def get_params():
    def _one(shape):
        return nd.random.normal(scale=0.01, shape=shape)
    
    def _three():
        return (_one((num_inputs, num_hiddens)),
               _one((num_hiddens, num_hiddens)),
               _one(num_hiddens))
    
    W_xi, W_hi, b_i = _three()
    W_xf, W_hf, b_f = _three()
    W_xo, W_ho, b_o = _three()
    W_xc, W_hc, b_c = _three()
    
    W_hq = _one((num_hiddens, num_outputs))
    b_q = _one(num_outputs)
    
    params = [W_xi, W_hi, b_i, W_xf, W_hf, b_f, W_xo, W_ho, b_o, W_xc, W_hc, b_c,
     W_hq, b_q]
    for param in params:
        param.attach_grad()
    return params

In [47]:
def init_lstm_state(batch_size, num_hidden):
    return (nd.zeros(shape=(batch_size, num_hidden)),
           nd.zeros(shape=(batch_size, num_hidden)))

In [57]:
def lstm(inputs, state, params):
    [W_xi, W_hi, b_i, W_xf, W_hf, b_f, W_xo, W_ho, b_o, W_xc, W_hc, b_c,
     W_hq, b_q] = params 
    (H, C) = state
    outputs = []
    
    for X in inputs:
        I = nd.sigmoid(nd.dot(X, W_xi) + nd.dot(H, W_hi) + b_i)
        F = nd.sigmoid(nd.dot(X, W_xf) + nd.dot(H, W_hf) + b_f)
        O = nd.sigmoid(nd.dot(X, W_xo) + nd.dot(H, W_ho) + b_o)
        C_tilda = nd.tanh(nd.dot(X, W_xc) + nd.dot(H, W_hc) + b_c)
        
        C = F * C + I * C_tilda
        H = O * C.tanh()
        Y = nd.dot(H, W_hq) + b_q
        outputs.append(Y)
    return outputs, (H, C)

In [49]:
def data_iter_random(corpus_indices, batch_size, num_steps):
    num_examples = (len(corpus_indices) - 1) // num_steps
    example_indices = list(set(num_examples))
    num_batch = num_examples //  batch_size
    random.shuffle(example_indices)
    
    def _data(pos):
        return corpus_indices[pos : pos + num_steps]
    
    for i in range(num_batches):
        i = i * batch_size
        batch_indices = example_indices[i : i + batch_size]
        X = [_data(j * num_steps) for j in batch_indices]
        Y = [_data(j * num_steps + 1) for j in batch_indices]
        yield nd.array(X), nd.array(Y)

In [50]:
def data_iter_consecutive(corpus_indices, batch_size, num_steps):
    corpus_indices = nd.array(corpus_indices)
    data_len = len(corpus_indices)
    batch_len = data_len // batch_size
    indices = corpus_indices[0 : batch_size*batch_len].reshape((batch_size,
                                                               batch_len))
    num_epochs = (batch_len-1) // num_steps
    for i in range(num_epochs):
        i = i * num_steps
        X = indices[:, i : i + num_steps]
        Y = indices[:, i+1 : i+num_steps+1]
        yield X, Y

In [51]:
def to_onehot(X, size):
    return [nd.one_hot(x, size) for x in X.T]

In [52]:
def grad_clipping(params, theta):
    norm = nd.array([0])
    for param in params:
        norm += (param.grad ** 2).sum()
    norm = norm.sqrt().asscalar()
    if norm > theta:
        for param in params:
            param.grad[:] *= theta / norm

In [53]:
def predict_rnn(prefix, pred_len, rnn, params, init_rnn_state, num_hiddens
               ,vocab_size, idx_to_char, char_to_idx):
    state = init_rnn_state(1, num_hiddens)
    output = [char_to_idx[prefix[0]]]
    for t in range(len(prefix) + pred_len - 1):
        X = to_onehot(nd.array([output[-1]]), vocab_size)
        (Y, state) = rnn(X, state, params)
        if t < len(prefix) - 1:
            output.append(char_to_idx[prefix[t+1]])
        else:
            output.append(int(Y[0].argmax(axis=1).asscalar()))
    return ''.join([idx_to_char[i] for i in output])

In [59]:
def train_and_predict_rnn(lstm, get_params, init_lstm_state, num_hiddens,
                         vocab_size, corpus_indices, idx_to_char, 
                         char_to_idx, is_random_iter, num_epochs, num_steps,
                         lr, clipping_theta, batch_size, pred_period, 
                         pred_len, prefixes):
    if is_random_iter:
        data_iter_fn = data_iter_random
    else:
        data_iter_fn = data_iter_consecutive
    params = get_params()
    loss = gloss.SoftmaxCrossEntropyLoss()
    
    for epoch in range(num_epochs):
        if not is_random_iter:
            state = init_lstm_state(batch_size, num_hiddens)
        l_sum, n, start = 0, 0, time.time()
        data_iter = data_iter_fn(corpus_indices, batch_size, num_steps)
        for X, Y in data_iter:
            if is_random_iter:
                state = init_lstm_state(batch_size, num_hiddens)
            else:
                for s in state:
                    s.detach()           
            with autograd.record():
                inputs = to_onehot(X, vocab_size)
                outputs, state = lstm(inputs, state, params)
                outputs = nd.concat(*outputs, dim=0)
                y = Y.T.reshape((-1, ))
                l = loss(outputs, y).mean()
            l.backward()
            grad_clipping(params, clipping_theta)
            utils.sgd(params, lr, 1)
            l_sum += l.asscalar() * y.size
            n += y.size
            
            if (epoch + 1) % pred_period == 0:
                print('epoch %d, perplexity %f, time %.2f sec' % (
                    epoch + 1, math.exp(l_sum / n), time.time() - start))
                for prefix in prefixes:
                    print(' -', predict_rnn(
                        prefix, pred_len, lstm, params, init_lstm_state,
                        num_hiddens, vocab_size, idx_to_char, char_to_idx))

In [None]:
num_epochs, num_steps, batch_size, lr, clipping_theta = 160, 35, 32, 1e2, 1e-2
num_inputs, num_hidden, num_outputs = vocab_size, 256, vocab_size
pred_period, pred_len, prefixes = 40, 50, ['分开', '不分开']
train_and_predict_rnn(lstm, get_params, init_lstm_state, num_hiddens,
                          vocab_size, corpus_indices, idx_to_char,
                          char_to_idx, False, num_epochs, num_steps, lr,
                          clipping_theta, batch_size, pred_period, pred_len,
                          prefixes)

epoch 40, perplexity 135.339943, time 2.49 sec
 - 分开 我不能要你的样 我知道你的手 我知么这样个人 你说你说我的笑 你说的爱我知么 你说不能要人 我不能
 - 不分开 你说你说我的手 你说的爱我 不要要为了 你说的爱 你说的很手 我说你的爱爱我 我的爱你已经你 你的
epoch 40, perplexity 120.297406, time 5.50 sec
 - 分开 我不能要你 我的世界 已经不是 我的感魂 已不是                         
 - 不分开 我不能再想 我不能要你 你的爱情 我的世界 我们                         
epoch 40, perplexity 116.221343, time 8.64 sec
 - 分开 我不能要你的人 我说你的手 我不是你的笑 我说你的爱笑 我的笑笑不出 你说的爱我有多 你说你的爱 
 - 不分开 我不能再想 我不能再想 我不能再想 我的爱情 你笑的很空 我们的爱 我用了一直 我的爱情  让我不
epoch 40, perplexity 108.511124, time 11.65 sec
 - 分开 我不能要你 你的爱情 我不是一个 我的笑界 已经不是  我的爱情  不是你的  不要你的  我们 
 - 不分开 我不能再想 我不能再想 我不能再想 我不能再想 你的爱情 我们的感泪 我用你的爱 我不能再想 你的
epoch 40, perplexity 106.351634, time 14.61 sec
 - 分开 我想想你说 我有一种 都不用  我们一个  不是你的  不用                   
 - 不分开 我不能再想 我没有一种 你说你 等兽人 的灵魂 我的公 我不懂   我的             
epoch 40, perplexity 102.853858, time 17.59 sec
 - 分开 我用想在你的笑 我说你的爱笑 你说的爱我 我们的爱我 我不想你的笑 我说你的爱笑 你说的爱我 我知
 - 不分开 你的爱情不能 你的爱我 在一个味道 我们的爱你 我们的爱你 你的世界 我都是一个 我的感道 你的爱
epoch 40, perplexity 100.079479, time

 - 分开 我可以 你的手 我们的感节 我的笑界 你的世界 我的世界 我不够 我不能 我不再 我不了 我不能 
 - 不分开 我不能 你不开我有你的手 我知么 你不要我有你的手 你说你的手手 不要要我的样笑 我知么你的样笑 
epoch 40, perplexity 92.922981, time 165.80 sec
 - 分开 我不是你的手 你说的爱笑 我们的世界 我用的世界 我们的世界 我们的世界 我们的世界 我们的世界 
 - 不分开 我不能这样 你的世界 我们的感界 我们的世界 我们的世界 我的世界 我不是不见 你的爱情 我的世界
epoch 40, perplexity 92.925750, time 169.02 sec
 - 分开 我不能要我们 我不能不该 你的爱情 我们 不是一直 我的爱情 不是不不见 你的爱情 我不懂 你不要
 - 不分开 我不能再想 我不能要不见 我的爱你已经不是我 不要你说我的手 你说的爱情 我们的爱你 不用麻 我不
epoch 40, perplexity 93.012504, time 172.09 sec
 - 分开 我不能要不开 你的爱情 我不是够 你的爱爱 我的爱觉 你不开 不能要烦了 我不能再想 我不能再想 
 - 不分开 我不能再想 我不能再想 我不能这样 我不能够不见 你的爱爱你已经不到 我不能要不能要要你 我不能这
epoch 40, perplexity 93.388003, time 175.15 sec
 - 分开 我的爱你已开 你的眼界 用一个人 我们等感  没有一直 我的世界 我不懂 你不够 你的爱爱我 我的
 - 不分开 我不能再想 我不能要你 你说你的手 我知么很人 你的爱爱你 我的世界 我不是够  我们一直 你的世
epoch 80, perplexity 28.172726, time 2.35 sec
 - 分开 我可以够 小世界 让一个人的姿望 默不着 一个人 我的爱情 沉着                 
 - 不分开 你的发觉 太家 我一直一直再心 我一起 你会开 你的灵魂 从滚                  
epoch 80, perplexity 21.395519, time 5.14 sec
 - 分开 我可以够 小的一天 一直一起 我的感觉 你不回 你的爱情 我的感

 - 不分开 没有再以我的世界 你说我的很手 不能在在我的想容 你说我不爱 就是再是在乎 我也不到到你的脸 我想
epoch 80, perplexity 16.044907, time 137.62 sec
 - 分开 你可以我们 我不是你们 有                                    
 - 不分开 没有你对我的家 我说你说你手手 这么说的梦堡 我说你  我有我们快重你 说我一种生号 我说了 你们
epoch 80, perplexity 16.063741, time 140.44 sec
 - 分开了我可以 你的嘴像这样就抱乡开我不能要偏 就能放开我的天望你一种不到 没有这么太过 我只想在心身堡 
 - 不分开 没是我手 我没有再想 我知道你说你 说不能别不该 说不能太多 我一起 不需 不想         
epoch 80, perplexity 16.200476, time 143.26 sec
 - 分开 我可以 你的微笑 我知道 你好不了 好好的 幸福呢 我好了 再咬 爱淡着 梦手了 开经了 不是不要
 - 不分开 没有再以我的家 这么觉 说不觉 你的身笑 在窗里了梦 我们何感动了天 邀明月 让用用皎 啦儿无儿 
epoch 80, perplexity 16.397605, time 146.06 sec
 - 分开了我 一路 你的时间 默默默无了 一种月 干了我 在一生 在炭了 有些了 有炭了 我们的爱情 一统 
 - 不分开 没有你对我我不是 我牵着 想要要我知想你 你说你 你手我已经你 你说你说你难笑 我不能不该 你说你
epoch 80, perplexity 16.529272, time 148.87 sec
 - 分开不能 我牵着这么子 你也悄不到你的笑 我知道一个很份 你说你说不多个人 怎么一直到我 你说你没有多笑
 - 不分开 你的是是怎么太太 你说你 说不要再知道你的微 一定会好了可有你可以  一定是你的我的你们  我们的
epoch 80, perplexity 16.636309, time 151.81 sec
 - 分开了我可以 沉默的眼迹 在空地的画奈 不用 我手 这么人的 你在在梦  你想你离来 不用麻的梦 梦福的
 - 不分开 你的是我怎么太快 别人我 说你看著 你看看地地地手 我