In [1]:
#LSTM
import d2lzh as d2l
from mxnet import nd
from mxnet.gluon import rnn
import zipfile

def load_data_jay_lyrics():
    """Load the Jay Chou lyric data set (available in the Chinese book)."""
    with zipfile.ZipFile('./data/jaychou_lyrics.txt.zip') as zin:
        with zin.open('jaychou_lyrics.txt') as f:
            corpus_chars = f.read().decode('utf-8')
    corpus_chars = corpus_chars.replace('\n', ' ').replace('\r', ' ')
    corpus_chars = corpus_chars[0:10000]
    idx_to_char = list(set(corpus_chars))
    char_to_idx = dict([(char, i) for i, char in enumerate(idx_to_char)])
    vocab_size = len(char_to_idx)
    corpus_indices = [char_to_idx[char] for char in corpus_chars]
    return corpus_indices, char_to_idx, idx_to_char, vocab_size

(corpus_indices,char_to_idx,idx_to_char,vocab_size) = load_data_jay_lyrics()

In [8]:
num_inputs, num_hiddens, num_outputs = vocab_size,256,vocab_size
ctx = d2l.try_gpu()

def get_params():
    def _one(shape):
        return nd.random.normal(scale=0.01,shape=shape,ctx=ctx)
    
    def _three():
        return (_one((num_inputs,num_hiddens)),
                _one((num_hiddens,num_hiddens)),
                nd.zeros(num_hiddens,ctx=ctx))
    
    W_xi,W_hi,b_i = _three()   #输入门参数
    W_xf,W_hf,b_f = _three()   #遗忘门参数
    W_xo,W_ho,b_o = _three()   #输出门参数
    W_xc,W_hc,b_c = _three()   #候选记忆细胞参数
    
    #输出层参数
    W_hq = _one((num_hiddens,num_outputs))
    b_q = nd.zeros(num_outputs,ctx= ctx)
    
    #梯度
    params = [W_xi, W_hi, b_i, W_xf, W_hf, b_f, W_xo, W_ho, b_o, W_xc, W_hc,
                b_c, W_hq, b_q]
    for param in params:
        param.attach_grad()
    return params

    

In [9]:
def init_lstm_state(batch_size,num_hiddens,ctx):
    return (nd.zeros(shape=(batch_size,num_hiddens),ctx=ctx),
            nd.zeros(shape=(batch_size,num_hiddens),ctx=ctx))
#返回额外的形状为(批量⼤小, 隐藏单元个数)的值为0的记忆细胞。

In [13]:
def lstm(inputs,state,params):
    [W_xi, W_hi, b_i, W_xf, W_hf, b_f, W_xo, W_ho, b_o, W_xc, W_hc, b_c,
        W_hq, b_q] = params
    (H,C) = state
    outputs = []
    for X in inputs:
        I = nd.sigmoid(nd.dot(X,W_xi)+nd.dot(H,W_hi)+b_i)
        F = nd.sigmoid(nd.dot(X,W_xf)+nd.dot(H,W_hf)+b_f)
        O = nd.sigmoid(nd.dot(X,W_xo)+nd.dot(H,W_ho)+b_o)
        C_tilda = nd.tanh(nd.dot(X,W_xc)+nd.dot(H,W_hc)+b_c)
        C = F*C+I*C_tilda
        H = O * C.tanh()
        Y = nd.dot(H,W_hq)+b_q
        outputs.append(Y)
    return outputs,(H,C)

In [14]:
num_epochs, num_steps, batch_size, lr, clipping_theta = 160, 35, 32, 1e2, 1e-2
pred_period, pred_len, prefixes = 40, 50, ['天空', '漂泊']



In [15]:
d2l.train_and_predict_rnn(lstm, get_params, init_lstm_state, num_hiddens,
                            vocab_size, ctx, corpus_indices, idx_to_char,
                            char_to_idx, False, num_epochs, num_steps, lr,
                            clipping_theta, batch_size, pred_period, pred_len,
                            prefixes)

epoch 40, perplexity 208.965238, time 0.71 sec
 - 天空 我不的我 我不的我 我不的我 我不的我 我不的我 我不的我 我不的我 我不的我 我不的我 我不的我
 - 漂泊 我不的我 我不的我 我不的我 我不的我 我不的我 我不的我 我不的我 我不的我 我不的我 我不的我
epoch 80, perplexity 65.617237, time 0.83 sec
 - 天空 我想你这你 我不要这样 我不要这样 我不要这样 我不要这样 我不要这样 我不要这样 我不要这样 我
 - 漂泊 我想你这你 我不要这样 我不要这样 我不要这样 我不要这样 我不要这样 我不要这样 我不要这样 我
epoch 120, perplexity 15.426569, time 0.77 sec
 - 天空 我想你的你笑  你 你你的你着 我想 你想你的久笑 我想想你的微笑 想想要你 你不我 你不了 我想
 - 漂泊 我想你的你笑  你 你你的你着 我想 你想你的久笑 我想想你的微笑 想想要你 你不我 你不了 我想
epoch 160, perplexity 4.015277, time 0.79 sec
 - 天空 我说啊 你来我 一壶是 在手的风热 老上苦 的只我 恨属的那信 老真盘 瞎谁了 什么都中 你人中中
 - 漂泊 我说你的爱笑 像你是你 你来一直热粥 配上几斤的牛肉 我说店小二三三 你些堂多了路山 双截棍了满棍
