In [1]:
import torch
import random
import zipfile


with zipfile.ZipFile('./data/jaychou_lyrics.txt.zip') as zin:
    with zin.open('jaychou_lyrics.txt') as f:
        corpus_chars = f.read().decode('utf-8')
corpus_chars[:40]

'想要有直升机\n想要和你飞到宇宙去\n想要和你融化在一起\n融化在宇宙里\n我每天每天每'

In [2]:
corpus_chars = corpus_chars.replace('\n', ' ').replace('\r', ' ')
corpus_chars = corpus_chars[0:10000]

In [5]:
idx_to_char = list(set(corpus_chars))
char_to_idx = dict([(char, i) for i, char in enumerate(idx_to_char)])
vocab_size = len(char_to_idx)
vocab_size

1027

In [12]:
corpus_indices = [char_to_idx[char] for char in corpus_chars]
sample = corpus_indices[:20]
print('chars:', ''.join([idx_to_char[idx] for idx in sample]))
print('indices:', sample)

chars: 想要有直升机 想要和你飞到宇宙去 想要和
indices: [443, 338, 803, 983, 542, 432, 573, 443, 338, 302, 257, 783, 511, 988, 14, 754, 573, 443, 338, 302]


In [18]:
def data_iter_random(corpus_indices, batch_size, num_steps, device=None):
    num_examples = (len(corpus_indices) - 1) // num_steps
    epoch_size = num_examples // batch_size
    example_indices = list(range(num_examples))
    random.shuffle(example_indices)
    def _data(pos):
        return corpus_indices[pos: pos + num_steps]
    if device is None:
        device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
    
    for i in range(epoch_size):
        i = i * batch_size
        batch_indices = example_indices[i: i + batch_size]
        X = [_data(j * num_steps) for j in batch_indices]
        Y = [_data(j * num_steps + 1) for j in batch_indices]
        yield torch.tensor(X, dtype=torch.float32, device=device), torch.tensor(Y, dtype=torch.float32, device=device)

In [32]:
my_seq = list(range(30))
for X, Y in data_iter_random(my_seq, batch_size=2, num_steps=6):
    print('X: ', X, '\nY:', Y, '\n')

X:  tensor([[12., 13., 14., 15., 16., 17.],
        [ 0.,  1.,  2.,  3.,  4.,  5.]], device='cuda:0') 
Y: tensor([[13., 14., 15., 16., 17., 18.],
        [ 1.,  2.,  3.,  4.,  5.,  6.]], device='cuda:0') 

X:  tensor([[18., 19., 20., 21., 22., 23.],
        [ 6.,  7.,  8.,  9., 10., 11.]], device='cuda:0') 
Y: tensor([[19., 20., 21., 22., 23., 24.],
        [ 7.,  8.,  9., 10., 11., 12.]], device='cuda:0') 



In [61]:
def data_iter_consecutive(corpus_indices, batch_size, num_steps, device=None):
    if device is None:
        device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
    corpus_indices = torch.tensor(corpus_indices, dtype=torch.float32, device=device)
    data_len = len(corpus_indices)
    batch_len = data_len // batch_size
    indices = corpus_indices[0:batch_size * batch_len].view(batch_size, batch_len)
    print(indices)
    epoch_size = (batch_len - 1) // num_steps
    for i in range(epoch_size):
        i = i * num_steps
        X = indices[:, i: i + num_steps]
        Y = indices[:, i + 1: i +num_steps + 1]
        yield X, Y

In [62]:
for X, Y in data_iter_consecutive(my_seq, batch_size=2, num_steps=6):
    print('X: ', X, '\nY:', Y, '\n')

tensor([[ 0.,  1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10., 11., 12., 13.,
         14.],
        [15., 16., 17., 18., 19., 20., 21., 22., 23., 24., 25., 26., 27., 28.,
         29.]], device='cuda:0')
X:  tensor([[ 0.,  1.,  2.,  3.,  4.,  5.],
        [15., 16., 17., 18., 19., 20.]], device='cuda:0') 
Y: tensor([[ 1.,  2.,  3.,  4.,  5.,  6.],
        [16., 17., 18., 19., 20., 21.]], device='cuda:0') 

X:  tensor([[ 6.,  7.,  8.,  9., 10., 11.],
        [21., 22., 23., 24., 25., 26.]], device='cuda:0') 
Y: tensor([[ 7.,  8.,  9., 10., 11., 12.],
        [22., 23., 24., 25., 26., 27.]], device='cuda:0') 



In [2]:
import time
import math
import numpy as np
import torch
from torch import nn, optim
import torch.nn.functional as F
import sys
sys.path.append('./code')
import d2lzh_pytorch as d2l


device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
(corpus_indices, char_to_idx, idx_to_char, vocab_size) = d2l.load_data_jay_lyrics()

In [58]:
# 造one-hot向量用scatter函数
def one_hot(x, n_class, dtype=torch.float32):
    x = x.long()
    res = torch.zeros(x.shape[0], n_class, dtype=dtype, device=x.device)
    res.scatter_(1, x.view(-1, 1), 1)
    return res

x = torch.tensor([0, 2])
one_hot(x, vocab_size)

tensor([[1., 0., 0.,  ..., 0., 0., 0.],
        [0., 0., 1.,  ..., 0., 0., 0.]])

In [20]:
def to_onehot(X, n_class):
    return [one_hot(X[:, i], n_class) for i in range(X.shape[1])]
X = torch.arange(10).view(2, 5)
inputs = to_onehot(X, vocab_size)
print(len(inputs), inputs[0].shape)

5 torch.Size([2, 1027])


In [44]:
num_inputs, num_hiddens, num_outputs = vocab_size, 256, vocab_size
print('will use', device)

def get_params():
    def _one(shape):
        ts = torch.tensor(np.random.normal(0, 0.01, size=shape), device=device, dtype=torch.float32)
        return torch.nn.Parameter(ts, requires_grad=True)
    W_xh = _one((num_inputs, num_hiddens))
    W_hh = _one((num_hiddens, num_hiddens))
    b_h = torch.nn.Parameter(torch.zeros(num_hiddens, device=device, requires_grad=True))
    W_hq = _one((num_hiddens, num_outputs))
    b_q = torch.nn.Parameter(torch.zeros(num_outputs, device=device, requires_grad=True))
    return nn.ParameterList([W_xh, W_hh, b_h, W_hq, b_q])

will use cuda


In [45]:
def init_rnn_state(batch_size, num_hiddens, device):
    return (torch.zeros((batch_size, num_hiddens), device=device), )

In [48]:
def rnn(inputs, state, params):
    W_xh, W_hh, b_h, W_hq, b_q = params
    H, = state
    outputs = []
    for X in inputs:
        H = torch.tanh(torch.matmul(X, W_xh) + torch.matmul(H, W_hh) + b_h)
        Y = torch.matmul(H, W_hq) + b_q
        outputs.append(Y)
    return outputs, (H,)

In [54]:
state = init_rnn_state(X.shape[0], num_hiddens, device)
inputs = to_onehot(X.to(device), vocab_size)
params = get_params()
outputs, state_new = rnn(inputs, state, params)
print(len(outputs), outputs[0].shape, state_new[0].shape)

5 torch.Size([2, 1027]) torch.Size([2, 256])


In [73]:
def predict_rnn(prefix, num_chars, rnn, params, init_rnn_state, num_hiddens,
               vocab_size, device, idx_to_char, char_to_idx):
    state = init_rnn_state(1, num_hiddens, device)
    output = [char_to_idx[prefix[0]]]
    for t in range(num_chars + len(prefix) - 1):
        X = to_onehot(torch.tensor([[output[-1]]], device=device), vocab_size)
        (Y, state) = rnn(X, state, params)
        if t < len(prefix) - 1:
            output.append(char_to_idx[prefix[t + 1]])
        else:
            output.append((int(Y[0].argmax(dim=1).item())))
    return ''.join([idx_to_char[i] for i in output])

In [56]:
predict_rnn('分开', 10, rnn, params, init_rnn_state, num_hiddens, vocab_size,
           device, idx_to_char, char_to_idx)

'分开般嘴红抱腐激枯圈传栈'

In [59]:
def grad_clipping(params, theta, device):
    norm = torch.tensor([0.0], device=device)
    for param in params:
        norm += (param.grad.data ** 2).sum()
    norm = norm.sqrt().item()
    if norm > theta:
        for param in params:
            param.grad.data *= (theta / norm)

In [66]:
def train_and_predict_rnn(rnn, get_params, init_rnn_state, num_hiddens, vocab_size,
                         device, corpus_indices, idx_to_char, char_to_idx, is_random_iter,
                         num_epochs, num_steps, lr, clipping_theta, batch_size, pred_period,
                         pred_len, prefixes):
    if is_random_iter:
        data_iter_fn = d2l.data_iter_random
    else:
        data_iter_fn = d2l.data_iter_consecutive
    params = get_params()
    loss = nn.CrossEntropyLoss()
    
    for epoch in range(num_epochs):
        if not is_random_iter:
            state = init_rnn_state(batch_size, num_hiddens, device)
        l_sum, n, start = 0.0, 0, time.time()
        data_iter = data_iter_fn(corpus_indices, batch_size, num_steps, device)
        for X, Y in data_iter:
            if is_random_iter:
                state = init_rnn_state(batch_size, num_hiddens, device)
            else:
                for s in state:
                    s.detach_()
            
            inputs = to_onehot(X, vocab_size)
            (outputs, state) = rnn(inputs, state, params)
            outputs = torch.cat(outputs, dim=0)
            y = torch.transpose(Y, 0, 1).contiguous().view(-1)
            l = loss(outputs, y.long())
            
            if params[0].grad is not None:
                for param in params:
                    param.grad.data.zero_()
            l.backward()
            grad_clipping(params, clipping_theta, device)
            d2l.sgd(params, lr, 1)
            
            l_sum += l.item() * y.shape[0]
            n += y.shape[0]
        
        if (epoch + 1) % pred_period == 0:
            print('epoch %d, perplexity %f, time %.2f sec' %
                 (epoch + 1, math.exp(l_sum / n), time.time() - start))
            for prefix in prefixes:
                print(' -', predict_rnn(prefix, pred_len, rnn ,params, init_rnn_state,
                                       num_hiddens, vocab_size, device, idx_to_char,
                                       char_to_idx))

In [75]:
num_epochs, num_steps, batch_size, lr, clipping_theta = 250, 35, 32, 1e2, 1e-2
pred_period, pred_len ,prefixes = 50, 50, ['窗外', '不分开']

In [76]:
train_and_predict_rnn(rnn, get_params, init_rnn_state, num_hiddens, vocab_size,
                     device, corpus_indices, idx_to_char,char_to_idx, True, num_epochs,
                     num_steps, lr, clipping_theta, batch_size, pred_period, pred_len,
                     prefixes)

epoch 50, perplexity 64.224074, time 0.08 sec
 - 窗外 我想要再想 我不要再想 我不要再想 我不要再想 我不要再想 我不要再想 我不要再想 我不要再想 我
 - 不分开  我不你的可爱 我想要再想 我不要再想 我不要再想 我不要再想 我不要再想 我不要再想 我不要再想
epoch 100, perplexity 9.818939, time 0.08 sec
 - 窗外 一只人 干什么 干什么 干什么 干什么 干什么 干什么 干什么 干什么 干什么 干什么 干什么 干
 - 不分开吗 我后能再想 我不能再想 我不能再想 我不 我不 我不要再想 我不 我不 我不要再想 我不 我不 
epoch 150, perplexity 2.750953, time 0.08 sec
 - 窗外 一只不著留 谁颗都 如在堂 是属了那信代老 干什么 干什么 三颗丹著年沙开 干什么 干什么 呼果吐
 - 不分开扫 然后将过去 有慢是开说 仙人在停羞 蜥蝪横 旧怪了 是属了那信代老 干什么 干什么 三颗丹著年心
epoch 200, perplexity 1.570138, time 0.08 sec
 - 窗外 距只人 一颗两颗三颗四步望著天 看星星 一颗两颗三颗四颗 连成线背著背 默荡在蓝居 一天都没有喝了
 - 不分开扫把的胖女巫 用拉丁文念咒语啦啦呜 她养的黑猫笑起来像哭 啦啦啦呜 我想是这节奏 后知后觉 我该好好
epoch 250, perplexity 1.309839, time 0.09 sec
 - 窗外撑愿凉像 我想著你已经很提 就想躲这 你想我有多重要 我后悔没让你知道 安静的听你撒娇 看你睡著一直
 - 不分开期 然后将过  静种不夫 我妈种努力向 后知尽觉 他们上双太记 哼 我用手刀防口  有 我们啊很单吧


In [68]:
train_and_predict_rnn(rnn, get_params, init_rnn_state, num_hiddens, vocab_size,
                     device, corpus_indices, idx_to_char,char_to_idx, False, num_epochs,
                     num_steps, lr, clipping_theta, batch_size, pred_period, pred_len,
                     prefixes)

epoch 50, perplexity 56.120992, time 0.08 sec
 - 分开 我想要你的 我不能再不 我不 再不 我不 我不要再不 我不 再不 我不 我不要再不 我不 再不 我
 - 不分开 我想要这我 我不 我不 我不 我不要再不 我不 再不 我不 我不要再不 我不 再不 我不 我不要再
epoch 100, perplexity 6.497396, time 0.08 sec
 - 分开 我想无 是你走著 快些一直热粥 哼哼哈兮 如使我双轻功 飞檐走壁 为人之人太极 一哼哈兮 快使用双
 - 不分开柳 你已经这开我 不知不觉 我跟了这节奏 我该好好生活 不知不觉 我跟了这节奏 我该好好生活 不知不
epoch 150, perplexity 1.981733, time 0.08 sec
 - 分开 用对在 旧什么中我手 所说啊 是不是你不想活 说你怎么面对我 甩开球我满腔的怒火 我想揍你已经很久
 - 不分开觉 你已经离开我 不知不觉 我跟了这节奏 后知后觉 又过了一个秋 后知后觉 我该好好生活 我该好好生
epoch 200, perplexity 1.261550, time 0.08 sec
 - 分开 问候到 旧什么中我手 你说啊 是不是你不想活 说你怎么面对我 甩开球我满腔的怒火 我想揍你已经很久
 - 不分开觉 你已经离开我 不知不觉 我跟了这节奏 后知后觉 又过了一个秋 后知后觉 我该好好生活 我该好好生
epoch 250, perplexity 1.186326, time 0.08 sec
 - 分开 心候的 旧什么 对什么田年 老师盘在身边 它什么 干什么 我打开任督二脉 干什么 干什么 日行丹里
 - 不分开觉 你已经离开我 不知不觉 我跟了这节奏 后知后觉 又知后觉 迷迷蒙蒙 你给的梦 出现裂缝 隐隐作痛


### 手写总结
先生成one-hot的(sequence, batch, vocab_size)序列，然后初始化RNN参数和第一个隐变量。定义好RNN和clipping就可以训练了，训练的时候记得把output拉平，Y转置再拉平(因为输出cat之后是按sequence顺序排的，Y补转置就是按batch顺序排的），最后再预测即可