In [82]:
import numpy as np
import random
import os

In [1]:
data = []
with open('data/poem.tang.txt', 'r', encoding='utf-8') as f:
    for line in f:
        data.append(line.strip())

In [3]:
random.choice(data)

'雷声震，连日不收声。此象正为多失信，为他官吏不能清，天令与人闻。'

In [4]:
np.max(list(map(len, data)))

100

In [5]:
np.min(list(map(len, data)))

10

In [6]:
np.mean(list(map(len, data)))

46.836638629523883

In [7]:
np.median(list(map(len, data)))

48.0

In [14]:
import torch
import torch.nn as nn
from torch.autograd import Variable

In [161]:
class Config(object):
    """RNNLM模型配置项"""
    embedding_dim = 5  # 词向量维度

    rnn_type = 'LSTM'  # 支持RNN/LSTM/GRU
    hidden_dim = 5  # 隐藏层维度
    num_layers = 2  # RNN 层数

    dropout = 0.5  # 丢弃概率
    tie_weights = True  # 是否绑定参数

    clip = 0.25  # 用于梯度规范化
    learning_rate = 0.5  # 初始学习率

    num_epochs = 50  # 迭代轮次
    log_interval = 50  # 每隔多少个批次输出一次状态
    save_interval = 3  # 每个多少个轮次保存一次参数

In [162]:
class RNNLM(nn.Module):
    """基于RNN的语言模型，包含一个encoder，一个rnn模块，一个decoder。"""

    def __init__(self, config):
        super(RNNLM, self).__init__()

        v_size = config.vocab_size
        em_dim = config.embedding_dim
        dropout = config.dropout
        
        self.rnn_type = rnn_type = config.rnn_type
        self.hi_dim = hi_dim = config.hidden_dim
        self.n_layers = n_layers = config.num_layers

        self.drop = nn.Dropout(dropout)
        self.encoder = nn.Embedding(v_size, em_dim)

        # rnn: RNN / LSTM / GRU
        self.rnn = getattr(nn, rnn_type)(em_dim, hi_dim, n_layers, dropout=dropout)
        self.decoder = nn.Linear(hi_dim, v_size)

        # tie_weights将encoder和decoder的参数绑定为同一参数。
        if config.tie_weights:
            if hi_dim != em_dim:  # 这两个维度必须相同
                raise ValueError('When using the tied flag, hi_dim must be equal to em_dim')
            self.decoder.weight = self.encoder.weight

        self.init_weights()  # 初始化权重

    def forward(self, inputs, hidden):
        seq_len = len(inputs)
        emb = self.drop(self.encoder(inputs).view(seq_len, 1, -1))
        output, hidden = self.rnn(emb, hidden)
        output = self.decoder(output.view(seq_len, -1))
        return output, hidden  # 复原

    def init_weights(self):
        """权重初始化，如果tie_weights，则encoder和decoder权重是相同的"""
        init_range = 0.1
        self.encoder.weight.data.uniform_(-init_range, init_range)
        self.decoder.weight.data.uniform_(-init_range, init_range)
        self.decoder.bias.data.fill_(0)

    def init_hidden(self):
        """初始化隐藏层"""
        weight = next(self.parameters()).data
        if self.rnn_type == 'LSTM':  # lstm：(h0, c0)
            return (Variable(weight.new(self.n_layers, 1, self.hi_dim).zero_()),
                    Variable(weight.new(self.n_layers, 1, self.hi_dim).zero_()))
        else:  # gru 和 rnn：h0
            return Variable(weight.new(self.n_layers, 1, self.hi_dim).zero_())

In [163]:
config = Config()
config.vocab_size = 5000
model = RNNLM(config)

In [164]:
inputs = Variable(torch.LongTensor([1, 2, 3, 4, 5]))

In [165]:
output, hidden = model(inputs, model.init_hidden())
output

Variable containing:
 4.2711e-03  1.2456e-02  2.5378e-03  ...  -1.5393e-02 -1.9186e-02  2.1262e-02
 4.4557e-03  1.6255e-02  1.5406e-03  ...  -2.0911e-02 -2.6532e-02  2.9455e-02
 4.9983e-03  2.0719e-02  2.6081e-03  ...  -2.2978e-02 -2.8996e-02  3.6590e-02
 3.4249e-03  2.0958e-02  9.1040e-04  ...  -2.2375e-02 -2.7427e-02  3.8423e-02
 2.9938e-03  2.2964e-02  4.2221e-04  ...  -2.3548e-02 -2.9987e-02  4.2601e-02
[torch.FloatTensor of size 5x5000]

In [166]:
def open_file(filename, mode='r'):
    return open(filename, mode=mode, encoding='utf-8', errors='ignore')

class Corpus(object):
    """
    文本预处理，获取词汇表，并将字符串文本转换为数字序列。
    """

    def __init__(self, train_dir, vocab_dir):
        assert os.path.exists(train_dir), 'File %s does not exist.' % train_dir
        
        if not os.path.exists(vocab_dir):
            words = list(set(list(open_file(train_dir).read().replace('\n', ''))))
            open_file(vocab_dir, 'w').write('\n'.join(sorted(words)) + '\n')
        
        words = open_file(vocab_dir).read().strip().split('\n')
        word_to_id = dict(zip(words, range(len(words))))
        
        data = []
        with open_file(train_dir) as f:
            for line in f:
                poem = [word_to_id[x] for x in line.strip() if x in word_to_id]
                data.append(poem)
        
        self.words = words
        self.word_to_id = word_to_id
        self.data = data

    def __repr__(self):
        return "Corpus length: %d, Vocabulary size: %d" % (len(self.data), len(self.words))

In [167]:
corpus = Corpus('data/poem.tang.txt', 'data/poem.vocab.txt')

In [168]:
corpus

Corpus length: 51836, Vocabulary size: 7353

In [169]:
config = Config()
corpus = Corpus('data/poem.tang.txt', 'data/poem.vocab.txt')
config.vocab_size = len(corpus.words)
corpus

Corpus length: 51836, Vocabulary size: 7353

In [170]:
model = RNNLM(config)

In [171]:
criterion = nn.CrossEntropyLoss()

In [172]:
from torch import optim
optimizer = optim.Adam(model.parameters(), lr=0.01)

In [176]:
inputs = Variable(torch.rand(1, 1).mul(len(corpus.words)).long(), volatile=True) 
inputs

Variable containing:
 5545
[torch.LongTensor of size 1x1]

In [180]:
output, hidden = model(inputs, hidden)
word_weights = output.squeeze().data.div(1).exp().cpu()
word_idx = torch.multinomial(word_weights, 1)[0]
word_idx

7351

In [183]:
use_cuda = False

In [184]:
def generate(model, words, word_len=50, temperature=1.0):
    """生成一定数量的文本，temperature结合多项式分布可增添抽样的多样性。"""
    model.eval()
    hidden = model.init_hidden()  # batch_size为1
    inputs = Variable(torch.rand(1, 1).mul(len(words)).long(), volatile=True)  # 随机选取一个字作为开始
    if use_cuda:
        inputs = inputs.cuda()

    word_list = []
    for i in range(word_len):  # 逐字生成
        output, hidden = model(inputs, hidden)
        word_weights = output.squeeze().data.div(temperature).exp().cpu()

        # 基于词的权重，对其再进行一次抽样，增添其多样性，如果不使用此法，会导致常用字的无限循环
        word_idx = torch.multinomial(word_weights, 1)[0]
        inputs.data.fill_(word_idx)  # 将新生成的字赋给inputs
        word = words[word_idx]
        word_list.append(word)
    return word_list

In [197]:
def generate2(model, words, word_len=50, temperature=1.0):
    """生成一定数量的文本，temperature结合多项式分布可增添抽样的多样性。"""
    model.eval()
    hidden = model.init_hidden()  # batch_size为1
    inputs = Variable(torch.rand(1, 1).mul(len(words)).long(), volatile=True)  # 随机选取一个字作为开始
    if use_cuda:
        inputs = inputs.cuda()

    word_list = []
    for i in range(word_len):  # 逐字生成
        output, hidden = model(inputs, hidden)
        topv, topi = output.data.topk(1)
        word_idx = topi[0][0]
        inputs.data.fill_(word_idx)  # 将新生成的字赋给inputs
        word = words[word_idx]
        word_list.append(word)
    return word_list

In [198]:
generate2(model, corpus.words)

['不',
 '不',
 '，',
 '人',
 '人',
 '人',
 '人',
 '，',
 '人',
 '人',
 '人',
 '，',
 '，',
 '，',
 '人',
 '人',
 '人',
 '。',
 '山',
 '不',
 '不',
 '不',
 '，',
 '人',
 '人',
 '人',
 '，',
 '，',
 '人',
 '，',
 '人',
 '人',
 '人',
 '人',
 '，',
 '人',
 '人',
 '不',
 '人',
 '，',
 '人',
 '人',
 '人',
 '人',
 '，',
 '人',
 '人',
 '人',
 '人',
 '，']

In [199]:
total_loss = 0.0
for i in range(50000):
    model.train()
    rand_data = random.choice(corpus.data)
    inputs = Variable(torch.LongTensor(rand_data[:-1]))
    targets = Variable(torch.LongTensor(rand_data[1:]))

    
    hidden = model.init_hidden()
    outputs, hidden = model(inputs, hidden)
    loss = criterion(outputs, targets)
    model.zero_grad()
    loss.backward()
    optimizer.step()
    
    total_loss += loss
    if i % config.log_interval == 0 and i > 0:
        print(total_loss.data[0] / config.log_interval)
        total_loss = 0.0
    
    if i % 100 == 0 and i > 0:
        gen_words = generate2(model, corpus.words)
        print(''.join(gen_words))

6.430486450195312
6.18111572265625
不不，人不不，，，人不，人人不，，，人不，不人不，，，人不不。人不不不，不人不，，，人不不。山不不不
6.320678100585938
6.332272338867187
不有，人有有，，人，人人有，人人有，人人有，人人有，人人有，人人人，人人有，人人人，人人有，人人人，
6.2412548828125
6.224560546875
不不，人人人，，人，人人人，人人人，人人人，人人人，人人人，人人人，人人人，人人人，人人人，人人人，
6.3541192626953125
6.227049560546875
不不，人人人，，人，人人人，，，不不人，人人人人，人不人人，人人人人，人人人人，人人人人，人人人人，
6.189553833007812
6.263450927734375
不人，人人人，，，人不人。人不不人，，，人不人，人人人，，，人不人。，人。人人人，，，人不人。，人。
6.363748168945312
6.36052490234375
不不，人人人，，，人不人，，，人不人人。，不不。，，人不人，，，人不不人。，不不。，，人不人，，，人
6.250488891601562
6.346702880859375
不不，人人人，，人人。，不人。，人。人人人，，人人。，不人。，人，人不人人，人人人人，人人人人，人人
6.21375732421875
6.197671508789062
不不，不不不不，不不不不，不不不不，，人，不不不不，，，不不不不。，不不。，，不不不不。，不不。，人
6.261364135742188
6.24614990234375
不不，不不不，，，不不不，不不不不，不不不不，不不不不，不不不不，不不不不，不不不不，不不不不，不不
6.3384228515625
6.324801025390625
不不，不不不，，，不不，，，不不不，，，不不不，，，不不不，，，不不不，，，不不不，，，不不不，，，
6.31096435546875
6.189857177734375
不不，人不不，，，不不，不不不，不人不，不人不，不人不，不人不，不人不，不人不，不人不，不人不，不人
6.325186767578125
6.210989990234375
不不，人人人，，，人人人，人人人人，

KeyboardInterrupt: 

In [None]:
for i in range(len)