In [1]:
%config ZMQInteractiveShell.ast_node_interactivity = "all"
%pprint

Pretty printing has been turned OFF


In [2]:
import torch
import zipfile
import numpy as np
import torch
import torch.nn as nn
import torch.nn.functional as F
import sys
sys.path.append("../d2l_func/")
from data_prepare import load_data_jay_song

In [3]:
import os
import random

def set_seed(seed):
    random.seed(seed)
    np.random.seed(seed)
    os.environ["PYTHONHASHSEED"] = str(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed(seed)
    
set_seed(2020)

## RNN

相对于多层感知机和能够有效处理空间信息的CNN，RNN主要用于处理时序数据，它引入状态变量来存储过去的信息，并用其于当前的输入共同决定当前的输出

$$h_{t} = f(W_{hx}x_t + W_{hh}h_{t-1} + b_h)$$
$$y_t = g(W_{yh}h_t + b_y)$$

### 矩阵验证

其实对于$W_{hx}, x_t, W_{hh}, h_{t-1}$，它们是可以不需要分开处理，只需将$x_t$和$h_{t-1}$按列合并，将$W_{xh}$和$W_{hh}$按行合并，并进行矩阵相乘，能获得一样的结果

In [4]:
# 假设xt-->(3, 1), W_hx--->(4, 3)，W_hh--->(4, 4), h_(t-1) ---> (3, 4)
xt = np.random.rand(3, 1)
w_hx = np.random.rand(1, 4)
w_hh = np.random.rand(4, 4)
h_t_1 = np.random.randn(3, 4)

h_t = xt@w_hx + h_t_1@w_hh
h_t 

array([[ 0.5039055 ,  0.68748887,  0.27735572,  0.44060468],
       [-1.17356232, -1.21886162, -0.78443266, -0.19152705],
       [ 1.22858751,  0.44505867,  0.87707424,  0.31565405]])

In [5]:
h_t = np.hstack((xt, h_t_1)) @ np.vstack((w_hx, w_hh))
h_t

array([[ 0.5039055 ,  0.68748887,  0.27735572,  0.44060468],
       [-1.17356232, -1.21886162, -0.78443266, -0.19152705],
       [ 1.22858751,  0.44505867,  0.87707424,  0.31565405]])

### 创建token映射

使用周杰伦歌词来建模，并对周杰伦歌词进行预处理

In [6]:
# f.read是读取整个文件数据字符串，f.readline是读取一行数据，f.readlines是读取一个数据列表
with zipfile.ZipFile("../data/jaychou_lyrics.txt.zip") as zfile:
    with zfile.open("jaychou_lyrics.txt", "r") as f:
        corpus_chars = f.read().decode("utf-8")
        
# 看一下数据长什么样
corpus_chars[:100]
len(corpus_chars)

'想要有直升机\n想要和你飞到宇宙去\n想要和你融化在一起\n融化在宇宙里\n我每天每天每天在想想想想著你\n这样的甜蜜\n让我开始乡相信命运\n感谢地心引力\n让我碰到你\n漂亮的让我面红的可爱女人\n温柔的让我心疼的可'

63282

整个数据集中有63282条数据，为了打印方便，将换行符来替换空格

In [7]:
corpus_chars.count("\n")
corpus_chars.count("\r")
corpus_chars = corpus_chars.replace("\n", " ")

5819

0

In [8]:
def zip_data_jay_song():
    # extract data from jay zipfile
    with zipfile.ZipFile("../data/jaychou_lyrics.txt.zip") as zip_file:
        with zip_file.open("jaychou_lyrics.txt", "r") as f:
            corpus_char = f.read().decode("utf-8")

    # substitute "\n" to space
    return corpus_char.replace("\n", " ").replace("\r", " ")


def load_data_jay_song(sort=True):
    """
    function: function: load the data of jay song which use in RNN
    params corpus_char: the complete char of corpus
    """
    corpus_char = zip_data_jay_song()
    # idx to char
    vocab_set = list(set(corpus_char))
    if sort:
        vocab_set.sort()
    # char to idx
    char_to_idx = {char: i for i, char in enumerate(vocab_set)}
    # vocab size
    vocab_size = len(vocab_set)
    # the index of corpus
    corpus_index = [char_to_idx[i] for i in corpus_char]

    return corpus_index, char_to_idx, vocab_set, vocab_size


In [9]:
corpus_index, chars_to_idx, vocab_set, vocab_size = load_data_jay_song(corpus_chars)

In [10]:
corpus_index[:30]

[932, 2114, 1194, 1654, 359, 1210, 0, 932, 2114, 459, 192, 2500, 317, 680, 687, 388, 0, 932, 2114, 459, 192, 2077, 350, 550, 64, 2215, 0, 2077, 350, 550]

### 时序数据采样

在训练中我们每次需要随机读取小批量样本和标签，时序数据的一个样本通常包含连续字符
- 如果time-step=5的时候，就是输入的样本序列为5个字符（你-今-天-吃-了），标签中的每一个字符就是对应训练集中的下一个字符（今-天-吃-了-吗）
- 对时序数据的采样方式有两种，一个是随机采样，另外一种就是相邻采样

#### 随机采样

在随机采样中，每个样本是原始序列中任意截取的一段序列，相邻的两个随机小批量在原始序列中的位置不一定相毗邻
- 因此，我们不能用前一个小批量最后time_step的隐藏状态来初始化下一个小批量的隐藏状态
- 在训练模型的时候，如果使用随机采样，那么在每次随机采样之前都要重新初始化隐藏状态

In [11]:
def data_iter_random(corpus_index, batch_size, num_steps, device):
    """
    function: realize random sample
    params corpus_index: the idx with corpus --> list
    params batch_size: the size of each batch
    params num_steps: the number of time steps in a network
    """
    # because the index of y is equal to the index of x + 1, so when we calucate the number of example,
    # we should use len(corpus_index) - 1, "example_num" stand fot the number of example with the num_steps.
    example_num = (len(corpus_index) - 1) // num_steps
    sample_start = (len(corpus_index) - 1) % num_steps
    # the example is the combination of several char, so it must with num_steps. when the example is not the
    # factor of batch_size, we only retain the complete example
    sample_start = np.random.randint(sample_start + 1)
    example_index = np.arange(sample_start, len(corpus_index), num_steps)[:example_num]
    np.random.shuffle(example_index)

    # extract batch example
    for idx in np.arange(0, len(example_index), batch_size):
        batch_example = example_index[idx:(idx+batch_size)]
        # extract example in each batch
        x = [corpus_index[pos:(pos+num_steps)] for pos in batch_example]
        y = [corpus_index[(pos+1):(pos+1+num_steps)] for pos in batch_example]
        yield torch.tensor(x, dtype=torch.float32, device=device), torch.tensor(y, dtype=torch.float32, device=device)

In [12]:
# 生成数据
corpus_index, char_to_idx, vocab_set, vocab_size = load_data_jay_song()

In [13]:
corpus_index[:30]

[932, 2114, 1194, 1654, 359, 1210, 0, 932, 2114, 459, 192, 2500, 317, 680, 687, 388, 0, 932, 2114, 459, 192, 2077, 350, 550, 64, 2215, 0, 2077, 350, 550]

In [14]:
# corpus_index = list(range(30))
for x, y in data_iter_random(corpus_index[:30], 2, 6, "cpu"):
    print(f"x: {x}")
    print(f"y: {y}")
    print("\n")

x: tensor([[ 459.,  192., 2500.,  317.,  680.,  687.],
        [2077.,  350.,  550.,   64., 2215.,    0.]])
y: tensor([[ 192., 2500.,  317.,  680.,  687.,  388.],
        [ 350.,  550.,   64., 2215.,    0., 2077.]])


x: tensor([[1654.,  359., 1210.,    0.,  932., 2114.],
        [ 388.,    0.,  932., 2114.,  459.,  192.]])
y: tensor([[ 359., 1210.,    0.,  932., 2114.,  459.],
        [   0.,  932., 2114.,  459.,  192., 2077.]])




### 相邻采样

我们还可以让相邻的两个随机小批量在原始序列上的位置相邻，这时我们就可以用一个小批量最终时间步的隐藏层来初始化下一个小批量的隐藏状态，那么下一个下批量的输出也取决于当前小批量的输入
- 这样做，在训练模型的时候，我们只需要一个迭代周期开始的时候初始化隐藏状态
- 当多个相邻小批量通过传递隐藏状态串联起来的时候，模型参数的梯度计算将依赖所有串联起来的小批量序列。随着迭代次数的增加，梯度计算开销回越来越大（此时可以在每次小批量前将隐藏状态从计算图中分离出来，让模型参数的梯度计算只依赖一次迭代读取的小批量序列）

In [15]:
def data_iter_consecutive(corpus_index, batch_size, num_step, device):
    """realize consecutive sample, the params is same as random sample"""
    # change to tensor in order to the use "view" 
    corpus_index = torch.tensor(corpus_index, dtype=torch.float32, device=device)
    # the length of batch if only split in a batch with batch_size
    batch_len = len(corpus_index) // batch_size
    # sample batch
    batch_start = np.random.randint(len(corpus_index) % batch_size + 1)
    corpus_index = corpus_index[batch_start: batch_start+batch_size*batch_len].view(batch_size, -1)
    
    # sample example
    sample_start = np.random.randint((batch_len - 1) % num_step + 1)
    # the max num generate with batch_size
    batch_num = (batch_len - 1) // num_step
    
    # yield consecutive sample with num_step
    for i in range(batch_num):
        i = sample_start + i * num_step
        x = corpus_index[:, i:(i+num_step)]
        y = corpus_index[:, (i+1):(i+1+num_step)]
        yield x, y

In [16]:
corpus_index[:30]

[932, 2114, 1194, 1654, 359, 1210, 0, 932, 2114, 459, 192, 2500, 317, 680, 687, 388, 0, 932, 2114, 459, 192, 2077, 350, 550, 64, 2215, 0, 2077, 350, 550]

In [17]:
# corpus_index = list(range(30))
for x, y in data_iter_consecutive(corpus_index[:30], 2, 6, "cpu"):
    print(f"x: {x}")
    print(f"y: {y}")
    print("\n")

x: tensor([[2114., 1194., 1654.,  359., 1210.,    0.],
        [   0.,  932., 2114.,  459.,  192., 2077.]])
y: tensor([[1194., 1654.,  359., 1210.,    0.,  932.],
        [ 932., 2114.,  459.,  192., 2077.,  350.]])


x: tensor([[ 932., 2114.,  459.,  192., 2500.,  317.],
        [ 350.,  550.,   64., 2215.,    0., 2077.]])
y: tensor([[2114.,  459.,  192., 2500.,  317.,  680.],
        [ 550.,   64., 2215.,    0., 2077.,  350.]])




时序数据采样方式包括随机采样和相邻采样，使用这两种方式的循环神经网络训练在实现上有一些不同

## 从零实现

### one-hot

为了将词表示成向量输入到神经网络，一个简单的方式是使用one-hot向量

#### scatter_

input.scatter_(dim, index, src)
- input: 想要改变内部数据的tensor
- dim: 从哪一个维度修改数据
- index：给出需要改的元素索引，它在dim维度的数据数量应该和input一样
- src: 准备好的插入的数据。

In [18]:
x = torch.zeros(2, 5)
print(f"x: {x}")
index = torch.tensor([0, 3]).view(-1, 1)
x.scatter_(1, index, 1)

x: tensor([[0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.]])


tensor([[1., 0., 0., 0., 0.],
        [0., 0., 0., 1., 0.]])

#### one_hot自定义实现

In [19]:
# onehot
from functools import reduce

def onehot(corpus_index, vocab_size, device):
    """
    function: change idx to one-hot vector depend on vocab_size
    params corpus_index: the batch index of corpus in one time_step
    params vocab_size: the length of vocab
    params device: cpu or cuda
    """
    # the "scatter_" function need the type of index --> int, the index shape is (batch_size, )
    corpus_index = corpus_index.long().to(device)
    # generate inputs like the corpus_index shape
    inputs = torch.zeros(corpus_index.shape[0], vocab_size, device=device)
    # one-hot, scatter_(dim, index, src)
    inputs.scatter_(1, corpus_index.view(-1, 1), 1)
    return inputs.unsqueeze(0)

测试

In [20]:
# 获取数据
corpus_index, char_to_idx, vocab_set, vocab_size = load_data_jay_song()

# 用10个数据来进行测试
corpus_index[:10]
x1 = onehot(torch.tensor(corpus_index[:10]), vocab_size, "cpu").long()
x1
# shape: (num_step, batch, vocab_size)
x1.shape

# 使用pytorch自带的实现
x2 = F.one_hot(torch.tensor(corpus_index[:10]), vocab_size)
x2
x2.shape

# 测试结果一样
(x1 == x2).all()

[932, 2114, 1194, 1654, 359, 1210, 0, 932, 2114, 459]

tensor([[[0, 0, 0,  ..., 0, 0, 0],
         [0, 0, 0,  ..., 0, 0, 0],
         [0, 0, 0,  ..., 0, 0, 0],
         ...,
         [0, 0, 0,  ..., 0, 0, 0],
         [0, 0, 0,  ..., 0, 0, 0],
         [0, 0, 0,  ..., 0, 0, 0]]])

torch.Size([1, 10, 2582])

tensor([[0, 0, 0,  ..., 0, 0, 0],
        [0, 0, 0,  ..., 0, 0, 0],
        [0, 0, 0,  ..., 0, 0, 0],
        ...,
        [0, 0, 0,  ..., 0, 0, 0],
        [0, 0, 0,  ..., 0, 0, 0],
        [0, 0, 0,  ..., 0, 0, 0]])

torch.Size([10, 2582])

tensor(True)

我们每次采样的小批量shape为(batch_size, num_step)，变成one_hot后，小批量的shape就变成(num_step, batch_size, vocab_size)，也就是时间步t的输入维度为(batch_size, vocab_size)

In [21]:
def to_onehot(corpus_index, vocab_size, device):
    """
    function: change idx with many time step to one hot vector
    params corpus_index: the batch index of corpus with many time_step
    params vocab_size: the length of vocab
    params device: cpu or cuda
    """
    # corpus_index shape: (batch_size, num_step)
    # return shape---> (num_step, batch_size, vocab_size)
    return reduce(lambda x, y: torch.cat((x, y)), 
                  [onehot(corpus_index[:, i], vocab_size, device) for i in range(corpus_index.shape[1])])

In [22]:
from data_prepare import data_iter_random

for x, y  in data_iter_random(corpus_index[:30], 2, 6, "cpu"):
    print(f"x: {to_onehot(x, vocab_size, 'cpu').shape}")
    print(f"y: {to_onehot(y, vocab_size, 'cpu').shape}")
    print("\n")

x: torch.Size([6, 2, 2582])
y: torch.Size([6, 2, 2582])


x: torch.Size([6, 2, 2582])
y: torch.Size([6, 2, 2582])




### 初始化模型参数

对于模型的输入，由于使用one-hot来表示词的输入。因此，网络的输入和输出单元数实际上都是vocab_size，只有隐藏单元数量是一个超参数

In [23]:
# defind rnn params
def get_params(input_num, hidden_num, output_num, device):
    def _ones(shape):
        weight = nn.Parameter(torch.normal(0, 0.01, size=shape, device=device), requires_grad=True)
        return weight
    
    def _zeros(shape):
        bias = nn.Parameter(torch.zeros(shape, device=device), requires_grad=True)
        return bias
    
    # hidden params
    w_xh = _ones((input_num, hidden_num))
    w_hh = _ones((hidden_num, hidden_num))
    w_hy = _ones((hidden_num, output_num))
    
    # output params
    b_h = _zeros(hidden_num)
    b_y = _zeros(output_num)
    return nn.ParameterList([w_xh, w_hh, b_h, w_hy, b_y])

In [24]:
get_params(vocab_size, 256, vocab_size, "cpu")

ParameterList(
    (0): Parameter containing: [torch.FloatTensor of size 2582x256]
    (1): Parameter containing: [torch.FloatTensor of size 256x256]
    (2): Parameter containing: [torch.FloatTensor of size 256]
    (3): Parameter containing: [torch.FloatTensor of size 256x2582]
    (4): Parameter containing: [torch.FloatTensor of size 2582]
)

### RNN网络实现

In [25]:
# define hidden state
def init_hidden_state(batch_size, hidden_num, device):
    return torch.zeros(batch_size, hidden_num, device=device)

# define rnn layer
def rnn(inputs, h_state, params):
    """
    function: define the process of rnn
    params inputs: shape--> (num_step, batch_size, vocab_size), one-hot vector
    params h_state: the state of hidden layer, shape --> (batch_size, hidden_num)
    params params: the params defined in get_params
    """
    # rnn params
    w_xh, w_hh, b_h, w_hy, b_y = params
    # the number of time_step
    num_step = inputs.shape[0]
    outputs = []
    
    for step in range(num_step):
        h_state = torch.tanh(torch.mm(inputs[step], w_xh) + torch.mm(h_state, w_hh) + b_h)
        y = torch.mm(h_state, w_hy) + b_y
        outputs.append(y.unsqueeze(0))
    
    # return shape --> (num_step, batch_size, vocab_size)
    return reduce(lambda x,y: torch.cat((x, y)), outputs), h_state

In [26]:
# batch_size=2, num_step=5, vocab_size=15, hidden_num=20
x = torch.arange(10).view(2, 5)
inputs = to_onehot(x, 15, "cpu")
h_state = init_hidden_state(2, 20, "cpu")
params = get_params(15, 20, 15, "cpu")
outputs, h_state = rnn(inputs, h_state, params)

In [27]:
outputs.shape
h_state.shape

torch.Size([5, 2, 15])

torch.Size([2, 20])

### RNN预测

生成歌词

In [28]:
def predict_rnn(prefix, pred_num, rnn, init_hidden_state, hidden_num, 
                params, char_to_idx, vocab_set, vocab_size, device):
    """
    function: predict by using rnn network
    params prefix: input, such as "分开"
    params pred_num: the number you want to predict
    params init_hidden_state: define the state of hidden layer
    params hidden_num: the number of hidden unit
    params params: the weight and bias which need to learn
    params char_to_idx: convert chinese to index (char index defined by load_data_jay_song)
    params vocab_set: the list of word in corpus
    params vocab_size: the length of vocab_set
    params device: "cpu"/"cuda"
    """
    # list which store outputs
    outputs = [char_to_idx[prefix[0]]] 
    # define hidden state: batch_size=1
    h_state = init_hidden_state(1, hidden_num, device)
    
    for i in range(len(prefix) + pred_num - 1):
        inputs = to_onehot(torch.tensor(outputs[-1]).view(-1, 1), vocab_size, device)
        y, h_state = rnn(inputs, h_state, params)
        
        # if the next word is in prefix
        if i + 1 < len(prefix):
            outputs.append(char_to_idx[prefix[i+1]])
        else:
        # if the next word is not in prefix, find the best word from predict(max probability)
            outputs.append(y.argmax(dim=2).item())
    return "".join(vocab_set[i] for i in outputs)

In [29]:
params = get_params(vocab_size, 256, vocab_size, "cpu")
predict_rnn("分开", 10, rnn, init_hidden_state, 256, params, char_to_idx, vocab_set, vocab_size, "cpu")

'分开焚降針浮名剩驳次竟朗'

### 梯度剪裁

RNN中比较容易出现梯度爆炸和梯度消失，对于梯度爆炸，可以使用梯度剪裁来解决
- 假设所有参与梯度计算的元素拼成向量g, 设置阈值$\theta$，剪裁后的梯度为：
$$min(\frac{\theta}{\parallel g \parallel}, 1)g$$

In [30]:
def grad_clipping(params, clipping_theta, device):
    """
    function: realize clipping the grad when the norm of grad beyond theta
    params grad: the grad of rnn
    params clipping_heta: the max value of the norm of grad
    """
    norm = torch.zeros(1, device=device)
    for param in params:
        norm += (param.grad.data ** 2).sum()
        
    if norm > clipping_theta:
        for param in params:
            param.grad.data *= (clipping_theta / norm)

### 困惑度

这里使用困惑度来评价语言模型的好坏，实际上困惑度就是交叉熵损失做指数运算后得到的值
- 最好的情况，模型总把标签类别的概率预测为1，此时困惑度为1
- 最差的情况，模型总把标签类别的概率预测为0，此时困惑度为正无穷
- 基线情况，模型总把所有类别的概率都相同，此时困惑度为类别个数

即任何一个有效的模型，它的困惑度应该小于类别个数（实际上就是词典大小）

### 训练+预测

In [31]:
from sqdm import sqdm
from optim import sgd
# training bar
process_bar = sqdm()

# training
def train_rnn(epoch_num, batch_num, rnn, loss, init_hidden_state, get_params, data_iter, corpus_index,
              num_step, hidden_num, lr, batch_size, char_to_idx, vocab_set, vocab_size, prefixs,
              predict_rnn, pred_num, clipping_theta=1e-2, sample_random=True, device="cuda"):
    """
    function: training and predict in rnn
    params epoch_num: the number of epoch
    params batch_num: the number of batch in a epoch
    params rnn: the rnn model
    params loss: such as nn.CrossEntropyLoss()
    params init_hidden_state: define the state of hidden layer
    params get_params: get the weight and bias in rnn
    params data_iter: data_iter_random/data_iter_consecutive
    params corpus_index: the index of corpus
    params num_step: the number of time step in rnn
    params hidden_num: the number of unit in hidden layer in rnn
    params lr: the learning rate
    params batch_size: the size of a batch 
    params char_to_idx: char index which convert Chinese to idx
    params vocab_set: the list of word in corpus
    params vocab_size: the length of vocab_set
    params prefixs: the list include input when you want to predict, such as ["分开", "不分开"]
    params pred_num: the number you want to predict
    params clipping_heta: the max value of the norm of grad
    params sample_random: if sample in random, use data_iter_random. otherwise, use data_iter_consecutive
    params device: "cpu"/"cuda"
    """
    # init 
    l_sum, n_class = 0, 0
    # get params in rnn
    params = get_params(vocab_size, hidden_num, vocab_size, device)
        
    for epoch in range(epoch_num):
            # sample in consecutive
        if not sample_random:
            h_state = init_hidden_state(batch_size, hidden_num, device)
        print(f"Epoch [{epoch+1}/{epoch_num}]")
        for x, y in data_iter(corpus_index, batch_size, num_step, device):
            # x shape: (num_step, batch_size, vocab_size)
            x = to_onehot(x, vocab_size, device)
            # if sample with random, init h_state in each batch
            if sample_random:
                h_state = init_hidden_state(x.shape[1], hidden_num, device)
            else:
                # split h_state from cal graph, when sample_consecusive
                h_state.detach_()
                
            # rnn, the shape of outputs is (num_step, batch_size, vocab_size)
            outputs, h_state = rnn(x, h_state, params)
            # In order to calculate loss, change outputs shape and y shape
            outputs = outputs.view(-1, outputs.shape[-1])
            y = y.transpose(0, 1).contiguous().view(-1)
            # calculate loss, y --> long type
            l = loss(outputs, y.long())
            
            # update params
            if params[0].grad is not None:
                for param in params:
                    param.grad.data.zero_()
                    
            # backward
            l.backward()
            # grad clip
            grad_clipping(params, clipping_theta, device)
            # sgd
            sgd(params, lr)
            
            # loss_sum
            l_sum += l.item() * y.shape[0]
            n_class += y.shape[0]
            
            # preplexity
            try:
                perplexity = np.exp(l_sum / n_class)
            except OverflowError:
                perplexity = float("inf")
                
            # training bar
            process_bar.show_process(batch_num, 1, train_loss=perplexity)
            
        # predict
        print("\n")
        for prefix in prefixs:
            print(f"prefix-{prefix}: ", predict_rnn(prefix, pred_num, rnn, init_hidden_state, hidden_num, 
                                                    params, char_to_idx, vocab_set, vocab_size, device))
        print("\n")

In [32]:
super_params = {
    "epoch_num": 250,
    "rnn": rnn,
    "loss": nn.CrossEntropyLoss(),
    "init_hidden_state": init_hidden_state,
    "hidden_num": 256,
    "get_params": get_params,
    "batch_size": 64,
    "num_step": 32,
    "corpus_index": corpus_index,
    "data_iter": data_iter_random,
    "lr": 100,
    "char_to_idx": char_to_idx,
    "vocab_set": vocab_set,
    "vocab_size": vocab_size,
    "predict_rnn": predict_rnn,
    "pred_num": 50,
    "prefixs": ["分开", "不分开"],
#     "random_sample": False
}

super_params["batch_num"] = len(list(data_iter_random(corpus_index, super_params["batch_size"],
                                                     super_params["num_step"], "cpu")))

train_rnn(**super_params)

Epoch [1/250]
31/31 [>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] - train_loss: 34926.1619, train_score: -, test_loss: -, test_score: --

prefix-分开:  分开的的的的的的的的的的的的的的的的的的的的的的的的的的的的的的的的的的的的的的的的的的的的的的的的的的
prefix-不分开:  不分开的的的的的的的的的的的的的的的的的的的的的的的的的的的的的的的的的的的的的的的的的的的的的的的的的的


Epoch [2/250]
31/31 [>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] - train_loss: 13487.8474, train_score: -, test_loss: -, test_score: -

prefix-分开:  分开                                                  
prefix-不分开:  不分开                                                  


Epoch [3/250]
31/31 [>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] - train_loss: 7868.9402, train_score: -, test_loss: -, test_score: --

prefix-分开:  分开 你 你 你 你 你 你 你 你 你 你 你 你 你 你 你 你 你 你 你 你 你 你 你 你 你
prefix-不分开:  不分开 你 你 你 你 你 你 你 你 你 你 你 你 你 你 你 你 你 你 你 你 你 你 你 你 你


Epoch [4/250]
31/31 [>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] - train_loss: 4887.0946, train_score: -, test_loss: -, test_score: -

prefix-分开:  分开的的的的的的的的的的的的的的的的的的的的的的的的的的的的的的的的的的的的的的的的的的的的的的的的的的
prefix-不分开:  不分开的的的的的的的的的的的的的的的的的的的的的

31/31 [>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] - train_loss: 1174.9816, train_score: -, test_loss: -, test_score: -

prefix-分开:  分开的 爱 你的眼觉 你说你的可爱 你说你的可爱 你说你的可爱 你说你的可爱 你说你的可爱 你说你的可爱
prefix-不分开:  不分开的 你不能的的爱 你不能的 你的让我的让我的手情 你说我的可情 你说你的可爱 你说你的可爱 你说你的


Epoch [34/250]
31/31 [>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] - train_loss: 1138.8545, train_score: -, test_loss: -, test_score: -

prefix-分开:  分开的 我的的 我不能 我的爱 我不能 我的爱 我不能 我的爱 我不能 我的爱 我不能 我的爱 我不能 
prefix-不分开:  不分开 不能我的的笑 我们了 你说你的爱你的不能我的眼 我不能 你的爱 我不能 我的爱 我不能 我的爱 我


Epoch [35/250]
31/31 [>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] - train_loss: 1098.9985, train_score: -, test_loss: -, test_score: -

prefix-分开:  分开 我们不到  我不能  我 我 我 我 我 我 我 我 我 我 我 我 我 我 我 我 我 我 我 
prefix-不分开:  不分开  我不能   我不能   我不能 我 我不能   我不能   我不能   我不能   我不能   


Epoch [36/250]
31/31 [>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] - train_loss: 1066.0760, train_score: -, test_loss: -, test_score: -

prefix-分开:  分开 我我的让  我们我 我的眼  我的那  我的我  我的眼  我们我 我的眼  我们我 我的眼  我
prefix-不分开:  不分开 我我我我 我不能  我的爱  我们我 我的眼  我们我 我的眼  我们

31/31 [>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] - train_loss: 442.1083, train_score: -, test_loss: -, test_score: -

prefix-分开:  分开 为什么  你我的爱情 让我们的手 你说我的爱  你叫你的爱  我把你的爱写  你我的世界 你说我的
prefix-不分开:  不分开 我只能够远 我目光如龙 当敌人   霍 霍 一直两步 你的脸魂 我不能再想 我不能再想 我不能再想


Epoch [66/250]
31/31 [>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] - train_loss: 428.7309, train_score: -, test_loss: -, test_score: -

prefix-分开:  分开 为什么  你的微笑 我的世界 你的脸容 我的世界 你的脸容 不断  一个人 我知道 我一个人北 我
prefix-不分开:  不分开 我知道 你仍我的眼泪 我们的地尝 我在等待  我用第一路 我的事  你的微笑 我们的地球 我在等待


Epoch [67/250]
31/31 [>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] - train_loss: 416.0334, train_score: -, test_loss: -, test_score: -

prefix-分开:  分开 为什么这样子 你发着我不说 爱我不爱你 我不去 这样 我不想要这样 我们的话 你说你的爱写 我都不
prefix-不分开:  不分开 我知道你说你 我不想要这样 我们的话 你说你的爱写 我都不懂 我不再这样 我不要再想 我不要再想 


Epoch [68/250]
31/31 [>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] - train_loss: 403.6798, train_score: -, test_loss: -, test_score: -

prefix-分开:  分开始 不开 你不会    我 不过 不住你  我手不过 我不能 我们一直 我有一点 我有一点 我有一点
prefix-不分开:  不分开 我不能再想你 我 我不想要 你就像 我不了 不是我 我手指  你我会不到 我不

31/31 [>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] - train_loss: 186.2069, train_score: -, test_loss: -, test_score: -

prefix-分开:  分开 天不了　 我知道你我都没有错 只是忘了怎么退后 信誓的爱情 就让我们在半自己 人生的老的 我用一直
prefix-不分开:  不分开 爱能不能够永远 我没有你知道你给我的想念你 我会有你想我我说你不想 你说你我会不明白 我用本烦了 


Epoch [98/250]
31/31 [>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] - train_loss: 181.9721, train_score: -, test_loss: -, test_score: -

prefix-分开:  分开 天不了   我跟不得你 笑不到   我手 我亲  不再开  笑手不要 我的世界 你终着不见口 也知
prefix-不分开:  不分开 我不想要我 我不是我獨 我不能再想 我不能再想 我不要再想 我不要再想 我不要再想 我不要再想 我


Epoch [99/250]
31/31 [>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] - train_loss: 177.8658, train_score: -, test_loss: -, test_score: -

prefix-分开:  分开 以不断回忆 我一路在我 不用麻烦了 不用麻烦了 不用麻烦了 不用麻烦了 不用麻烦了 不用麻烦了 不
prefix-不分开:  不分开 一首 超人 的每 在小村不用 练不是我不懂 就算你已经不了我 我知道你我都没有错 只是忘了 我们 


Epoch [100/250]
31/31 [>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] - train_loss: 173.9627, train_score: -, test_loss: -, test_score: -

prefix-分开:  分开 天涯了　我们一点 等待雨 听到你 我舍啦 因为我的大你 在你脸上之前 这么会扯去 你的声音  我连
prefix-不分开:  不分开 爱你说好不想 这不会扯护 你说你走你 美不该别想要我的手 这一是因为的是我 

31/31 [>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] - train_loss: 100.2921, train_score: -, test_loss: -, test_score: -

prefix-分开:  分开 以不了 我 我 我 我手指过 在你脸 后舍 你想 我一个 我一生 我一想 那一个    我就是那条
prefix-不分开:  不分开  分手说不出来  快止我的眼泪 你 在我胸口 你的香味像 我的眼泪 让我们在半上 让我们在半 不想


Epoch [130/250]
31/31 [>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] - train_loss: 98.6452, train_score: -, test_loss: -, test_score: -

prefix-分开:  分开 以不会让我们都了永远 那大人们的蠢音 一只走 你我把离开 想象你的美 你说你 我不想 这一块  故
prefix-不分开:  不分开 我不想要开 我不了 说好的 幸福呢 我错了 泪 一起  故事    我想想 你说了 你说我 我不想


Epoch [131/250]
31/31 [>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] - train_loss: 97.0806, train_score: -, test_loss: -, test_score: -

prefix-分开:  分开 以不了 你始终变 你已经过去 我不能 说你我翻了 不可是你的喜欢 有点不要对 平色的痛 有多迭墨 
prefix-不分开:  不分开 一首都能不出来看不来 天气色的爱情 我一格 你说你好累 已经过对 在小时间用心 我们都不要再 一首


Epoch [132/250]
31/31 [>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] - train_loss: 95.5307, train_score: -, test_loss: -, test_score: -

prefix-分开:  分开 以不了 你说好好 不想我的 我怀上 你会微笑在你肩 我说你和你 我没有你就一样 说你不用听 记你 
prefix-不分开:  不分开 一首 超时速的时间 一路 强壮着我的肺 面对 这些 太威胁 太强烈 从来不喊累

31/31 [>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] - train_loss: 63.7655, train_score: -, test_loss: -, test_score: -

prefix-分开:  分开 以不了 连出来得你的美 我不想你说我不了 不好   再怎么面 我的感觉 你已听不见 你的转变 像断
prefix-不分开:  不分开 你要当是我的兄 这些命太多怪　 我们都能看到你去你的脸 想起你看的借 我定了勇气的终点 你说我不该


Epoch [162/250]
31/31 [>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] - train_loss: 62.9930, train_score: -, test_loss: -, test_score: -

prefix-分开:  分开 爱你说 不是我  我不会再想你我的你知道 我可以看自己的脸   我绕过山腰雨声敲敲       这
prefix-不分开:  不分开 爱是不是不了要让她 不用麻烦了 不用麻烦了 不用麻烦了 不用麻烦了 不用麻烦了 不用麻烦了 不用麻


Epoch [163/250]
31/31 [>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] - train_loss: 62.2464, train_score: -, test_loss: -, test_score: -

prefix-分开:  分开 爱你在角里 在墙上 后悔着 分手在海腰 用眼中的希望是一种晚 你的回音 我不能够后退 我们的爱情 
prefix-不分开:  不分开 一列都能不能来没续错过 只能说你 M一个人的感觉 我要的画面 我们在装你的终变 你的脸音在窗外零碎


Epoch [164/250]
31/31 [>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] - train_loss: 61.5265, train_score: -, test_loss: -, test_score: -

prefix-分开:  分开 爱你在角里 在小村外的溪边 默默等待 娘子 娘子 娘子 那些  琐硬  我在空功学校 我想想起你说
prefix-不分开:  不分开 我不想就这样是我知道 你说我不懂 不能再这样 我妈不到 我会有这种的生活 看着我

31/31 [>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] - train_loss: 44.9849, train_score: -, test_loss: -, test_score: -

prefix-分开:  分开 爱你说 爱是我 我不好 不要我的世界就能完留着  不是因为在乎 不是因为在乎 不是因为在乎 不是因
prefix-不分开:  不分开 我真的不该　 该坏了我说你的爱情 我们的不该　得好有 不要那么会力得更后 我会要你心碎没人帮你擦眼


Epoch [194/250]
31/31 [>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] - train_loss: 44.5428, train_score: -, test_loss: -, test_score: -

prefix-分开:  分开 爱你说 爱渐了 放在一路上  我还不差 所有回忆 我会解 你说话的笑 那么快就该了解 想要有些多机
prefix-不分开:  不分开 我真的不该 而平侵                                        


Epoch [195/250]
31/31 [>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] - train_loss: 44.1139, train_score: -, test_loss: -, test_score: -

prefix-分开:  分开 爱你这些爱我 还在很暗 不需要記 我不需要解释 所以他小丑我有多烦恼 印后的感觉 这里 不让我 我
prefix-不分开:  不分开 爱能不能够永远单一点 无法 以不到我 你不要我我看见 想象 你发 我不要 我用一双人生 随影 在车


Epoch [196/250]
31/31 [>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] - train_loss: 43.6921, train_score: -, test_loss: -, test_score: -

prefix-分开:  分开 爱你断了 去好了我 手不被 他说我不是 不要我这样 我告一口你说了 你一回的手好 心碎你在想诗 想
prefix-不分开:  不分开 一列都无法 溃在那里 在小村外的溪边 你说你好累 已在很美  等著一起  是為不

31/31 [>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] - train_loss: 33.9933, train_score: -, test_loss: -, test_score: -

prefix-分开:  分开 爱你断了我 说你怎么面对我 甩开球我满腔的怒火 我想揍你 回我的外婆家 一起  哭再见一遍热  我
prefix-不分开:  不分开 爱是我 我不可能不能 永远 不到 你不想再开 你不会听到 你不要再这样 我知道你我都没有错 只是忘


Epoch [226/250]
31/31 [>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] - train_loss: 33.7202, train_score: -, test_loss: -, test_score: -

prefix-分开:  分开 爱你断了我 说了我进都不得要我 我轻轻地尝一口 这香浓的诱惑 你喜欢的我 别在我肩上 只是你的天真
prefix-不分开:  不分开 爱不了解  当下的依度 在我地盘这   你就得听我的 节奏在招惹   我跟街舞亲热 我灌溉原则  


Epoch [227/250]
31/31 [>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] - train_loss: 33.4505, train_score: -, test_loss: -, test_score: -

prefix-分开:  分开 爱你断了一个乐 我只能看不回 你的黑色已 不是我 一个心   我跟武舞亲中 我在溉暗中 过往的画面
prefix-不分开:  不分开 爱你中起时间 天空 你的完美 你的脸溃  断唱  是一种 等a烫 一直到老 我的感觉 让生命 对每


Epoch [228/250]
31/31 [>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] - train_loss: 33.1854, train_score: -, test_loss: -, test_score: -

prefix-分开:  分开 爱你来不不要我 我不是我不要 想要走一边 想回到过去 试着了 一个人的生气 我不知 这不是我要的天
prefix-不分开:  不分开 爱是我是谁 让我们乘着阳光　 海上冲浪　吸引她目光 不要怕露出胸膛　 流一点汗　

- 可以使用基于字符级别RNN的语言模型来进行文本生成，像创作歌词
- 在训练rnn，为防止梯度爆炸，可以使用梯度裁剪
- 使用困惑度来评价模型的好坏

## 简洁实现

### RNN实验

`nn.RNN`实例向前计算的时候，不涉及输出层的计算。它返回输出和隐藏层状态，其中输出是指每个时间步中隐藏层状态，输出是最终时间步的隐藏状态，另外其隐藏层的实现为（输入到隐层，隐层到隐层均有权重）：
$$h_t = \tanh(W_{ih} x_t + b_{ih} + W_{hh} h_{(t-1)} + b_{hh})$$

In [33]:
set_seed(2020)
# 参数：输入层单元和隐藏层单元，因为在RNN中，只输出隐藏向量
rnn_layer = nn.RNN(input_size=vocab_size, hidden_size=256)

In [34]:
# 查看定义的RNN层参数
for name, param in rnn_layer.named_parameters():
    print(name, param.shape)

weight_ih_l0 torch.Size([256, 2582])
weight_hh_l0 torch.Size([256, 256])
bias_ih_l0 torch.Size([256])
bias_hh_l0 torch.Size([256])


In [35]:
# shape: (time_step, batch_size, vocab_size)
x = torch.rand(5, 2, vocab_size)
# 隐藏层的状态，其实可以不添加（如果不加，实际上会初始化为0向量）
state1 = None
state2 = torch.zeros(1, 2, 256)
y1, h_state1 = rnn_layer(x, )
y2, h_state2 = rnn_layer(x, state1)
y3, h_state3 = rnn_layer(x, state2)

In [36]:
y3[4].shape

torch.Size([2, 256])

In [37]:
h_state2.shape

torch.Size([1, 2, 256])

In [38]:
(y1 == y2).all()
(y2 == y3).all()
# y3是5个时间步的隐藏状态拼成的向量
y3.shape, h_state3.shape
# 可以看出y的最后一个时间步的输出，实际就是h_state的输出
(y3[4] == h_state3).all()

tensor(True)

tensor(True)

(torch.Size([5, 2, 256]), torch.Size([1, 2, 256]))

tensor(True)

### 使用nn定义RNN

In [39]:
class RNNModel(nn.Module):
    def __init__(self, rnn_layer, vocab_size):
        super(RNNModel, self).__init__()
        self.rnn = rnn_layer
        self.vocab_size = vocab_size
        self.hidden_num = self.rnn.hidden_size * (2 if self.rnn.bidirectional else 1)
        self.fc = nn.Linear(self.hidden_num, vocab_size)
        self.h_state = None
        
    def forward(self, x, h_state):
        # x.shape is (num_step, batch_size, vocab_size)
        # Y.shape is (num_step, batch_size, hidden_num), self.state is (1, batch_size, hidden_num)
        y, self.h_state = self.rnn(x, h_state)
        return self.fc(y), self.h_state

In [40]:
# 验证
hidden_num = 20
rnn_layer = nn.RNN(15, hidden_num)
model = RNNModel(rnn_layer, 15)
model = model.cuda()
x = torch.arange(10).view(2, 5)
x = to_onehot(x, 15, "cuda")
outputs, h_state = model(x, None)
outputs.shape, h_state.shape

(torch.Size([5, 2, 15]), torch.Size([1, 2, 20]))

In [41]:
def predict_rnn_pytorch(prefix, pred_num, model, char_to_idx, vocab_set, vocab_size, device):
    outputs = [char_to_idx[prefix[0]]]
    h_state = None
    
    for i in range(len(prefix) + pred_num - 1):
        # inputs.shape is (batch_size, num_step)
        inputs = to_onehot(torch.tensor(outputs[-1]).view(-1, 1), vocab_size, device)
        if h_state is not None:
            if isinstance(h_state, tuple):
                h_state = (h_state[0].to(device), h_state[1].to(device))
            else:
                h_state.to(device)
        # model inputs is (batch_size, num_step), y.shape is (num_step, batch_size, vocab_size)        
        y, h_state = model(inputs, h_state)
        
        if i + 1 < len(prefix):
            outputs.append(char_to_idx[prefix[i+1]])
        else:
            outputs.append(y.argmax(dim=2).item())
            
    return "".join(vocab_set[i] for i in outputs)

In [42]:
# 验证
hidden_num = 256
rnn_layer = nn.RNN(vocab_size, hidden_num)
model = RNNModel(rnn_layer, vocab_size)
model = model.cuda()
predict_rnn_pytorch("分开", 10, model, char_to_idx, vocab_set, vocab_size, "cuda")

'分开石石石毁搖搖搖搖搖搖'

In [43]:
from sqdm import sqdm
from optim import sgd
# training bar
process_bar = sqdm()

# training
def train_rnn_pytorch(epoch_num, batch_num, model, loss, optimizer, data_iter, corpus_index, num_step, 
                      batch_size, char_to_idx, vocab_set, vocab_size, prefixs, pred_num, predict_rnn_pytorch,
                      clipping_theta=1e-2, random_sample=True, device="cuda"):
    """
    function: training and predict in rnn
    params epoch_num: the number of epoch
    params batch_num: the number of batch in a epoch
    params model: the rnn model
    params loss: such as nn.CrossEntropyLoss()
    params optimizer: optimizer in pytorch
    params data_iter: data_iter_random/data_iter_consecutive
    params corpus_index: the index of corpus
    params num_step: the number of time step in rnn
    params batch_size: the size of a batch 
    params char_to_idx: char index which convert Chinese to idx
    params vocab_set: the list of word in corpus
    params vocab_size: the length of vocab_set
    params prefixs: the list include input when you want to predict, such as ["分开", "不分开"]
    params pred_num: the number you want to predict
    params clipping_heta: the max value of the norm of grad
    params random_sample: if sample in random, use data_iter_random. otherwise, use data_iter_consecutive
    params device: "cpu"/"cuda"
    """
    # init 
    l_sum, n_class = 0, 0
        
    for epoch in range(epoch_num):
        # sample in consecutive
        h_state = None
        print(f"Epoch [{epoch+1}/{epoch_num}]")
        for x, y in data_iter(corpus_index, batch_size, num_step, device):
            x = to_onehot(x, vocab_size, device)
            # if sample with random, init h_state in each batch
            if random_sample:
                h_state = None
            else:
                # split h_state from cal graph, when sample_consecusive
                if h_state is not None:
                    if isinstance(h_state, tuple): # lstm, state: (h, c)
                        h_state = (h_state[0].deatch(), h_state[1].deatch())
                    else:
                        h_state.detach_()
                
            # rnn, the shape of outputs is (num_step, batch_size, vocab_size)
            outputs, h_state = model(x, h_state)
            # In order to calculate loss, change outputs shape and y shape
            outputs = outputs.view(-1, outputs.shape[-1])
            y = y.transpose(0, 1).contiguous().view(-1)
            # calculate loss, y --> long type
            l = loss(outputs, y.long())
            
            # clear grad
            optimizer.zero_grad()
            # grad backward
            l.backward()
            # grad clip
            grad_clipping(model.parameters(), clipping_theta, device)
            # update grad
            optimizer.step()
            
            # loss_sum
            l_sum += l.item() * y.shape[0]
            n_class += y.shape[0]
            
            # calculate preplexity 
            try:
                preplexity = np.exp(l_sum / n_class)
            except OverflowError:
                preplexity = float('inf')
                
            # training bar
            process_bar.show_process(batch_num, 1, train_loss=preplexity)
            
        # predict
        print("\n")
        for prefix in prefixs:
            print(f"prefix-{prefix}: ", predict_rnn_pytorch(prefix, pred_num, model, char_to_idx, 
                                                            vocab_set, vocab_size, device))
        print("\n")

In [44]:
hidden_num = 256
rnn_layer = nn.RNN(vocab_size, hidden_num)
model = RNNModel(rnn_layer, vocab_size)
model = model.cuda()
loss = nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)

params = {
    "epoch_num": 250,
    "model": model,
    "loss": loss,
    "optimizer": optimizer,
    "batch_size": 64,
    "num_step": 32,
    "corpus_index": corpus_index,
    "data_iter": data_iter_consecutive,
    "char_to_idx": char_to_idx,
    "vocab_set": vocab_set,
    "vocab_size": vocab_size,
    "predict_rnn_pytorch": predict_rnn_pytorch,
    "pred_num": 50,
    "prefixs": ["分开", "不分开"],
    "random_sample": False
}

params["batch_num"] = len(list(data_iter_consecutive(corpus_index, params["batch_size"],
                                                     params["num_step"], "cpu")))

train_rnn_pytorch(**params)

Epoch [1/250]
30/30 [>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] - train_loss: 647.7130, train_score: -, test_loss: -, test_score: --

prefix-分开:  分开                                                  
prefix-不分开:  不分开                                                  


Epoch [2/250]
30/30 [>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] - train_loss: 519.0958, train_score: -, test_loss: -, test_score: -

prefix-分开:  分开                                                  
prefix-不分开:  不分开                                                  


Epoch [3/250]
30/30 [>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] - train_loss: 479.2676, train_score: -, test_loss: -, test_score: -

prefix-分开:  分开                                                  
prefix-不分开:  不分开                                                  


Epoch [4/250]
30/30 [>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] - train_loss: 458.2125, train_score: -, test_loss: -, test_score: -

prefix-分开:  分开                                                  
prefix-不分开:  不分开                            

30/30 [>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] - train_loss: 104.8899, train_score: -, test_loss: -, test_score: -

prefix-分开:  分开始不出来  天空 我的不是 你的手爱上 我们都不到 你说你的爱情  要我的爱情  让我们的手出来  
prefix-不分开:  不分开 不能不能不能再想 这样子我的爱 我 我 你的手 我 你的可爱女人 坏坏的让我疯狂的可爱女人 坏坏的


Epoch [34/250]
30/30 [>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] - train_loss: 98.7569, train_score: -, test_loss: -, test_score: --

prefix-分开:  分开始不出来  天空 我的在乎 一直到底我心 如果 有一种两步三步四步 著一点汗 我们一起一步一步三步四
prefix-不分开:  不分开 不能再能不能再能 能不能再想 你说 我不要 你 我的爱情  你的那时间 你说的爱我 我知道你不要 


Epoch [35/250]
30/30 [>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] - train_loss: 93.0036, train_score: -, test_loss: -, test_score: -

prefix-分开:  分开始终于有一个 我 在你看着 白  在等待中 被风中中的画面 看 看不见 你都没有错 的感觉 一种走大
prefix-不分开:  不分开 不能再能 我说你的爱我   我不能再想 我 你在美 我说了 人 在 你都不好   你的时间 一天 


Epoch [36/250]
30/30 [>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] - train_loss: 87.6143, train_score: -, test_loss: -, test_score: -

prefix-分开:  分开始终于有一个人生 在着你的手生命 在小时候  我有一点的梦   我的爱情面 而过 那些事太人 你说不
prefix-不分开:  不分开 不能不能 这样子 你说了 你就会 我的爱 不要我 不能再能不能 能不能不能 我不能

30/30 [>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] - train_loss: 21.7739, train_score: -, test_loss: -, test_score: -

prefix-分开:  分开始知道 你说你是我知道 想要多少自私做的烦恼 你没有没有太快也是我的爱情痛 你说不是因为我太爱你是只
prefix-不分开:  不分开 说分手说你最是你说的太爱你说真不该 让我很美的沉默 撑伞她身份 再怪我 可以可以女人太多 关天 会


Epoch [66/250]
30/30 [>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] - train_loss: 21.0047, train_score: -, test_loss: -, test_score: -

prefix-分开:  分开始知道 你说你是你是回 那年的的爱是 一直好好叫好久 乡间的歌 我给的人防 东方无云爱天边是谁了形状
prefix-不分开:  不分开 说分手说你跟我理解释怀唱  小心愿 没人帮着 分开进口 那些事太快就是这个光 真不了 想 一起最后


Epoch [67/250]
30/30 [>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] - train_loss: 20.2735, train_score: -, test_loss: -, test_score: -

prefix-分开:  分开始知道 你说你是你难过 想要走开 天涯之外 你们越乱　 海下的悲 而海 冲浪　吸引她目光 不要怕露出
prefix-不分开:  不分开 说分手说你出我 痛手还爱你说  用心碎的梦  感动 谁被终明 我想你的汉堡 像一个大地伤 我们 再


Epoch [68/250]
30/30 [>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] - train_loss: 19.5840, train_score: -, test_loss: -, test_score: -

prefix-分开:  分开始知道 你说你是你是回 那年的 经过了谁 追不再让 情能看到 是谁在感觉 我们都能不能够伤 我不能再
prefix-不分开:  不分开 说分手说你出我 痛手还爱你 你 微笑了口 音乐是你 在远方的别人被我诱惑 你的灵魂属于

30/30 [>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] - train_loss: 9.0800, train_score: -, test_loss: -, test_score: -

prefix-分开:  分开始不需要解释 我也我受不到我的还是 你的身边 在完全旁了　 有一种味道叫做家 没法挑剔它 口感味觉还
prefix-不分开:  不分开 说分手说你出想 你给你白头 爱不能说不见  说爱不是  喜欢的枪 放弃了这样 我也都不不我 你把手


Epoch [98/250]
30/30 [>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] - train_loss: 8.8968, train_score: -, test_loss: -, test_score: -

prefix-分开:  分开始不需要解释 我也我爱女不能不能就能回到 我不能说能不能就能够想了谁我想了解 一页页不到翻开 情绪他
prefix-不分开:  不分开 说分手说你怎么面对白 外婆她的期待 慢慢变成无奈 大人们始终不明白 她要的是陪伴 而不是六百块 比


Epoch [99/250]
30/30 [>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] - train_loss: 8.7196, train_score: -, test_loss: -, test_score: -

prefix-分开:  分开始不需要解释 我也我受不到我很想要 我用我会比较好  再拿着你的鈔票 要平常買不到 先生小姐們趕快來
prefix-不分开:  不分开 说分手说你怎么面对白 外婆着我们都会飞 那弹琴声火飘散着你的泪 鲜树的从历史向久 我给的目的 在一


Epoch [100/250]
30/30 [>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] - train_loss: 8.5493, train_score: -, test_loss: -, test_score: -

prefix-分开:  分开始不需要解释 我也我受不到永远读你读你心 你没有你说好 我坐在我 请知道你我选择了手 要视河口 分离
prefix-不分开:  不分开 说分手说你怎么面前找 外婆她的期待 慢慢变成无奈 大人们始终不明白 她要的是陪伴 而不是六百

30/30 [>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] - train_loss: 5.4262, train_score: -, test_loss: -, test_score: -

prefix-分开:  分开始不需要解释 我没力气球了我手说的爱情 还让我们都知道  杵在伊斯坦堡 却只想你和汉堡 我想要个表情
prefix-不分开:  不分开 说了没有 我爱你不该 我现在已经不对我 谁在比中 我 不是说 没有梦说的温柔 让我们一半松手  恐


Epoch [130/250]
30/30 [>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] - train_loss: 5.3596, train_score: -, test_loss: -, test_score: -

prefix-分开:  分开始不需要解释 我也我受不到永远单不没有 有多事会不会寂 的眼泪 我等待苍老 我 红尘的是微笑 无人都
prefix-不分开:  不分开 说了没有 我爱你不该 我送我的爱我  合  转身离  长你有都好不到过 你能不舍再连手电影们在远镜


Epoch [131/250]
30/30 [>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] - train_loss: 5.2947, train_score: -, test_loss: -, test_score: -

prefix-分开:  分开始不需要解释 我也我随不该看着陪你 我们的距离 啊 还是留你 如果是一起 这感觉已经不对我最后才了解
prefix-不分开:  不分开 说了没有 我爱你不该 我送我的爱我  合  旁不是 让你再让我们乘着阳光　 海上冲浪　吸引她目光 


Epoch [132/250]
30/30 [>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] - train_loss: 5.2315, train_score: -, test_loss: -, test_score: -

prefix-分开:  分开始不需要解释 我也我随不该看着球 你已经看不清  我的爱情  当然魅力太强  别人爱上东方温 看 那
prefix-不分开:  不分开 说了没有 我爱你不该 我现在已经不对我努力在挽回 一些些应该体贴的感觉我没给 你嘟嘴许的

30/30 [>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] - train_loss: 3.9312, train_score: -, test_loss: -, test_score: -

prefix-分开:  分开 不可是从 我妈妈就这样 大你说话也是我们在电影当作恋地决的温柔 双 缘正落对你就必须要做乱  也许
prefix-不分开:  不分开 说了没有 冷的风景 你在田中 我看着我的快乐 在空面中国风  摇滚不是真的未 　心断了的弦 再怎么


Epoch [162/250]
30/30 [>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] - train_loss: 3.8995, train_score: -, test_loss: -, test_score: -

prefix-分开:  分开 不可是从来不可 心会这么会扯多扯铃　 扯多你就会上瘾 扯你最善变的表情　 我的解释请你务必要听 那
prefix-不分开:  不分开 说了没有 冷的无法 能比我知道 未来来吃你的可  听不要再想 我也能失了 没有错失的手知道你就要多


Epoch [163/250]
30/30 [>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] - train_loss: 3.8684, train_score: -, test_loss: -, test_score: -

prefix-分开:  分开 不可是从要我妈妈 这样认真心就多难熬 就没有错亏的是我一起爸秋妈的伤 放弃了这么快 你说了不多 我
prefix-不分开:  不分开 说了没有 冷爱你不开 天涯之外 你们有终于 过的我  每天下 想要的身旁 失去你的微笑来 那难地无


Epoch [164/250]
30/30 [>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] - train_loss: 3.8380, train_score: -, test_loss: -, test_score: -

prefix-分开:  分开 不可是从来不可 心要不要说为了 你上的爱情 还要有人代替  让我不再想念你 我会发著呆  然後微微
prefix-不分开:  不分开 说了没有 冷的无法 能雨时间的发现 却分手中断限的仗 放下雨一直走到我想随着干　 你只会

30/30 [>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] - train_loss: 3.1602, train_score: -, test_loss: -, test_score: -

prefix-分开:  分开 不可是从 我妈妈就这样 说你说你也会难过我不相信 牵着你大家会松 是自己却依不要再说 快乐离开 眼
prefix-不分开:  不分开 不能是因为我是因为我是我理解释 所 回忆 是得很卑凉的屋雪只是一个光机 在可以还是我的天性 要不是


Epoch [194/250]
30/30 [>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] - train_loss: 3.1422, train_score: -, test_loss: -, test_score: -

prefix-分开:  分开 不可是从要我妈妈就这样失大你的家是唯一的人生的等 她一一切 等待弄让我很感　 我无人再见 你也离不
prefix-不分开:  不分开 不能没有孤单的温柔 让我掉该几国世界 透上我只能够分辨 为你来 你说了没有多难熬 有没有错在的事会


Epoch [195/250]
30/30 [>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] - train_loss: 3.1245, train_score: -, test_loss: -, test_score: -

prefix-分开:  分开 不可是让我开心 不要犯的选择　 得超你的笑　 但多都没办法敲门　敲敲门　 基本礼貌叩要先问 离开也
prefix-不分开:  不分开 说不是因为我没爱你 只是我掉的笑容 说 可爱你不该 该怎么会静会开你的脸 接着来只有用功 飞翔不再


Epoch [196/250]
30/30 [>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] - train_loss: 3.1071, train_score: -, test_loss: -, test_score: -

prefix-分开:  分开 不同的罪 如果我命快乐懂得觉 你看不懂 你会一句 等 那些事都 在坚持风格著起就这样打的前方 有花
prefix-不分开:  不分开 说不是因为我没爱你 只剩下钢琴陪我谈了一天 睡着的大提琴 安静的旧旧的 我想你已表现的非

30/30 [>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] - train_loss: 2.6995, train_score: -, test_loss: -, test_score: -

prefix-分开:  分开 不同的大 也许我还爱你 要多了就是说 说你说不要表情就我感觉大力再给开 其他的学 这样的甜蜜 那过
prefix-不分开:  不分开 不能是因为我为你如何 用单单 对爱说 怎么证明我没力气 我很想要留我没力气承诺 你说给去你嘟嘴许的


Epoch [226/250]
30/30 [>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] - train_loss: 2.6882, train_score: -, test_loss: -, test_score: -

prefix-分开:  分开 不同的大 也许我能爱我 没有了紧 太过  你很久了 事 我说了永远离开 然后是方我握紧紧松 你离开
prefix-不分开:  不分开 不能是因为我是因为我是你的王牌 拿我们 请不再  你是的爱写 要爱我 再怎么粗  透了要不说 不到


Epoch [227/250]
30/30 [>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] - train_loss: 2.6770, train_score: -, test_loss: -, test_score: -

prefix-分开:  分开 不同的罪 如果我一起上游 我不要闹你 我的路  我一定一颗 颗就让我把永 象 有梦还记得去 我们一
prefix-不分开:  不分开 说了没有 我只有一种咆哮 我要让他们都知道 我生命跑怎么粗糙 我都要活的很骄傲 我说自尊那 看起来


Epoch [228/250]
30/30 [>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>] - train_loss: 2.6660, train_score: -, test_loss: -, test_score: -

prefix-分开:  分开 不同的天 走过了吗 你的愿话 找不着  你我的我们 你我的吧  说这么爱  让坚开 把狠狠听  我
prefix-不分开:  不分开 说了没有 我只有一种咆哮 我要让他们都知道 我手说我不需要承诺 你说我若一个人会比较自由