In [1]:
%config ZMQInteractiveShell.ast_node_interactivity = "all"
%pprint

Pretty printing has been turned OFF


In [55]:
import torch
import zipfile
import numpy as np

## RNN 

相对于多层感知机和能够有效处理空间信息的CNN，RNN主要用于处理时序数据，它引入状态变量来存储过去的信息，并用其于当前的输入共同决定当前的输出

$$h_{t} = f(W_{hx}x_t + W_{hh}h_{t-1} + b_h)$$
$$y_t = g(W_{yh}h_t + b_y)$$

### 矩阵验证

其实对于$W_{hx}, x_t, W_{hh}, h_{t-1}$，它们是可以不需要分开处理，只需将$x_t$和$h_{t-1}$按列合并，将$W_{xh}$和$W_{hh}$按行合并，并进行矩阵相乘，能获得一样的结果

In [5]:
# 假设xt-->(3, 1), W_hx--->(4, 3)，W_hh--->(4, 4), h_(t-1) ---> (3, 4)
xt = np.random.rand(3, 1)
w_hx = np.random.rand(1, 4)
w_hh = np.random.rand(4, 4)
h_t_1 = np.random.randn(3, 4)

h_t = xt@w_hx + h_t_1@w_hh
h_t 

array([[0.91003804, 0.67964435, 0.86745817, 0.85528385],
       [0.03252741, 0.94202509, 0.05789245, 0.45108028],
       [1.2453132 , 0.19837032, 1.14747394, 1.16187938]])

In [6]:
h_t = np.hstack((xt, h_t_1)) @ np.vstack((w_hx, w_hh))
h_t

array([[0.91003804, 0.67964435, 0.86745817, 0.85528385],
       [0.03252741, 0.94202509, 0.05789245, 0.45108028],
       [1.2453132 , 0.19837032, 1.14747394, 1.16187938]])

### 创建token映射

使用周杰伦歌词来建模，并对周杰伦歌词进行预处理

In [27]:
# f.read是读取整个文件数据字符串，f.readline是读取一行数据，f.readlines是读取一个数据列表
with zipfile.ZipFile("../data/jaychou_lyrics.txt.zip") as zfile:
    with zfile.open("jaychou_lyrics.txt", "r") as f:
        corpus_chars = f.read().decode("utf-8")
        
# 看一下数据长什么样
corpus_chars[:100]
len(corpus_chars)

'想要有直升机\n想要和你飞到宇宙去\n想要和你融化在一起\n融化在宇宙里\n我每天每天每天在想想想想著你\n这样的甜蜜\n让我开始乡相信命运\n感谢地心引力\n让我碰到你\n漂亮的让我面红的可爱女人\n温柔的让我心疼的可'

63282

整个数据集中有63282条数据，为了打印方便，将换行符来替换空格

In [33]:
corpus_chars.count("\n")
corpus_chars.count("\r")
corpus_chars = corpus_chars.replace("\n", " ")

5819

0

In [50]:
def load_data_jay_song(corpus_chars):
    # the vocab set of data
    vocab_set = list(set(corpus_chars))
    # corpus char --> id: dict
    char_to_idx = {char:i for i, char in enumerate(vocab_set)}
    # the index of data
    corpus_index = [char_to_idx[char] for char in corpus_chars]
    # the length of vocab set
    vocab_size = len(char_to_idx)
                        
    return corpus_index, char_to_idx, vocab_set, vocab_size

In [51]:
corpus_index, char_to_idx, vocab_set, vocab_size = load_data_jay_song(corpus_chars)

### 时序数据采样

在训练中我们每次需要随机读取小批量样本和标签，时序数据的一个样本通常包含连续字符
- 如果time-step=5的时候，就是输入的样本序列为5个字符（你-今-天-吃-了），标签中的每一个字符就是对应训练集中的下一个字符（今-天-吃-了-吗）
- 对时序数据的采样方式有两种，一个是随机采样，另外一种就是相邻采样

#### 随机采样

在随机采样中，每个样本是原始序列中任意截取的一段序列，相邻的两个随机小批量在原始序列中的位置不一定相毗邻
- 因此，我们不能用前一个小批量最后time_step的隐藏状态来初始化下一个小批量的隐藏状态
- 在训练模型的时候，如果使用随机采样，那么在每次随机采样之前都要重新初始化隐藏状态

In [71]:
import random

In [74]:
def data_iter_random(corpus_indices, batch_size, num_steps):
    num_examples = (len(corpus_indices) - 1) // num_steps
    print(num_examples)
    epoch_size = num_examples // batch_size
    example_indices = list(range(num_examples))
    random.shuffle(example_indices)
    
    def _data(pos):
        return corpus_indices[pos: pos + num_steps]
        
    for i in range(epoch_size):
        i = i * batch_size
        batch_indices = example_indices[i: i + batch_size]
        x = [_data(j * num_steps) for j in batch_indices]
        y = [_data(j * num_steps) for j in batch_indices]
        yield torch.tensor(x, dtype=torch.float32), torch.tensor(y, dtype=torch.float32)

In [76]:
my_seq = list(range(30))
for x, y in data_iter_random(my_seq, batch_size=2, num_steps=5):
    print(x)
    print(y)
    print("\n")

5
tensor([[20., 21., 22., 23., 24.],
        [ 5.,  6.,  7.,  8.,  9.]])
tensor([[20., 21., 22., 23., 24.],
        [ 5.,  6.,  7.,  8.,  9.]])


tensor([[15., 16., 17., 18., 19.],
        [10., 11., 12., 13., 14.]])
tensor([[15., 16., 17., 18., 19.],
        [10., 11., 12., 13., 14.]])




In [None]:
def train_iter_random(corpus, batch_size, num_steps):
    """
    function: randomly sample data to rnn model
    params corpus: the data of corpus you want to sample 
    params batch_size: the batch_size of sample
    params num_steps: the max time step in rnn model
    """
    # calculate the example number depend on num_steps
    example_num = len(corpus) / num_steps
    index = np.arange(0, len(corpus), split_num)
    np.random.shuffle(index)
    # calculate the number of batch depend on batch_size
    batch_num = int(np.ceil(split_num) / batch_size)
    
    for num in 