In [4]:
import torch
import random
import zipfile

with zipfile.ZipFile('data/jaychou_lyrics.txt.zip') as zin:
    with zin.open('jaychou_lyrics.txt') as f:
        corpus_chars = f.read().decode('utf-8')
corpus_chars[:40]

'想要有直升机\n想要和你飞到宇宙去\n想要和你融化在一起\n融化在宇宙里\n我每天每天每'

In [8]:
corpus_chars = corpus_chars.replace('\n',' ').replace('\r',' ')
print(corpus_chars[0:20])

想要有直升机 想要和你飞到宇宙去 想要和


建立字符索引：

给所有字符去重，然后赋予每个字符一个下标。

In [26]:
# 所有字符的数组
idx_to_char = list(set(corpus_chars))

# 字典：
# key：字符
# value：字符的索引
char_to_idx = dict([(char, i) for i, char in enumerate(idx_to_char)])

# 将周杰伦的歌词所有字符转换成对应的索引
corpus_indices = [char_to_idx[char] for char in corpus_chars ]

# 显示前20个歌词字符的索引
sample = corpus_indices[0:20]
print([idx_to_char[idx] for idx in sample])
print(sample)

['想', '要', '有', '直', '升', '机', ' ', '想', '要', '和', '你', '飞', '到', '宇', '宙', '去', ' ', '想', '要', '和']
[2574, 933, 1551, 1241, 512, 1446, 918, 2574, 933, 2142, 1787, 1927, 1232, 1018, 500, 732, 918, 2574, 933, 2142]


# 时序数据的采样

时序数据样本：通常包含连续的字符。例如，假设时间步数为5，样本序列为5个字符，即“想”“要”“有”“直”“升”。

该书序数据样本的**标签，即为这些字符分别在训练集的下一个字符**，即“要”“有”“直”“升”“机”

我们有两种方式对时序数据进行采样：随机采样和相邻采样。

## 随机采样

在随机采样中，每个样本是原始序列上任意截取的一段序列。

因为，相邻的两个随机小批量在原始序列上的位置不一定相邻。

因此，我们无法用一个小批量最终时间步的隐藏状态来初始化下一个小批量的隐藏状态。在训练模型时，每次随机采样前都需要重新初始化隐藏状态。

In [88]:
# 本函数已保存在d2lzh_pytorch包中方便以后使用

# batch_size：指每个小批量的样本数

# num_steps：为每个样本所包含的时间步数

def data_iter_random(corpus_indices, batch_size, num_steps, device=None):
    # 减1是因为输出的索引x是相应输入的索引y加1
    num_examples = (len(corpus_indices) - 1) // num_steps
    epoch_size = num_examples // batch_size
    example_indices = list(range(num_examples))
    random.shuffle(example_indices) # 把字符索引打乱？

    def _data(pos):
        # 返回从pos开始的长为num_steps的序列，是一个下标的数组
        # corpus_indices始终是顺序的
        return corpus_indices[pos: pos + num_steps]
    if device is None:
        device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

    for i in range(epoch_size):
        # 每次读取batch_size个随机样本
        i = i * batch_size
        
        # batch_indices的长度即为一个小批量的大小
        # 其元素决定样本序列的第一个元素
        # 样本序列的第一个元素又决定后续num_steps - 1个元素
        batch_indices = example_indices[i: i + batch_size]
        
        X = [_data(j * num_steps) for j in batch_indices]
        Y = [_data(j * num_steps + 1) for j in batch_indices]
        
        # 循环执行到yield就会返回值，然后下次循环继续从yield开始
        yield torch.tensor(X, dtype=torch.float32, device=device), torch.tensor(Y, dtype=torch.float32, device=device)


测试

In [91]:
my_seq = list(range(30))
for X,Y in data_iter_random(my_seq,batch_size=2,num_steps=6):
    print('X:',X,'\n','Y:',Y)


batch_indices: [3, 1]
X: tensor([[18., 19., 20., 21., 22., 23.],
        [ 6.,  7.,  8.,  9., 10., 11.]]) 
 Y: tensor([[19., 20., 21., 22., 23., 24.],
        [ 7.,  8.,  9., 10., 11., 12.]])
batch_indices: [0, 2]
X: tensor([[ 0.,  1.,  2.,  3.,  4.,  5.],
        [12., 13., 14., 15., 16., 17.]]) 
 Y: tensor([[ 1.,  2.,  3.,  4.,  5.,  6.],
        [13., 14., 15., 16., 17., 18.]])


## 相邻采样

相邻采样：相邻的两个随机小批量在原始序列上的位置相邻。

此时，我们就可以用一个小批量的最终时间步的隐藏状态，来初始化下一个下批量的隐藏状态。

这对RNN的实现有2个影响：
1. 我们主需要在每个迭代周期开始时初始化隐藏状态。
2. （？）多个相邻小批量通过传递隐藏状态串联起来时，模型参数的梯度计算将依赖所有串联起来的小批量序列。同一迭代周期中，随着迭代次数的增加，梯度的计算开销会越来越大。 为了使模型参数的梯度计算只依赖一次迭代读取的小批量序列，我们可以在每次读取小批量前将隐藏状态从计算图中分离出来。

In [103]:
# 本函数已保存在d2lzh_pytorch包中方便以后使用
def data_iter_consecutive(corpus_indices, batch_size, num_steps, device=None):
    if device is None:
        device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
    corpus_indices = torch.tensor(corpus_indices, dtype=torch.float32, device=device)
    data_len = len(corpus_indices)
    batch_len = data_len // batch_size
    indices = corpus_indices[0: batch_size*batch_len].view(batch_size, batch_len)
    print('indices:',indices)
    epoch_size = (batch_len - 1) // num_steps
    for i in range(epoch_size):
        i = i * num_steps
        X = indices[:, i: i + num_steps]
        Y = indices[:, i + 1: i + num_steps + 1]
        yield X, Y


In [104]:
# 例如my_seq为[0,1,2,...29],batch_size=2, num_steps=6
# data_len = 30
# batch_len = 15
# epoch_size = 2
for X, Y in data_iter_consecutive(my_seq, batch_size=2, num_steps=6):
    print('X: ', X, '\nY:', Y, '\n')


indices: tensor([[ 0.,  1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10., 11., 12., 13.,
         14.],
        [15., 16., 17., 18., 19., 20., 21., 22., 23., 24., 25., 26., 27., 28.,
         29.]])
X:  tensor([[ 0.,  1.,  2.,  3.,  4.,  5.],
        [15., 16., 17., 18., 19., 20.]]) 
Y: tensor([[ 1.,  2.,  3.,  4.,  5.,  6.],
        [16., 17., 18., 19., 20., 21.]]) 

X:  tensor([[ 6.,  7.,  8.,  9., 10., 11.],
        [21., 22., 23., 24., 25., 26.]]) 
Y: tensor([[ 7.,  8.,  9., 10., 11., 12.],
        [22., 23., 24., 25., 26., 27.]]) 



In [94]:
14 // 6

2

# 总结
时序数据采样方式包括随机采样和相邻采样。使用这两种方式的循环神经网络训练在实现上略有不同。