# 数据集
Jay Zhou第一张专辑到第十张的歌词
## 读取数据集

In [1]:
import torch
import random
import zipfile
import d2lzh_pytorch as d2l

In [2]:
with zipfile.ZipFile('./data/jaychou_lyrics.txt.zip') as zin:
    with zin.open('jaychou_lyrics.txt') as f:
        corpus_chars = f.read().decode('utf-8')
corpus_chars[:40]

'想要有直升机\n想要和你飞到宇宙去\n想要和你融化在一起\n融化在宇宙里\n我每天每天每'

In [3]:
corpus_chars = corpus_chars.replace('\n', ' ').replace('\r', ' ')
# 仅仅用前10000个字符训练模型
corpus_chars = corpus_chars[0:10000]

# 建立字符索引
将每个字符映射成从0开始的连续整数

In [4]:
idx_to_char = list(set(corpus_chars))
char_to_idx = dict([(char, i) for i, char in enumerate(idx_to_char)])
vocab_size = len(char_to_idx)
vocab_size

1027

In [5]:
corpus_indices = [char_to_idx[char] for char in corpus_chars]
sample = corpus_indices[:20]
print('chars:', ''.join([idx_to_char[idx] for idx in sample]))
print('indices:', sample)

chars: 想要有直升机 想要和你飞到宇宙去 想要和
indices: [824, 590, 708, 795, 181, 647, 794, 824, 590, 977, 132, 117, 896, 698, 976, 221, 794, 824, 590, 977]


# 时序数据的采样

## 随机采样
考虑：批量大小，每个样本包含的时间步数。

每个样本是原始序列上任意截取的一段序列。不能说相邻两个随机小批量是有关系的。所以，训练模型时，每次随机采样前都需要重新初始化隐藏状态。

In [6]:
my_seq = list(range(30))
for X, Y in d2l.data_iter_random(my_seq, batch_size=2, num_steps=6):
    print('X: ', X, '\nY', Y, '\n')

X:  tensor([[ 6.,  7.,  8.,  9., 10., 11.],
        [12., 13., 14., 15., 16., 17.]]) 
Y tensor([[ 7.,  8.,  9., 10., 11., 12.],
        [13., 14., 15., 16., 17., 18.]]) 

X:  tensor([[18., 19., 20., 21., 22., 23.],
        [ 0.,  1.,  2.,  3.,  4.,  5.]]) 
Y tensor([[19., 20., 21., 22., 23., 24.],
        [ 1.,  2.,  3.,  4.,  5.,  6.]]) 



## 相邻采样
目的是实现当前小批量最终时间步隐藏状态可以用于下一个小批量的隐藏状态，从而使下一个小批量的输出也取决于当前小批量的输入。对RNN的影响主要有两个方面：

1. 只需要在每一个迭代周期开始时初始化隐藏状态
2. 当多个相邻小批量通过传递隐藏状态串联起来时，模型参数参数的梯度计算将依赖所有串联起来的小批量序列。

In [7]:
for X, Y in d2l.data_iter_consecutive(my_seq, batch_size=2, num_steps=6):
    print('X: ', X, '\nY: ', Y, '\n')

X:  tensor([[ 0.,  1.,  2.,  3.,  4.,  5.],
        [15., 16., 17., 18., 19., 20.]]) 
Y:  tensor([[ 1.,  2.,  3.,  4.,  5.,  6.],
        [16., 17., 18., 19., 20., 21.]]) 

X:  tensor([[ 6.,  7.,  8.,  9., 10., 11.],
        [21., 22., 23., 24., 25., 26.]]) 
Y:  tensor([[ 7.,  8.,  9., 10., 11., 12.],
        [22., 23., 24., 25., 26., 27.]]) 

