# 6.3 语言模型数据集（周杰伦专辑歌词）

如何预处理一个语言模型数据集，并将其转换成字符级循环神经网络所需要的输入格式。为此，我们收集了周杰伦从第一张专辑《Jay》到第十张专辑《跨时代》中的歌词，并在后面几节里应用循环神经网络来训练一个语言模型。当模型训练好后，我们就可以用这个模型来创作歌词。

## 6.3.1 读取数据集

In [2]:
import torch
import random
import zipfile

with zipfile.ZipFile('../data/jaychou_lyrics.txt.zip') as zin:
    with zin.open('jaychou_lyrics.txt')as f:
        corpus_chars=f.read().decode('utf-8')
corpus_chars[:100] 

'想要有直升机\n想要和你飞到宇宙去\n想要和你融化在一起\n融化在宇宙里\n我每天每天每天在想想想想著你\n这样的甜蜜\n让我开始乡相信命运\n感谢地心引力\n让我碰到你\n漂亮的让我面红的可爱女人\n温柔的让我心疼的可'

数据集有6万多个字符。为了打印方便，我们把换行符替换成空格，然后仅使用前1万个字符来训练模型。

In [25]:
corpus_chars = corpus_chars.replace('\n', ' ').replace('\r', ' ')
corpus_chars=corpus_chars[0:10000]

## 6.3.2 建立字符索引

我们将每个字符映射成一个从0开始的连续整数，又称索引，来方便之后的数据处理。为了得到索引，我们将数据集里所有不同字符取出来，然后将其逐一映射到索引来构造词典。接着，打印vocab_size，即词典中不同字符的个数，又称词典大小。

In [98]:
idx_to_char=list(set(corpus_chars))#set() 函数创建一个无序不重复元素集
char_to_idx=dict([(char,i) for i,char in enumerate(idx_to_char)])#将字符映射到索引构造词典

dict_slice = lambda dict_,start,end:{k:dict_[k] for k in list(dict_.keys())[start:end]}#对字典进行切片
dict_slice(char_to_idx,0,10)

{'钩': 0,
 '休': 1,
 '样': 2,
 '沙': 3,
 '迎': 4,
 '器': 5,
 '威': 6,
 '爸': 7,
 '些': 8,
 '仁': 9}

将训练数据集中每个字符转化为索引，并打印前20个字符及其对应的索引。

In [102]:
corpus_indices = [char_to_idx[char] for char in corpus_chars[0:10000]]
sample = corpus_indices[:20]

print('chars:', ''.join([idx_to_char[idx] for idx in sample]))
print('indices:', sample)

char_to_idx['要']
len(corpus_indices)

chars: 想要有直升机 想要和你飞到宇宙去 想要和
indices: [993, 474, 362, 953, 903, 320, 184, 993, 474, 450, 478, 435, 337, 422, 45, 34, 184, 993, 474, 450]


10000

以上代码封装在d2lzh_pytorch包里的load_data_jay_lyrics函数中，以方便后面章节调用。调用该函数后会依次得到corpus_indices、char_to_idx、idx_to_char和vocab_size这4个变量。

## 6.3.3 时序数据的采样

 在训练中我们需要每次随机读取小批量样本和标签。与之前章节的实验数据不同的是，时序数据的一个样本通常包含连续的字符。假设时间步数为5，样本序列为5个字符，即“想”“要”“有”“直”“升”。该样本的标签序列为这些字符分别在训练集中的下一个字符，即“要”“有”“直”“升”“机”。我们有两种方式对时序数据进行采样，分别是随机采样和相邻采样。

下面的代码每次从数据里随机采样一个小批量。其中批量大小batch_size指每个小批量的样本数，num_steps为每个样本所包含的时间步数。 在随机采样中，每个样本是原始序列上任意截取的一段序列。相邻的两个随机小批量在原始序列上的位置不一定相毗邻。因此，我们无法用一个小批量最终时间步的隐藏状态来初始化下一个小批量的隐藏状态。在训练模型时，每次随机采样前都需要重新初始化隐藏状态。

In [103]:
def data_iter_random(corpus_indices,batch_size,num_steps,device=None):
#     num_steps为每个样本所包含的时间步数
    num_examples=(len(corpus_indices)-1)//num_steps  #求样本数
    #//为整数除法   
    epoch_size=num_examples //batch_size #求迭代次数
    example_indices=list(range(num_examples)) #生成长度为样本数的列表
    random.shuffle(example_indices)#打乱顺序
    
    #返回从pos开始的长为num_steps的序列
    def _data(pos):
        return corpus_indices[pos:pos+num_steps]
    if device is None:
        device=['cuda'if torch.cuda.is_available()else 'cpu']
    
    for i in range(epoch_size):#继续随机采样
#每次读取batch_size个随机样本，每个样本包含时间步长为num_steps的标签序列
        i=i*batch_size
        batch_indices=example_indices[i:i+batch_size]#每个batch的索引值
        X=[_data(j*num_steps)for j in batch_indices]#当前的字符
        Y=[_data(j*num_steps+1)for j in batch_indices]#当前字符的下一个字符
        yield torch.tensor(X,dtype=torch.float32,device=device),torch.tensor(Y,dtype=torch.float32,device=device)
        