# 语言模型（输入一个句子，输出这个句子产生的概率）

目标：根据之前的单词预测下一个单词。


学习目标
- 学习语言模型，以及如何训练一个语言模型
- 学习torchtext的基本使用方法
    - 构建 vocabulary
    - word to inde 和 index to word
- 学习torch.nn的一些基本模型
    - Linear
    - RNN
    - LSTM
    - GRU
- RNN的训练技巧
    - Gradient Clipping
- 如何保存和读取模型

## 调用工程需要的包

In [1]:
import torchtext
import torch
import numpy as np
import random
import os
import torch.nn as nn

USE_CUDA=torch.cuda.is_available()
device=torch.device('cuda' if USE_CUDA else 'cpu')

#固定random seed
random.seed(1)
np.random.seed(1)
torch.manual_seed(1)
if USE_CUDA:
    torch.cudada.manual_seed(1)

## 定义相关参数

In [2]:
#一个bantch中有多少个句子
BATCH_SIZE=32 
#word embedding 的维度
EMBEDDING_SIZE=100
MAX_VOCAB_SIZE=50000
SEQ_LENGTH=20
#隐含层神经元个数
HIDDEN_SIZE = 100
NUM_EPOCHES=2
learning_rate=0.001
GRAD_CLIP=5.0

## 创建vocabulary(单词表)
- 安装[torchtext](https://github.com/pytorch/text)  (用于文本预处理)  
    pip install torchtext  
- 使用 torchtext 来创建vocabulary, 然后把数据读成batch的格式。请大家自行阅读README来学习torchtext。  
- **注意变更**：  
    torchtext.data.Field -> torchtext.legacy.data.Field  
    torchtext.datasets.LanguageModelingDataset -> torchtext.legacy.datasets.LanguageModelingDataset  
    torchtext.data.BPTTIterator -> torchtext.legacy.data.BPTTIterator  

### 使用field预处理数据；利用LanguageMOdelingDataset class创建三个dataset
继续使用text8数据集作为训练、验证和测试数据
1. TorchText的一个重要概念是[Field](https://torchtext.readthedocs.io/en/latest/data.html#field)，其决定了数据会被如何处理  
    我们使用TEXT这个field来处理文本数据  
    我们的TEXT field有lower-Ture这个参数，故所有的单词都会被lowercase  
    torchtext提供了LanguageModelingDataset这个class来帮助处理语言模型数据集  
2. build_vocab可以根据我们提供的训练数据集来创建最高频单词的单词表，max_size帮助我们限定单词总量
3. BPTTIterator可以连续地获得连贯的句子，[BPTT](https://zh.d2l.ai/chapter_recurrent-neural-networks/bptt.html): back propagation through time

In [3]:
#确定数据集路径
script_path=os.path.abspath('__file__')
dir_path=os.path.dirname(script_path)
path=os.path.join(dir_path,'text8')
print(path,type(path))

#创建一个名为TEXT的Field
#lower=True: 将所有单词lowercase
TEXT=torchtext.legacy.data.Field(lower=True)
#创建用于language modeling的train, val, test三个dataset
#将data split
train, val, test = torchtext.legacy.datasets.LanguageModelingDataset.splits(path=path, 
                                                                            train='text8.train.txt', 
                                                                            validation='text8.dev.txt', 
                                                                            test='text8.test.txt', 
                                                                            text_field=TEXT)
# print(train)
# print(dir(train))
# print(train.examples)

C:\Users\Re_AC\Desktop\Pytorch\myTorch\3\languageModelNoteBook\text8 <class 'str'>


### 创建Vocabulary
- 创建vocabulary(单词表)相当于__myTorch/2/wordEmbeddingNotebook/2.ipynb#数据预处理及相关操作__中创建vocab参数的过程
- 具体流程是从dataset中取出出现频数最高的前MAX_BOCAB_SIZE个单词作为Vocabulary
- 单词表单词个数为50002个而不是50000个，是因为TorchText为我们增加了两个特殊的token：  
    \< unk \>: 表示未知的，不在单词表中的单词  
    \< pad \>: 表示padding，当句子较短时，将\< pad \>添加进句子末尾补齐长度

In [4]:
#创建training dataset的vocabulary 单词数量为MAX_BOCAB_SIZE
TEXT.build_vocab(train, max_size=MAX_VOCAB_SIZE)
#注意单词个数是50002个，而不是MAX_BOCAB_SIZE指定的50000个

#定义VOCAB_SIZE
VOCAB_SIZE = len(TEXT.vocab)
print(len(TEXT.vocab)) #vocabulary size

#itos: index to string
print(type(TEXT.vocab.itos))
print(TEXT.vocab.itos[:10]) #注意<unk>和<pad>

#stoi: string to index
print(type(TEXT.vocab.stoi))
print(TEXT.vocab.stoi['apple'])

50002
<class 'list'>
['<unk>', '<pad>', 'the', 'of', 'and', 'one', 'in', 'a', 'to', 'zero']
<class 'collections.defaultdict'>
1259


### 创建batch(iterator)
为dataset创建batch，每个batch包含BATCH_SIZE个句子  
句子长度seq_length(=bptt_len) 其沿时间方向  

In [5]:
#bptt_len:  Length of sequences for backpropagation through time.
#此处也决定了batch中每个句子的长度
#具体参考：https://zh.d2l.ai/chapter_recurrent-neural-networks/bptt.html
#repeat=False: 过完一边dataset后就结束一次epoch
train_iter, val_iter, test_iter=torchtext.legacy.data.BPTTIterator.splits(
    (train, val, test), 
    batch_size=BATCH_SIZE, 
    device=device, 
    bptt_len=SEQ_LENGTH, 
    repeat=False, 
    shuffle=True)

In [6]:
#测试+加深理解
it=iter(train_iter)
batch=next(it)
print(batch)
#20: 句子长度seq_length(=bptt_len) 其沿时间方向  32: batch_size
# [torchtext.legacy.data.batch.Batch of size 32]
# 	[.text]:[torch.LongTensor of size 20x32]
# 	[.target]:[torch.LongTensor of size 20x32]

#可以看到text为文件：text8.train.txt的内容
#target与text相似，但从text中的下一个单词开始，比text多一个单词结束
#输入dataset中的一个单词，target（输出）为dataset中的下一个单词
#模型的目的是预测下一个单词是什么
print(batch.text)
print(batch.text.shape)
print(' '.join(TEXT.vocab.itos[i] for i in batch.text[:,0].data))
print()
print(' '.join(TEXT.vocab.itos[i] for i in batch.target[:,0].data))


[torchtext.legacy.data.batch.Batch of size 32]
	[.text]:[torch.LongTensor of size 20x32]
	[.target]:[torch.LongTensor of size 20x32]
tensor([[ 5269,  6271,   417,     9,     6,   375,   317,  2278,     6,    21,
            72,    54,   742,     2,  4434,   283,    23,   531,     0,     5,
           463,  5850,    22,  8624,  1455,    68,    11,    66,     2,  5931,
             3, 24395],
        [ 3110,     6,   288,     2,  3047,     2,    25,   109,   261,    50,
          6129,   892,     7, 24782,    25, 12713,    18,     5,   556,    10,
             7,  4664,     5,    43,   163,     5,     9,     2,  1311,    57,
           168,     6],
        [   13,  3593,   458,  1259,    40,   375,    10,   550,     3, 19798,
            21, 43004, 17114,     3,     2,     7,  2316,    10,   427,     5,
          1185,   127,    48,   504,  2461, 14097,     9,   277,     3,    12,
         27121,   314],
        [    7,     4, 11211, 21733,    55,    19,    11,     4,  3278,  4858,
    

In [7]:
#多拿几个train_iter中的batch，看看text和target中的内容
for i in range(5):
    batch=next(it)
    print()
    print(i)
    print(' '.join(TEXT.vocab.itos[i] for i in batch.text[:,0].data))
    print()
    print(' '.join(TEXT.vocab.itos[i] for i in batch.target[:,0].data))


0
revolution and the sans <unk> of the french revolution whilst the term is still used in a pejorative way to

and the sans <unk> of the french revolution whilst the term is still used in a pejorative way to describe

1
describe any act that used violent means to destroy the organization of society it has also been taken up as

any act that used violent means to destroy the organization of society it has also been taken up as a

2
a positive label by self defined anarchists the word anarchism is derived from the greek without archons ruler chief king

positive label by self defined anarchists the word anarchism is derived from the greek without archons ruler chief king anarchism

3
anarchism as a political philosophy is the belief that rulers are unnecessary and should be abolished although there are differing

as a political philosophy is the belief that rulers are unnecessary and should be abolished although there are differing interpretations

4
interpretations of what this means a

## 定义模型（简单的）
- 继承nn.Module
- \_\_init\_\_函数
- forward函数
- 其余可以根据模型需要定义相关函数  

[**nn.Embedding及rnn输入**](https://www.jianshu.com/p/63e7acc5e890)

**PyTorch处理RNN时默认第一个维度为sequence length，第二个维度为batch_size** 


每个batch：  
    第一次输入LSTM的是batch_size个'句子'的第一个单词的embedding  
    第二次输入LSTM的是这batch_size个'句子'的第二个单词的embedding  
    。。。  
    第seq_length次输入LSTM的是这batch_size个'句子'的第seq_length个单词的embedding  
    至此根据这bptt_len即seq_length次输出计算loss和bptt  

In [8]:
#定义一个简单的RNN （一层）
class RNNModel(nn.Module):
    #定义需要参数
    def __init__(self, vocab_size, embed_size, hidden_size):
        super().__init__()
        
        self.hidden_size=hidden_size
        
        #embedding层
        self.embed=nn.Embedding(vocab_size, embed_size) # W大小：(50002, 650) 
        #LSTM层
        #https://pytorch.org/docs/stable/generated/torch.nn.LSTM.html
        self.lstm=nn.LSTM(embed_size, hidden_size)
        # batch_first=True: 将lstm第一个维度改为batch_size
        # self.lstm=nn.LSTM(embed_size, hidden_size, batch_first=True)
        # 将LSTM的结果decode为一个vocab_size维的向量，以确定预测的单词
        self.linear=nn.Linear(hidden_size, vocab_size)
    
    #定义网络架构
    def forward(self, input_text, hidden):
        #forward pass
        #input_text: seq_length * batch_size(32)
        emb= self.embed(input_text) # seq_length * batch_size * embed_size
        #embedding传入LSTM
        #hidden: hidden state & cell state 两者形状相同
        output, hidden = self.lstm(emb, hidden)
        # output: seq_length * batch_size * hidden_size
        # hidden: (1*batch_size*hiddensize, 1*batch_size*hidden_size) 1: LSTM层数为1, hidden state 参数同LSTMdancing的输出的形状相同
        output_reshape=output.view(-1, output.shape[2]) #reshape output: (seq_length * batch_size) * hidden_size
        out_vocab=self.linear(output_reshape) # (seq_length * batch_size) * vocab_size
        #将out_vocab变回原来的形状
        out_vocab=out_vocab.view(output.shape[0], output.shape[1], out_vocab.shape[-1]) # (seq_length * batch_size * vocab_size)
        
        return out_vocab, hidden
    
    #初始化hidden state 和 cell state
    def init_hidden(self, batch_size, requires_grad=True):
        #从model中随便选取一组parameters 为了方便，直接用next
        #此步操作原因见下一步
        weight= next(self.parameters())
        #使用0矩阵初始化hidden state和cell state
        #为了保证创建tensor与model中其他tensor有相同的torch.dtype 和 torch.device， 使用new_zeros函数
        hidden_state=weight.new_zeros((1, batch_size, self.hidden_size), requires_grad= requires_grad)
        cell_state=weight.new_zeros((1, batch_size, self.hidden_size), requires_grad= requires_grad)
        
        return (hidden_state, cell_state)

## 初始化模型

In [9]:
model=RNNModel(vocab_size=VOCAB_SIZE, embed_size=EMBEDDING_SIZE, hidden_size=HIDDEN_SIZE)
if USE_CUDA:
    model=model.to(device)

print(model)
print(next(model.parameters()))

RNNModel(
  (embed): Embedding(50002, 20)
  (lstm): LSTM(20, 100)
  (linear): Linear(in_features=100, out_features=50002, bias=True)
)
Parameter containing:
tensor([[-1.5256, -0.7502, -0.6540,  ..., -1.1608,  0.6995,  0.1991],
        [ 0.8657,  0.2444, -0.6629,  ...,  0.0457,  0.1530, -0.4757],
        [-0.1110,  0.2927, -0.1578,  ...,  0.9386, -0.1860, -0.6446],
        ...,
        [-0.1827,  0.1614, -0.6383,  ...,  0.2086,  0.8639, -0.8471],
        [ 1.5322, -0.3728,  0.5348,  ..., -1.6007,  0.6433,  0.7884],
        [-0.2278,  0.3506,  0.2607,  ..., -2.5110, -0.7777,  0.8388]],
       requires_grad=True)


## 训练模型及保存模型
- 模型一般需要训练若干个epoch
- 每个epoch我们都把所有的数据分成若干个batch
- 把每个batch的输入和输出都包装成cuda tensor
- forward pass，通过输入的句子预测每个单词的下一个单词
- 用模型的预测和正确的下一个单词计算cross entropy loss
- backward pass
- gradient clipping，防止梯度爆炸
- 更新模型参数
- 清空模型当前gradient
- 每隔一定的iteration输出模型在当前iteration的loss，以及在验证集上做模型的评估

In [10]:
#hidden state/cell Tensor在Torch的graph中作为一个节点，其与W类似，与历史的hidden state/cell都有关系
#由于hidden state/cell 一直往下传递，计算图会非常大非常深，最终可能会导致内存爆炸
#所以利用detach将hidden state/cell同之前的hidden state/cell分离
#这样backpropagation会从分离的部分重新开始

#detach: https://pytorch.org/docs/stable/generated/torch.Tensor.detach.html
#Returns a new Tensor, detached from the current graph.
#The result will never require gradient.

def repackage_hidden(hidden):
    #如果hidden是Tensor
    
    # isinstance(object, classinfo)
    # 如果对象的类型与参数二的类型（classinfo）相同则返回 True，否则返回 False
    if isinstance(hidden, torch.Tensor):
        return hidden.detach()
    #否则是(hidden_state, cell_state)元组
    #递归调用，将两者截断后重新组成元组
    else:
        return tuple(repackage_hidden(i) for i in hidden)

定义loss fun和optimizer

In [11]:
loss_fn=nn.CrossEntropyLoss()
optimizer=torch.optim.Adam(model.parameters(),lr=learning_rate)

In [12]:
for epoch in range(NUM_EPOCHES):
    #Sets the module in training mode.
    model.train()
    #将train_iter转化为迭代器
    it=iter(train_iter)
    #初始化hidden state
    hidden= model.init_hidden(BATCH_SIZE)
    #enumerate: 为迭代器每次迭代添加序号
    for i, batch in enumerate(it):
        data, target = batch.text, batch.target #已经在cuda上了，不需要进行设备转换: print(batch.text)
        
        #在每个batch调用hidden之前，将hidden与其之前的历史分离
        #保证虽然利用了之前的hidden，但是bptt只在此次batch中进行
        hidden=repackage_hidden(hidden)
        
        #在语言模型中， 训练集中的前一个句子与后一个句子是相连的
        #所以下一个batch/iteration/下一个backpropagationThroughTime的过程仍然可以用上一次的hidden state
        output, hidden =model(data, hidden)
        
        #output形状：(seq_length， batch_size， vocab_size)
        #为了使用crossentropy计算loss，需要对output reshape为(seq_length * batch_size，vocab_size)
        output=output.reshape(-1, VOCAB_SIZE)
        
        #计算loss
        #将target也reshape成vector
        #注意CrossEntropyLoss包含了LogSoftmax
        #output: (seq_length * batch_size，vocab_size)
        #garget.view: (seq_length * batch_size)
        loss=loss_fn(output, target.view(-1))
        
        #backward
        loss.backward()
        
        #将parameters clip，防止vanishing gradients and exploding gradients.
        torch.nn.utils.clip_grad_norm_(model.parameters(), GRAD_CLIP)
        
        #更新网络参数
        optimizer.step()
        
        #清零gradient
        optimizer.zero_grad()
        
        #每100次输出loss
        if i%100==0:
            print('loss', i, ': ', loss.item())

loss 0 :  10.811491012573242
loss 100 :  7.245739936828613
loss 200 :  7.6914544105529785
loss 300 :  7.333763122558594


KeyboardInterrupt: 