# 语言模型（输入一个句子，输出这个句子产生的概率）

学习目标
- 学习语言模型，以及如何训练一个语言模型
- 学习torchtext的基本使用方法
    - 构建 vocabulary
    - word to inde 和 index to word
- 学习torch.nn的一些基本模型
    - Linear
    - RNN
    - LSTM
    - GRU
- RNN的训练技巧
    - Gradient Clipping
- 如何保存和读取模型

## 调用工程需要的包

In [1]:
import torchtext
import torch
import numpy as np
import random
import os

USE_CUDA=torch.cuda.is_available()
device=torch.device('cuda' if USE_CUDA else 'cpu')

#固定random seed
random.seed(1)
np.random.seed(1)
torch.manual_seed(1)
if USE_CUDA:
    torch.cudada.manual_seed(1)
    
#一个bantch中有多少个句子
BATCH_SIZE=32 
#word embedding 的维度
EMBEDDING_SIZE=650
MAX_BOCAB_SIZE=50000

AttributeError: module 'torch' has no attribute 'deviceevice'

## 创建vocabulary(单词表)
- 安装[torchtext](https://github.com/pytorch/text)  (用于文本预处理)  
    pip install torchtext  
- 使用 torchtext 来创建vocabulary, 然后把数据读成batch的格式。请大家自行阅读README来学习torchtext。  
- **注意变更**：  
    torchtext.data.Field -> torchtext.legacy.data.Field  
    torchtext.datasets.LanguageModelingDataset -> torchtext.legacy.datasets.LanguageModelingDataset

### 使用field预处理数据；利用LanguageMOdelingDataset class创建三个dataset
继续使用text8数据集作为训练、验证和测试数据
1. TorchText的一个重要概念是[Field](https://torchtext.readthedocs.io/en/latest/data.html#field)，其决定了数据会被如何处理  
    我们使用TEXT这个field来处理文本数据  
    我们的TEXT field有lower-Ture这个参数，故所有的单词都会被lowercase  
    torchtext提供了LanguageModelingDataset这个class来帮助处理语言模型数据集  
2. build_vocab可以根据我们提供的训练数据集来创建最高频单词的单词表，max_size帮助我们限定单词总量
3. BPTTIterator可以连续地获得连贯的句子，[BPTT](https://zh.d2l.ai/chapter_recurrent-neural-networks/bptt.html): back propagation through time

In [None]:
#确定数据集路径
script_path=os.path.abspath('__file__')
dir_path=os.path.dirname(script_path)
path=os.path.join(dir_path,'text8')
print(path,type(path))

#创建一个名为TEXT的Field
#lower=True: 将所有单词lowercase
TEXT=torchtext.legacy.data.Field(lower=True)
#创建用于language modeling的train, val, test三个dataset
train, val, test = torchtext.legacy.datasets.LanguageModelingDataset.splits(path=path, 
                                                                            train='text8.train.txt', 
                                                                            validation='text8.dev.txt', 
                                                                            test='text8.test.txt', 
                                                                            text_field=TEXT)

### 创建Vocabulary
- 创建vocabulary(单词表)相当于__myTorch/2/wordEmbeddingNotebook/2.ipynb#数据预处理及相关操作__中创建vocab参数的过程
- 具体流程是从dataset中取出出现频数最高的前MAX_BOCAB_SIZE个单词作为Vocabulary
- 单词表单词个数为50002个而不是50000个，是因为TorchText为我们增加了两个特殊的token：  
    \< unk \>: 表示未知的，不在单词表中的单词  
    \< pad \>: 表示padding，当句子较短时，将\< pad \>添加进句子末尾补齐长度

In [None]:
#创建training dataset的vocabulary 单词数量为MAX_BOCAB_SIZE
TEXT.build_vocab(train, max_size=MAX_BOCAB_SIZE)
#注意单词个数是50002个，而不是MAX_BOCAB_SIZE指定的50000个
print(len(TEXT.vocab)) #vocabulary size

#itos: index to string
print(type(TEXT.vocab.itos))
print(TEXT.vocab.itos[:10]) #注意<unk>和<pad>

#stoi: string to index
print(type(TEXT.vocab.stoi))
print(TEXT.vocab.stoi['apple'])

### 创建batch(iterator)
为dataset创建batch，每个batch包含BATCH_SIZE个句子

In [None]:
#bptt_len:  Length of sequences for backpropagation through time.
#具体参考：https://zh.d2l.ai/chapter_recurrent-neural-networks/bptt.html
#repeat=False: 过完一边dataset后就结束一次epoch
train_iter, val_iter, test_iter=torchtext.data.BPTTIterator.splits(
    (train, val, test), 
    batch_sizes=BATCH_SIZE, 
    device=device, 
    bptt_len=25, 
    repeat=False, 
    suhuffle=True,)

In [None]:
#测试
it=iter(train_iter)
batch=next(it)
print(batch)