# 自然语言处理

## 1 语言表示与语言模型
### 1.1 词嵌入(word embedding)
图像分类中使用one-hot编码表示不同的类，但在自然语言中，字典(字表)很大如果使用one-hot编码会造成很大的数据稀疏性，并且该编码无法表达单词的语义相似性。自然语言中存在**语义鸿沟**问题，如“麦克风”和“话筒”，无法从字面看出两个单词其实在表达同样的东西，所以引入了基于神经网络的分布式表示，词嵌入(word embedding)或词向量(word vectors)

通过一些训练文本，训练word2vec模型，得到单词的高维度表示，优点如下：
1. 词向量的夹角越小，表达的语义更加接近(一定程度上解决了语义鸿沟问题)
2. 高维向量中元素不是0或1的形式，数据更加稠密

In [1]:
import os
import torch
import numpy as np
from torch import nn, optim
import torch.nn.functional as F
import matplotlib.pyplot as plt
from torch.autograd import Variable
from torch.utils.data import DataLoader
from torchvision import transforms, datasets, models

# 优先使用GPU
use_cuda = torch.cuda.is_available()
device = torch.device('cuda' if use_cuda else 'cpu')

In [2]:
# 词嵌入，将one-hot编码的单词变为高维度的向量表示
word_to_ix = {'hello':0, 'world':1, 'python':2, 'AI':3}
embeds = nn.Embedding(3, 5)     # Embedding(m,n) m:字典，所有单词数目 n:嵌入维度
test_idx = torch.tensor(word_to_ix['python'])   # 转换为tensor
print('1.测试单词的向量类型:', test_idx.type())
test_embed = embeds(test_idx)   # 进行词嵌入
print('2.词嵌入的结果:', test_embed, test_embed.shape)

1.测试单词的向量类型: torch.LongTensor
2.词嵌入的结果: tensor([-0.8307,  1.1385, -0.9492,  1.3911, -1.4588], grad_fn=<EmbeddingBackward>) torch.Size([5])


小结:
- `nn.Embedding(m,n)`是将one-hot编码嵌入到相对较低的维度，用float型数据表示，通常词典长度远大于嵌入的维度，但嵌入的维度仍可以看做是高维度，该语句只是通过线性变换将稀疏的数据转换为稠密的低维数据，所以线性变换的权重对应的参数也要进行参数更新，即**词向量也要进行参数的更新**

### 1.2 语言建模 (Language Model)
(1) **N-Gram模型**

一句话$T$由$w_1,w_2,...w_n$组成，通过前面的词推断后面的词，用条件概率将词联系到一起，公式如下:

<center>$P(T)=P(w_1)P(w_2|w_1)...P(w_n|w_{n-1}w_{n-2}...w_2w_1)$</center>

存在问题：预测一个词需要前面所有的词来计算

解决方法：引入马尔科夫假设，某个单词只有前面几个词有关系，并不是前面的所有词，一般可以认为距离接近的词之间的联系比距离较远的词联系紧密，引入马尔科夫假设后的N-Gram模型有:
1. 一元模型(unigram model)：单词间是独立的概率
2. 二元模型(bigram model)：前一个个单词推断后一个单词
3. 三元模型(trigram model)：前两个单词推断后一个单词

(2) **词袋模型 (Continuous Bag-of-words model,CBOW)**

一句话中的第$n$个单词，可以由它前面几个和后面几个单词推断出来，CBOW是通过上下文来预测中间目标词的模型，该模型可以看作N-Gram模型的加强版

<img src="./image/cbow.jpg" width="50%" height="50%">

(3) **Skip-Gram model (SG)**

与CBOW相反，是通过中间词来预测上下文
<img src="./image/skip-gram.jpg" width="50%" height="50%">
注意：语言模型可以通过分层softmax(hierarchical softmax)和负采样(negative sampling)来优化

### (1) N-Gram

In [6]:
# 1.导入news数据，从China Daily上找的3篇
import re  # 导入正则匹配来切分字符串

def read_file(file_path):
    """file_path: 读入文本数据的文件路径
       vocabulary：返回训练文本的字典
       file_idx：返回训练文本对应的字典序号
    """
    assert os.path.exists(file_path), 'file is not exist!'
    with open(file_path) as file:
        file_str = file.read().strip()   # 读入为字符格式
        split_rule = r'[\s\.\,]+'        # 匹配至少一个空格、逗号或句号
        file_list = re.split(split_rule, file_str) # 按规则分割文本字符串->list
        file_list.remove('"')            # 移除多余字符
        file_set = set(file_list)        # 单词去重
        # 创建字典 word:index
        vocabulary = {word:i for i, word in enumerate(file_set)}  
        file_idx = [vocabulary[word] for word in file_list]
#         print(vocabulary)
#         print(file_list)
#         print(file_idx)
        return vocabulary, file_idx

vocab, data = read_file('./data/news.txt')
print('1.字典的长度:', len(vocab))            # 将所有的词都作为字典了
print('2.训练文本的长度:', len(data))

1.字典的长度: 622
2.训练文本的长度: 1421


一下数据生成器程序参考:[stikbuf/Language_Modeling](https://github.com/stikbuf/Language_Modeling/blob/master/Keras_Character_Aware_Neural_Language_Models.ipynb)

In [7]:
# 2.创建N-Gram的数据集 x(n-i),...,x(n-2),x(n-1)=>x(n)，前i个单词推断当前单词
# 数据生成的思想，先将[0,1,...,len(datasets)-1]索引随机，选出batch_size个索引
# 通过该索引使用datasets[i:i+num_infer+1]读取所需数据，但注意索引溢出
def create_data(datasets, num_infer, batch_size):
    """datasets:数据集list形式
       num_infer:需要参考的词数量
       X:所需的推测数据 [batch, num_infer] 列表形式
       y:目标数据 [batch, 1]
    """
    while True:
        rnd_idx = list(range(len(datasets) - num_infer - 1)) # 保证索引不溢出
        np.random.shuffle(rnd_idx)    # 打乱顺序，随机取出一个batch的数据
        batch_start = 0               # 按batch_size大小读取数据的索引
        X, Y = [], []
        while batch_start + batch_size < len(rnd_idx):    # 保证索引不溢出
            # 取batch_size个索引
            batch_idx = rnd_idx[batch_start:batch_start+batch_size] 
            temp_data = np.array([datasets[i:i+num_infer+1] for i in batch_idx])
#             print(temp_data)

            X = temp_data[:, :-1]       # 除去最后一列的所有数据
            Y = temp_data[:, -1:]       # 最后一列数据 
            batch_start += batch_size   # 方便读取下一个batch索引
            yield X, Y
        
gen = create_data(data, 2, 3)

In [8]:
x, y = next(gen)
print('1.训练数据X:\n', x)
print('2.目标数据y:\n', y)

1.训练数据X:
 [[ 60 135]
 [195  18]
 [110 197]]
2.目标数据y:
 [[317]
 [  1]
 [223]]


In [9]:
# 3.创建模型
class NgramModel(nn.Module):
    def __init__(self, vocab_size, context_size, n_dim, hidden_dim=128):
        super().__init__()
        self.n_word = vocab_size                            # 训练数据的字典大小
        self.context_size = context_size
        self.n_dim = n_dim
        # 嵌入后的维度 [batch, context_size] -> [batch, context_size, n_dim]
        self.embedding = nn.Embedding(self.n_word, n_dim)   # 嵌入维度为n_dim
        # get [batch, hidden_dim]
        self.linear1 = nn.Linear(context_size*n_dim, hidden_dim)
        # get [batch, self.n_word] 与字典索引对应
        self.linear2 = nn.Linear(hidden_dim, self.n_word)          # 输出字典的维度
    def forward(self, x):
        embeds = self.embedding(x)
         # get [batch,context_size*n_dim]
        embeds = embeds.view(-1, self.context_size*self.n_dim)
        out = self.linear1(embeds)        # get [batch, hidden_dim]
        out = F.relu(out)
        out = self.linear2(out)           # get [batch, n_word]
        log_prob = F.log_softmax(out, 1)  # 沿第dim=1轴计算
        return log_prob    

In [10]:
# 创建模型并进行测试
context = 2  # 参考前2各词
inputs = np.random.randint(0,len(data), [5,2])
inputs = torch.from_numpy(inputs).long()   # 必须将数据转换为LongTensor才行
print('1.输入的数据类型:', inputs.type())
NGram_model = NgramModel(len(data), context, 128, hidden_dim=256)
outputs = NGram_model(inputs)
print('2.模型输出:', outputs.shape, '\n', outputs)

1.输入的数据类型: torch.LongTensor
2.模型输出: torch.Size([5, 1421]) 
 tensor([[-7.2300, -7.2635, -7.2820,  ..., -7.1418, -6.7750, -6.9280],
        [-7.3038, -6.7770, -7.3856,  ..., -7.4613, -7.2551, -7.3360],
        [-7.4271, -6.9688, -7.2909,  ..., -7.1448, -7.0421, -7.1410],
        [-7.0822, -6.5178, -7.6768,  ..., -7.3704, -6.9111, -7.0851],
        [-7.3081, -6.6761, -7.3068,  ..., -7.4454, -7.2807, -6.7935]],
       grad_fn=<LogSoftmaxBackward>)


In [11]:
# 4.定义损失函数，优化函数
criterion = nn.CrossEntropyLoss()  # 网络输出vocab维度，目标vocab维度，类似于分类
optimizer = optim.SGD(NGram_model.parameters(), lr=1e-2)#, weight_decay=1e-5)

In [12]:
next(gen)

(array([[ 59, 226],
        [251, 514],
        [141,  59]]), array([[167],
        [446],
        [339]]))

In [18]:
# 5.训练网络
context = 2              # 参考的单词数目
epochs = 50000
batch_size = 32
def train(model, batch_size, epochs):
    model.to(device)     # 优先使用GPU
    gen = create_data(data, context, batch_size)  # 创建数据生成器
    train_loss = 0
    for epoch in range(epochs):
        x, y = next(gen)  # 获取训练数据
        x, y = map(lambda x:torch.LongTensor(x).to(device), [x, y])
        y = y.squeeze()
        prediction = model(x)
#         print(prediction.shape)
#         print(y.shape)
        loss = criterion(prediction, y)
#         train_loss += loss.item()    # 叠加
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
        if epoch % 2000 == 0:
            print('epoch {} loss {:.4f}'.format(epoch, loss.item()))
        
            
train(NGram_model, batch_size, epochs)

epoch 0 loss 0.0934
epoch 2000 loss 0.1688
epoch 4000 loss 0.1514
epoch 6000 loss 0.1482
epoch 8000 loss 0.2233
epoch 10000 loss 0.1112
epoch 12000 loss 0.1064
epoch 14000 loss 0.0548
epoch 16000 loss 0.1644
epoch 18000 loss 0.1428
epoch 20000 loss 0.1721
epoch 22000 loss 0.2054
epoch 24000 loss 0.2478
epoch 26000 loss 0.1504
epoch 28000 loss 0.1263
epoch 30000 loss 0.1749
epoch 32000 loss 0.1962
epoch 34000 loss 0.3274
epoch 36000 loss 0.2761
epoch 38000 loss 0.1430
epoch 40000 loss 0.2732
epoch 42000 loss 0.2349
epoch 44000 loss 0.2268
epoch 46000 loss 0.2193
epoch 48000 loss 0.1436


In [155]:
gen = create_data(data, context, batch_size=1)
idx_to_word = {idx:word for word, idx in vocab.items()}   # 创建index:word的字典

def test(num_samples=1):
    print('-'*60)
    for i in range(num_samples):
        word, label = next(gen)
        # print(word)
        # print(label)
        # [[220 483]]获取数据到list
        inputs_idx = [word[0,i] for i in range(word.shape[1])] 
        # print(inputs_idx)

        print('1.测试的输入单词 {}'.format([idx_to_word[idx] for idx in inputs_idx]), end='')
        print('  输出单词 {}'.format([idx_to_word[label[0,0]]]))

        word = torch.from_numpy(word).long().to(device)
        prediction = NGram_model(word)
        pred_label_idx = prediction.max(1)[1].item()
        # print(pred_label_idx)
        print('2.预测的单词为 ', idx_to_word[pred_label_idx])
        print('-'*60)
test(3)

------------------------------------------------------------
1.测试的输入单词 ['year', 'earlier']  输出单词 ['to']
2.预测的单词为  to
------------------------------------------------------------
1.测试的输入单词 ['often', 'sees']  输出单词 ['Chinese']
2.预测的单词为  Chinese
------------------------------------------------------------
1.测试的输入单词 ['welcomed', 'the']  输出单词 ['company']
2.预测的单词为  company
------------------------------------------------------------


小结:
- `CrossEntropyLoss()`在分类任务中标签非one-hot编码下使用，输出维度[batch, out_dim]，目标维度[batch]仅是一维的数组，且里面的元素属于[0,num_classes-1]之间