## 7.7 Pytorch实现词性判别
我们知道每一个词都有词性，如train这个单词，可表示火车或训练等意思，具体表示为哪种词性，跟这个词所处的环境或上下文密切相关。根据上下文来确定词性是循环网络擅长的事，因为循环网络，尤其是LSTM或GRU网络，具有记忆功能。
	这节将使用LSTM网络实现词性判别。

### 7.7.1 词性判别主要步骤
	如何用LSTM对一句话里的各词进行词性标注？需要采用哪些步骤？这些问题就是这节将涉及的问题。用LSTM实现词性标注，我们可以采用以下步骤。
1.实现词的向量化。      
	假设有两个句子，作为训练数据，这两个句子的每个单词都已标好词性。当然我们不能直接把这两个语句直接输入LSTM模型，输入前需要把每个语句的单词向量化。假设这个句子共有5个单词，通过单词向量化后，就可得到序列[V_1, V_2, V_3, V_4, V_5],其中V_i表示第i个单词对应的向量。如何实现词的向量化？我们可以直接利用nn.Embedding层即可。当然在使用该层之前，需要把每句话对应单词或词性用整数表示。   
2.构建网络  
	词向量化之后，需要构建一个网络来训练，可以构建一个只有三层的网络，第一层为词嵌入层，第二层为LSTM层，最后一层用于词性分类的全连接层。
	下面用PyTorch实现这些步骤。

### 7.7.2 数据预处理

In [49]:
import torch
import torch.nn as nn
import torch.nn.functional as F
import torchvision
from torchvision import transforms

In [63]:
#定义训练数据
training_data = [
    ("The cat ate the fish".split(), ["DET", "NN", "V", "DET", "NN"]),
    ("They read that book".split(), ["NN", "V", "DET", "NN"])
]
#定义测试数据
testing_data=[("They ate the fish".split())]

In [64]:
testing_data

[['They', 'ate', 'the', 'fish']]

In [65]:
word_to_ix = {} # 单词的索引字典
for sent, tags in training_data:
    for word in sent:
        if word not in word_to_ix:
            word_to_ix[word] = len(word_to_ix)
print(word_to_ix)

{'The': 0, 'cat': 1, 'ate': 2, 'the': 3, 'fish': 4, 'They': 5, 'read': 6, 'that': 7, 'book': 8}


In [66]:
tag_to_ix = {"DET": 0, "NN": 1, "V": 2} # 手工设定词性标签数据字典

### 7.7.3 构建网络
构建训练网络，共三层，分别为嵌入层、LSTM层、全连接层。

In [79]:
class LSTMTagger(nn.Module):
 
    def __init__(self, embedding_dim, hidden_dim, vocab_size, tagset_size):
        super(LSTMTagger, self).__init__()
        self.hidden_dim = hidden_dim
 
        self.word_embeddings = nn.Embedding(vocab_size, embedding_dim)
 
        self.lstm = nn.LSTM(embedding_dim, hidden_dim)
 
        self.hidden2tag = nn.Linear(hidden_dim, tagset_size)
        self.hidden = self.init_hidden()
 
    #初始化隐含状态State及C
    def init_hidden(self):
        return (torch.zeros(1, 1, self.hidden_dim),
                torch.zeros(1, 1, self.hidden_dim))
 
    def forward(self, sentence):
        #获得词嵌入矩阵embeds
        embeds = self.word_embeddings(sentence)   
        #按lstm格式，修改embeds的形状
        lstm_out, self.hidden = self.lstm(embeds.view(len(sentence), 1, -1), self.hidden)
        #修改隐含状态的形状，作为全连接层的输入
        tag_space = self.hidden2tag(lstm_out.view(len(sentence), -1))
        #计算每个单词属于各词性的概率
        tag_scores = F.log_softmax(tag_space,dim=1)
        return tag_scores

其中有一个nn.Embedding(vocab_size, embed_dim)类，它是Module类的子类，这里它接收最重要的两个初始化参数：词汇量大小，每个词汇向量表示的向量维度。Embedding类返回的是一个形状为[每句词个数，词维度]的矩阵。nn.LSTM层的输入形状为（序列长度，批量大小，输入的大小），序列长度就是时间步序列长度，这个长度是可变的。F.log_softmax()执行的是一个Softmax回归的对数。
	把数据转换为模型要求的格式，即把输入数据需要转换为torch.LongTensor张量。

In [68]:
def prepare_sequence(seq, to_ix):
    idxs = [to_ix[w] for w in seq]
    tensor = torch.LongTensor(idxs)
    return tensor

### 7.7.4 训练网络

In [69]:
EMBEDDING_DIM=10
HIDDEN_DIM=3  #这里等于词性个数

model = LSTMTagger(EMBEDDING_DIM, HIDDEN_DIM, len(word_to_ix), len(tag_to_ix))
loss_function = nn.NLLLoss()
optimizer = torch.optim.SGD(model.parameters(), lr=0.1)

In [70]:
model = LSTMTagger(EMBEDDING_DIM, HIDDEN_DIM, len(word_to_ix), len(tag_to_ix))
loss_function = nn.NLLLoss()
optimizer = torch.optim.SGD(model.parameters(), lr=0.1)
 
inputs = prepare_sequence(training_data[0][0], word_to_ix)
tag_scores = model(inputs)
print(training_data[0][0])
print(inputs)
print(tag_scores)
print(torch.max(tag_scores,1))

['The', 'cat', 'ate', 'the', 'fish']
tensor([0, 1, 2, 3, 4])
tensor([[-1.4376, -0.9836, -0.9453],
        [-1.4421, -0.9714, -0.9545],
        [-1.4725, -0.8993, -1.0112],
        [-1.4655, -0.9178, -0.9953],
        [-1.4631, -0.9221, -0.9921]], grad_fn=<LogSoftmaxBackward>)
(tensor([-0.9453, -0.9545, -0.8993, -0.9178, -0.9221], grad_fn=<MaxBackward0>), tensor([2, 2, 1, 1, 1]))


In [80]:
for epoch in range(400): # 我们要训练400次。
    for sentence, tags in training_data:
# 清除网络先前的梯度值
        model.zero_grad()
# 重新初始化隐藏层数据
        model.hidden = model.init_hidden()
# 按网络要求的格式处理输入数据和真实标签数据
        sentence_in = prepare_sequence(sentence, word_to_ix)
        targets = prepare_sequence(tags, tag_to_ix)
# 实例化模型
        tag_scores = model(sentence_in)
# 计算损失，反向传递梯度及更新模型参数
        loss = loss_function(tag_scores, targets)
        loss.backward()
        optimizer.step()
 
# 查看模型训练的结果
inputs = prepare_sequence(training_data[0][0], word_to_ix)
tag_scores = model(inputs)
print(training_data[0][0])
print(tag_scores)
print(torch.max(tag_scores,1))

['The', 'cat', 'ate', 'the', 'fish']
tensor([[-4.9405e-02, -6.8691e+00, -3.0541e+00],
        [-9.7177e+00, -7.2770e-03, -4.9350e+00],
        [-3.0174e+00, -4.4508e+00, -6.2511e-02],
        [-1.6383e-02, -1.0208e+01, -4.1219e+00],
        [-9.7806e+00, -8.2493e-04, -7.1716e+00]], grad_fn=<LogSoftmaxBackward>)
(tensor([-0.0494, -0.0073, -0.0625, -0.0164, -0.0008], grad_fn=<MaxBackward0>), tensor([0, 1, 2, 0, 1]))


### 7.7.5 测试模型

In [81]:
test_inputs = prepare_sequence(testing_data[0], word_to_ix)
tag_scores01 = model(test_inputs)
print(testing_data[0])
print(test_inputs)
print(tag_scores01)
print(torch.max(tag_scores01,1))

['They', 'ate', 'the', 'fish']
tensor([5, 2, 3, 4])
tensor([[-7.6594e+00, -5.2700e-03, -5.3424e+00],
        [-2.6831e+00, -5.2537e+00, -7.6429e-02],
        [-1.4973e-02, -1.0440e+01, -4.2110e+00],
        [-9.7853e+00, -8.3971e-04, -7.1522e+00]], grad_fn=<LogSoftmaxBackward>)
(tensor([-0.0053, -0.0764, -0.0150, -0.0008], grad_fn=<MaxBackward0>), tensor([1, 2, 0, 1]))
