# LSTM 做词性预测
前面我们讲了词嵌入以及 n-gram 模型做单词预测，但是目前还没有用到 RNN，在最后这一次课中，我们会结合前面讲的所有预备知识，教大家如何使用 LSTM 来做词性预测。

## 模型介绍
对于一个单词，会有这不同的词性，首先能够根据一个单词的后缀来初步判断，比如 -ly 这种后缀，很大概率是一个副词，除此之外，一个相同的单词可以表示两种不同的词性，比如 book 既可以表示名词，也可以表示动词，所以到底这个词是什么词性需要结合前后文来具体判断。

根据这个问题，我们可以使用 lstm 模型来进行预测，首先对于一个单词，可以将其看作一个序列，比如 apple 是由 a p p l e 这 5 个单词构成，这就形成了 5 的序列，我们可以对这些字符构建词嵌入，然后输入 lstm，就像 lstm 做图像分类一样，只取最后一个输出作为预测结果，整个单词的字符串能够形成一种记忆的特性，帮助我们更好的预测词性。

![](https://ws3.sinaimg.cn/large/006tKfTcgy1fmxi67w0f7j30ap05qq2u.jpg)

接着我们把这个单词和其前面几个单词构成序列，可以对这些单词构建新的词嵌入，最后输出结果是单词的词性，也就是根据前面几个词的信息对这个词的词性进行分类。

下面我们用例子来简单的说明

In [None]:
from __future__ import print_function
from __future__ import division
from __future__ import absolute_import

import tensorflow as tf
import tensorflow.contrib.slim as slim
from utils.layers import lstm

我们使用下面简单的训练集

In [None]:
training_data = [("The dog ate the apple".split(),
                  ["DET", "NN", "V", "DET", "NN"]),
                 ("Everybody read that book".split(), 
                  ["NN", "V", "DET", "NN"])]

接下来我们需要对单词和标签进行编码

In [None]:
words = []
tags = []
for context, tag in training_data:
    for w in context:
        words.append(w.lower())
    for t in tag:
        tags.append(t.lower())
words = list(set(words))
tags = list(set(tags))

word_to_idx = dict(zip(words, range(len(words))))
tag_to_idx = dict(zip(tags, range(len(tags))))

In [None]:
word_to_idx

In [None]:
tag_to_idx

然后我们对字母进行编码

In [None]:
alphabet = 'abcdefghijklmnopqrstuvwxyz'
chars = list(alphabet)

char_to_idx = dict(zip(chars, range(len(chars))))

In [None]:
char_to_idx

### `tf.contrib.lookup.index_table_from_tensor`
在`tensorflow`运行过程中, 我们无法使用`python`下的字典, 因为图的元素是一个张量而不是具体值, `python`无法返回.

我们需要用到`tf.contrib.lookup.index_table_from_tensor`, 它能帮我们搭建从字符串到编码的映射关系

- 首先, 根据映射关系构造一个`table`

函数定义非常简单, 参数就是需要映射元素列表的`tensor`形式, 在这里我们设置为常量`tensor`. 这样列表中元素的每一项都被映射成自己的下标

In [None]:
word_table = tf.contrib.lookup.index_table_from_tensor(tf.constant(words))
tag_table = tf.contrib.lookup.index_table_from_tensor(tf.constant(tags))
char_table = tf.contrib.lookup.index_table_from_tensor(tf.constant(chars))

建立`table`之后, 我们就可以输入一个对应映射关系的列表, 从而查找到它的下标.

- 构建占位符, 等待填入元素

In [None]:
word_ph = tf.placeholder(tf.string, [None,])
tag_ph = tf.placeholder(tf.string, [None,])
char_ph = tf.placeholder(tf.string, [None,])

### `lookup`

- 调用`table`的`lookup`方法, 就可以找到对应的下标了

In [None]:
word_code = word_table.lookup(word_ph)
tag_code = tag_table.lookup(tag_ph)
char_code = char_table.lookup(char_ph)

我们来看看实际效果

In [None]:
def lower(symbols):
    return map(lambda x: x.lower(), symbols)

In [None]:
sess = tf.Session()

**注意**: 当定义了`table`形式的`tensor`后, 我们需要额外对这些`table`初始化一次, 非常简单

In [None]:
sess.run(tf.tables_initializer())

填入一个单词, 查看每个字母对应的编码

In [None]:
print(sess.run(char_code, feed_dict={char_ph: lower('apple')}))

填入一个句子, 查看每个单词对应的编码

In [None]:
print(training_data[1][0])
print(sess.run(word_code, feed_dict={word_ph: lower(training_data[1][0])}))

### 构建`seq-lstm`模型
- 首先构建单个字符的 lstm 模型

In [None]:
def char_lstm(char_code, n_char, char_dim, char_hidden, scope='char_lstm', reuse=tf.AUTO_REUSE):
    with tf.variable_scope(scope, reuse=reuse):
        # 嵌入
        embeddings = tf.get_variable('embeddings', shape=(n_char, char_dim), 
                                          dtype=tf.float32, initializer=tf.random_uniform_initializer(minval=0.0, maxval=1.0))
        char_embed = tf.nn.embedding_lookup(embeddings, char_code, name='embed')
        
        # 将输入满足`(seq, batch, feature)`条件， 这里`batch=1`
        char_embed = tf.expand_dims(char_embed, axis=1)
        
        # 经过`lstm`网络给出特征
        out, _ = lstm(char_embed, char_hidden, 1, 1)
        
    return out[-1]

- 构造词性分类模型

In [None]:
def lstm_tagger(word_code, word_list, n_word, n_char, word_dim, char_dim, 
               word_hidden, char_hidden, n_tag, scope='lstm_tagger', reuse=None):
    with tf.variable_scope(scope, reuse=reuse):
        # 首先对一个句子里的所有单词用`char_lstm`进行编码
        def char_lstm_fun(single_word):
            # 使用`tf.string_split`对单词进行字母级别的分割
            char_list = tf.string_split([single_word], delimiter='').values
            
            # 使用`char_table`查找所有字母的编码
            char_code = char_table.lookup(char_list)
            
            # 将编码进入`lstm`得到输出
            char_lstm_out = char_lstm(char_code, len(chars), 10, char_hidden)

            return char_lstm_out
        
        # tf.while_loop退出循环的条件
        def cond(i, char_out_list, word_list):
            return tf.less(i, tf.shape(word_list)[0])
        
        # tf.while_loop循环体
        def body(i, char_out_list, word_list):
            char_out = char_lstm_fun(word_list[i])
            # 如果不是第一个, 在第1维进行 concate, 否则直接赋值
            char_out_list = tf.cond(i > 0, lambda: tf.concat([char_out_list, char_out], axis=0), lambda: char_out)
            
            return i + 1, char_out_list, word_list
        
        # tf.while_loop的初始变量 i
        i = tf.constant(0)
        
        # tf.while_loop的初始变量 init_char_list
        ## 为了更少debug, 用一个形状为 (None, char_hidden) 的 placeholder 作为初始化, 这样
        ## 经过 tf.while_loop 之后形状不会发生改变
        ## 但这增加了一个实际上没有用的 placeholder, 或许有更优的解决方法
        init_char_list = tf.placeholder(tf.float32, shape=(None, char_hidden))
        
        # tf.while_loop
        # 三个参数, 第一个是退出循环条件函数, 第二个是循环体函数, 第三个是带入的初始变量
        # 可以参考 https://blog.csdn.net/qq_20611245/article/details/77363609
        _, char_out_list, _ = tf.while_loop(cond, body, [i, init_char_list, word_list])
        
        # 最后将形状从 (seq, char_hidden) --> (seq, 1, char_hidden)
        char_out = tf.expand_dims(char_out_list, axis=1)
        
        # 构造单词的嵌入模型
        word_embeddings = tf.get_variable('embeddings', shape=(n_word, word_dim), 
                                          dtype=tf.float32, initializer=tf.random_uniform_initializer(minval=0.0, maxval=1.0))
        word_embed = tf.nn.embedding_lookup(word_embeddings, word_code, name='word_embed')# (seq, word_dim)
        word_embed = tf.expand_dims(word_embed, axis=1) # (seq, 1, word_dim)
        
        # 将单词的嵌入向量和单词的`lstm`结果按照最后一维(特征)进行连接
        net = tf.concat([char_out, word_embed], axis=-1)
        
        # 进入`lstm`
        net, _ = lstm(net, word_hidden, 1, 1)
        
        # 分类层
        net = tf.reshape(net, (-1, word_hidden))
        net = slim.fully_connected(net, n_tag, activation_fn=None, scope='classification')
        
        return net, init_char_list

In [None]:
net, init_char_list = lstm_tagger(word_code, word_ph, len(words), len(chars), 100, 10, 128, 50, len(tags))

In [None]:
loss = tf.losses.sparse_softmax_cross_entropy(labels=tag_code, logits=net)

opt = tf.train.MomentumOptimizer(1e-2, 0.9)

train_op = opt.minimize(loss)

In [None]:
sess.run(tf.global_variables_initializer())

for e in range(300):
    train_loss = 0
    for word, tag in training_data:
        curr_train_loss, _ = sess.run([loss, train_op], feed_dict={word_ph: lower(word), tag_ph: lower(tag), init_char_list: [[1] * 50]})
        train_loss += curr_train_loss
    if (e + 1) % 50 == 0:
        print('Epoch: {}, Loss: {:.6f}'.format(e + 1, train_loss / len(training_data)))

In [None]:
test_sent = 'Everybody ate the apple'
out = sess.run(net, feed_dict={word_ph: lower(test_sent.split()), init_char_list: [[1] * 50]})

In [None]:
print(out)

In [None]:
print(tag_to_idx)

最后可以得到上面的结果，因为最后一层的线性层没有使用 softmax，所以数值不太像一个概率，但是每一行数值最大的就表示属于该类，可以看到第一个单词 'Everybody' 属于 nn，第二个单词 'ate' 属于 v，第三个单词 'the' 属于det，第四个单词 'apple' 属于 nn，所以得到的这个预测结果是正确的