# LSTM 做词性预测

下面我们用例子来简单的说明

In [1]:
from __future__ import print_function
from __future__ import division
from __future__ import absolute_import

import tensorflow as tf
import tensorflow.contrib.slim as slim
from utils.layers import lstm

  from ._conv import register_converters as _register_converters


我们使用下面简单的训练集

In [2]:
training_data = [("The dog ate the apple".split(),
                  ["DET", "NN", "V", "DET", "NN"]),
                 ("Everybody read that book".split(), 
                  ["NN", "V", "DET", "NN"])]

接下来我们需要对单词和标签进行编码

In [3]:
words = []
tags = []
for context, tag in training_data:
    for w in context:
        words.append(w.lower())
    for t in tag:
        tags.append(t.lower())
words = list(set(words))
tags = list(set(tags))

word_to_idx = dict(zip(words, range(len(words))))
tag_to_idx = dict(zip(tags, range(len(tags))))

In [4]:
word_to_idx

{'apple': 5,
 'ate': 2,
 'book': 7,
 'dog': 6,
 'everybody': 0,
 'read': 4,
 'that': 3,
 'the': 1}

In [5]:
tag_to_idx

{'det': 2, 'nn': 0, 'v': 1}

然后我们对字母进行编码

In [6]:
alphabet = 'abcdefghijklmnopqrstuvwxyz'
chars = list(alphabet)

char_to_idx = dict(zip(chars, range(len(chars))))

In [7]:
char_to_idx

{'a': 0,
 'b': 1,
 'c': 2,
 'd': 3,
 'e': 4,
 'f': 5,
 'g': 6,
 'h': 7,
 'i': 8,
 'j': 9,
 'k': 10,
 'l': 11,
 'm': 12,
 'n': 13,
 'o': 14,
 'p': 15,
 'q': 16,
 'r': 17,
 's': 18,
 't': 19,
 'u': 20,
 'v': 21,
 'w': 22,
 'x': 23,
 'y': 24,
 'z': 25}

### `tf.contrib.lookup.index_table_from_tensor`
在`tensorflow`运行过程中, 我们无法使用`python`下的字典, 因为图的元素是一个张量而不是具体值, `python`无法返回.

我们需要用到`tf.contrib.lookup.index_table_from_tensor`, 它能帮我们搭建从字符串到编码的映射关系

- 首先, 根据映射关系构造一个`table`

函数定义非常简单, 参数就是需要映射元素列表的`tensor`形式, 在这里我们设置为常量`tensor`. 这样列表中元素的每一项都被映射成自己的下标

In [8]:
word_table = tf.contrib.lookup.index_table_from_tensor(tf.constant(words))
tag_table = tf.contrib.lookup.index_table_from_tensor(tf.constant(tags))
char_table = tf.contrib.lookup.index_table_from_tensor(tf.constant(chars))

建立`table`之后, 我们就可以输入一个对应映射关系的列表, 从而查找到它的下标.

- 构建占位符, 等待填入元素

In [9]:
word_ph = tf.placeholder(tf.string, [None,])
tag_ph = tf.placeholder(tf.string, [None,])
char_ph = tf.placeholder(tf.string, [None,])

### `lookup`

- 调用`table`的`lookup`方法, 就可以找到对应的下标了

In [10]:
word_code = word_table.lookup(word_ph)
tag_code = tag_table.lookup(tag_ph)
char_code = char_table.lookup(char_ph)

我们来看看实际效果

In [11]:
def lower(symbols):
    return map(lambda x: x.lower(), symbols)

In [12]:
sess = tf.Session()

**注意**: 当定义了`table`形式的`tensor`后, 我们需要额外对这些`table`初始化一次, 非常简单

In [13]:
sess.run(tf.tables_initializer())

填入一个单词, 查看每个字母对应的编码

In [14]:
print(sess.run(char_code, feed_dict={char_ph: list(lower('apple'))}))

[ 0 15 15 11  4]


填入一个句子, 查看每个单词对应的编码

In [15]:
print(training_data[1][0])
print(sess.run(word_code, feed_dict={word_ph: list(lower(training_data[1][0]))}))

['Everybody', 'read', 'that', 'book']
[0 4 3 7]


### 构建`seq-lstm`模型
- 首先构建单个字符的 lstm 模型

In [16]:
def char_lstm(char_code, n_char, char_dim, char_hidden, scope='char_lstm', reuse=tf.AUTO_REUSE):
    with tf.variable_scope(scope, reuse=reuse):
        # 嵌入
        embeddings = tf.get_variable('embeddings', shape=(n_char, char_dim), 
                                          dtype=tf.float32, initializer=tf.random_uniform_initializer(minval=0.0, maxval=1.0))
        char_embed = tf.nn.embedding_lookup(embeddings, char_code, name='embed')
        
        # 将输入满足`(seq, batch, feature)`条件， 这里`batch=1`
        char_embed = tf.expand_dims(char_embed, axis=1)
        
        # 经过`lstm`网络给出特征
        out, _ = lstm(char_embed, char_hidden, 1, 1)
        
        return out[-1]

辅助占位符, 用于后面的`while_loop`, 可能有更简洁的方法

In [17]:
aux_ph = tf.placeholder(tf.float32, shape=[None, None, None])
aux = [[[-1]]]

- 构造词性分类模型

In [18]:
def lstm_tagger(word_code, word_list, n_word, n_char, word_dim, char_dim, 
               word_hidden, char_hidden, n_tag, aux_ph=aux_ph, scope='lstm_tagger', reuse=None):
    with tf.variable_scope(scope, reuse=reuse):
        # 首先对一个句子里的所有单词用`char_lstm`进行编码
        def char_lstm_fun(single_word):
            # 使用`tf.string_split`对单词进行字母级别的分割
            char_list = tf.string_split([single_word], delimiter='').values
            
            # 使用`char_table`查找所有字母的编码
            char_code = char_table.lookup(char_list)
            
            # 将编码进入`lstm`得到输出
            char_lstm_out = char_lstm(char_code, len(chars), 10, char_hidden)

            return char_lstm_out
        
        # `tf.while_loop`的循环体函数
        def loop_body(i, char, word_list):
            # 对第`i`个单词得到`lstm`的结果
            char_lstm_out = char_lstm_fun(word_list[i])
            
            # 在`[seq, batch, feature]`的第一维上连接之前的结果
            # 使用`tf.cond`处理第一次的情况
            char = tf.cond(tf.equal(i, 0), lambda: tf.expand_dims(char_lstm_out, axis=0), lambda: tf.concat([char, tf.expand_dims(char_lstm_out, axis=0)], axis=0))
            
            # 循环参数自增1, 返回所有用到的变量
            # 在这里, 由于`tensorflow`强制要求循环体的输入和输出必须具有相同的`dtype`, `shape`.
            # 而我们一个句子中单词的数量是不定的, 所以这里需要一个`[None, None, None]`形状的`tensor`作为初始值传进来
            # 当然可能有别的简洁方法, 比如`tf.scan`等
            return i + 1, char, word_list
        
        # 得到循环终止条件
        num_words = tf.shape(word_list)[0]
        
        # 使用`tf.while_loop`得到所有单词的`lstm`结果
        # `tf.while_loop`调用风格类似C++
        # 第一个参数是循环终止条件
        # 第二个参数是循环体, 也就是每一步循环具体做什么
        # 第三个参数是初始循环变量
        _, char, _ = tf.while_loop(lambda i, char, separate_words: i < num_words, loop_body, [0, aux_ph, word_list], name='looop')
        
        # 循环结束后, 由于是和一个`[None, None, None]`进行连接, 因此没有形状
        # 在这里, 固定住形状
        char.set_shape((None, 1, char_hidden))
        
        # 构造单词的嵌入模型
        word_embeddings = tf.get_variable('embeddings', shape=(n_word, word_dim), 
                                          dtype=tf.float32, initializer=tf.random_uniform_initializer(minval=0.0, maxval=1.0))
        net = tf.nn.embedding_lookup(word_embeddings, word_code, name='word_embed')# (seq, word_dim)
        net = tf.expand_dims(net, axis=1) # (seq, batch, word_dim)
        
        # 将单词的嵌入向量和单词的`lstm`结果按照最后一维(特征)进行连接
        net = tf.concat([char, net], axis=-1)
        
        # 进入`lstm`
        net, _ = lstm(net, word_hidden, 1, 1)
        
        # 分类层
        net = tf.reshape(net, (-1, word_hidden))
        net = slim.fully_connected(net, n_tag, activation_fn=None, scope='classification')
        
        return net

In [19]:
net = lstm_tagger(word_code, word_ph, len(words), len(chars), 100, 10, 128, 50, len(tags))

In [20]:
loss = tf.losses.sparse_softmax_cross_entropy(labels=tag_code, logits=net)

opt = tf.train.MomentumOptimizer(1e-2, 0.9)
train_op = opt.minimize(loss)

In [21]:
sess.run(tf.global_variables_initializer())

for e in range(300):
    train_loss = 0
    for word, tag in training_data:
        curr_train_loss, _ = sess.run([loss, train_op], feed_dict={word_ph: list(lower(word)), tag_ph: list(lower(tag)), aux_ph: [[[-1]]]})
        train_loss += curr_train_loss
    if (e + 1) % 50 == 0:
        print('Epoch: {}, Loss: {:.6f}'.format(e + 1, train_loss / len(training_data)))

Epoch: 50, Loss: 0.404266
Epoch: 100, Loss: 0.032966
Epoch: 150, Loss: 0.012619
Epoch: 200, Loss: 0.007405
Epoch: 250, Loss: 0.005119
Epoch: 300, Loss: 0.003861


In [22]:
test_sent = 'Everybody ate the apple'
out = sess.run(net, feed_dict={word_ph: list(lower(test_sent.split())), aux_ph: [[[-1]]]})

In [23]:
print(out)

[[ 4.608797  -1.0200145 -3.3418741]
 [-1.7799056  4.2054605 -2.1964931]
 [-3.2337868 -1.4500072  3.8858328]
 [ 4.277447  -2.6897924 -1.8216504]]


In [24]:
print(tag_to_idx)

{'nn': 0, 'v': 1, 'det': 2}


最后可以得到上面的结果，因为最后一层的线性层没有使用 softmax，所以数值不太像一个概率，但是每一行数值最大的就表示属于该类，可以看到第一个单词 'Everybody' 属于 nn，第二个单词 'ate' 属于 v，第三个单词 'the' 属于det，第四个单词 'apple' 属于 nn，所以得到的这个预测结果是正确的