# 本文主要针对 使用estimator serving（详见[github](https://github.com/AlbertBJ/estimator)）时遇到的问题进行说明,：

问题：<br>
1. serving时，如何将 输入文本 转换为 id 列表，再feed NN
2. predict返回时，如何将 id转换为 文本


接下来 说一下 用到的 相关 API

## tf.contrib.lookup.index_table_from_file

tf.contrib.lookup.index_table_from_file(<br>
    vocabulary_file=None,<br>
    num_oov_buckets=0,<br>
    vocab_size=None,<br>
    default_value=-1,<br>
    hasher_spec=tf.contrib.lookup.FastHashSpec,<br>
    key_dtype=tf.dtypes.string,<br>
    name=None,<br>
    key_column_index=TextFileIndex.WHOLE_LINE,<br>
    value_column_index=TextFileIndex.LINE_NUMBER,<br>
    delimiter='\t'<br>
)<br>
作用：通过 读取已经持久化的 字典文件，从而将 文本转换为 int64的id;该函数 返回的是 一个lookup table,利用 lookup table进行转换<br>
参数：<br>
    vocabulary_file=字典文件,<br>
    num_oov_buckets,超出字典外的 词使用的 id值，范围是[vocab_size,vocab_size+num_oov_buckets-1]<br>
    vocab_size,字典文件大小<br>
    default_value,超出字典外的 词 使用的 id值<br>
    hasher_spec 对超出 字典范围 的特征 进行 id赋值的 hash算法<br>
    key_dtype 就是文件中 字或者词的类型<br>
    name 此op的name<br>
    key_column_index= 此值 和 下面的值 都是 为了 解决 key的问题，比如，是一行一个key还是 一行多个key<br>
    value_column_index<br>
    delimiter 一行中 分割 字段的 分隔符，针对 上面说的 一行多个key的 问题<br>


In [1]:
import tensorflow as tf

In [33]:
strs=['emerson lake and palmer','emerson palmer test']

In [34]:
# 若要使用 lookup table 则首先需要将 每一个 文本拆分为 向量，此例子中 将两个文本分别拆分为 两个向量 并形成 矩阵
features=tf.constant(strs )
words=tf.string_split(features)
densewords=tf.sparse_tensor_to_dense(words,default_value='UNK') # 使用 UNK来标识 未知 word
# features=tf.constant(['emerson lake and palmer']) 

print(densewords)

Tensor("SparseToDense_1:0", shape=(2, 4), dtype=string)


In [35]:
table=tf.contrib.lookup.index_table_from_file(vocabulary_file='data/vocab.txt',num_oov_buckets=1)

In [36]:
table

<tensorflow.python.ops.lookup_ops.IdTableWithHashBuckets at 0x22551018ba8>

In [37]:
type(densewords)

tensorflow.python.framework.ops.Tensor

In [38]:
tt=table.lookup(densewords) # 根据对应的key 在lookup table中获得对应的 id
tt

<tf.Tensor 'string_to_index_4_Lookup:0' shape=(2, 4) dtype=int64>

In [39]:
with tf.Session() as sess:
    sess.run(tf.tables_initializer())
    ori=sess.run(densewords)
    print(ori)
    v=sess.run(tt)
    print(v) # 获取 对应 的 id
    print(v.shape)

[[b'emerson' b'lake' b'and' b'palmer']
 [b'emerson' b'palmer' b'test' b'UNK']]
[[0 1 3 2]
 [0 2 3 3]]
(2, 4)


## tf.contrib.lookup.index_table_from_tensor

tf.contrib.lookup.index_table_from_tensor(<br>
    mapping,<br>
    num_oov_buckets=0,<br>
    default_value=-1,<br>
    hasher_spec=tf.contrib.lookup.FastHashSpec,<br>
    dtype=tf.dtypes.string,<br>
    name=None<br>
)<br>
作用：与index_table_from_file作用类似，区别在于 此方法 是根据 tensor形成 lookup table<br>
参数：<br>
其它参数 同上，下面主要说一下 mapping<br>
    mapping: 1维tensor,可以理解为 他就是一个 向量，key和value分别是 tensor的 元素和元素的索引   


In [41]:
table_tensor=tf.contrib.lookup.index_table_from_tensor(mapping=tf.constant(['emerson', 'lake', 'and', 'palmer']),num_oov_buckets=1)
table_tensor

Instructions for updating:
Use tf.cast instead.


<tensorflow.python.ops.lookup_ops.IdTableWithHashBuckets at 0x2254f2c5400>

In [43]:
# 使用上面的densewords
v=table_tensor.lookup(densewords)
with tf.Session() as s:
    s.run(tf.tables_initializer())
    re=s.run(v)
    print(re) # 可以参照 table自己 数一下 索引

[[0 1 2 3]
 [0 3 4 4]]


以上可以理解为 word2id的过程，那么下面 就来说一下 id2word的过程

# tf.contrib.lookup.index_to_string_table_from_file

tf.contrib.lookup.index_to_string_table_from_file(<br>
    vocabulary_file,<br>
    vocab_size=None,<br>
    default_value='UNK',<br>
    name=None,<br>
    key_column_index=TextFileIndex.LINE_NUMBER,<br>
    value_column_index=TextFileIndex.WHOLE_LINE,<br>
    delimiter='\t'<br>
)<br>
作用： 生成 实现id2word过程 的lookup table<br>
参数：同 .index_table_from_file<br>



In [44]:
table_2id=tf.contrib.lookup.index_to_string_table_from_file(vocabulary_file='data/vocab.txt',default_value='UNK')
table_2id

<tensorflow.python.ops.lookup_ops.HashTable at 0x225508f6048>

In [49]:
word2id=tf.constant([[0, 1, 2, 3] ,[0 ,3 ,4, 9]],dtype=tf.int64)
wordlist=table_2id.lookup(word2id)
with tf.Session() as ss:
    ss.run(tf.tables_initializer())
    print(ss.run(wordlist)) # 我的vocab中 只有 emerson lake palmer三个词，对应索引 分别为 0,1,2 ，所以 结果中 会有 很多 UNK

[[b'emerson' b'lake' b'palmer' b'UNK']
 [b'emerson' b'UNK' b'UNK' b'UNK']]


## tf.contrib.lookup.index_to_string_table_from_tensor

tf.contrib.lookup.index_to_string_table_from_tensor(<br>
    mapping,<br>
    default_value='UNK',<br>
    name=None<br>
)<br>
作用：作用同 index_to_string_table_from_file，可以类比 index_table_from_file和index_table_from_tensor的关系

In [50]:
mapping_string = tf.constant(["emerson", "lake", "palmer"])
indices = tf.constant([[0, 1, 2, 3] ,[0 ,3 ,4, 9]], tf.int64)
table_id_tensor = tf.contrib.lookup.index_to_string_table_from_tensor(
    mapping_string, default_value="UNKK")
values = table_id_tensor.lookup(indices)

with tf.Session() as sl:
    sl.run(tf.tables_initializer())
    print(sl.run(values))

[[b'emerson' b'lake' b'palmer' b'UNKK']
 [b'emerson' b'UNKK' b'UNKK' b'UNKK']]
