In [1]:
import tensorflow as tf

```
本篇博客记录tensorflow中和数据处理相关的操作。
```

## 1. tf.one_hot

list of indices to one hot.

比如原来的index列表是[0, 2, -1, 1]

In [2]:
one_hot = tf.one_hot(indices = [0, 2, -1, 1],
                     depth = 3,
                     on_value = 1.0,
                     off_value = 0.0,
                     axis = -1)

In [3]:
sess = tf.Session()
print sess.run(one_hot)

[[ 1.  0.  0.]
 [ 0.  0.  1.]
 [ 0.  0.  0.]
 [ 0.  1.  0.]]


这个操作很像embedding lookup，只是返回的数据是depth维的one hot向量。

## 2. tf.sequence_mask

这个操作和one hot也很像，但是指定的不是index而是从前到后有多少个True，返回的是True和False。

In [4]:
sq_mask = tf.sequence_mask([1, 3, 2], 5)

In [5]:
print sess.run(sq_mask)

[[ True False False False False]
 [ True  True  True False False]
 [ True  True False False False]]


## 3. tf.boolean_mask

这个操作可以用于留下指定的元素，类似于numpy的操作。

In [6]:
import numpy as np
tensor = tf.range(4)
mask = np.array([True, False, True, False])
bool_mask = tf.boolean_mask(tensor, mask)

In [7]:
print sess.run(bool_mask)

[0 2]


也可以先用数字传进来，再转换成bool，这样就可以利用one_hot了。

In [8]:
num_mask = np.array([1,0,1,0])
num_mask = tf.cast(num_mask, tf.bool)
bool_num_mask = tf.boolean_mask(tensor, num_mask)
print sess.run(bool_num_mask)

[0 2]


mask和被处理的tensor必须shape相同，执行下面的代码会报错：

In [None]:
tensor = tf.reshape(tf.range(8), [2,4])
mask = np.array([True, False, True, False])
bool_mask = tf.boolean_mask(tensor, mask)
print sess.run(bool_mask)

用这个操作还可以直接实现**删除某行或某列**的功能：

In [15]:
tensor = tf.reshape(tf.range(12), [3,4])
mask = np.array([[True, True, True, True],
                [False, False, False, False],
                [True, True, True, True]])
bool_mask = tf.reshape(tf.boolean_mask(tensor, mask),[2,4])
print sess.run(tensor)
print "---after---"
print sess.run(bool_mask)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
---after---
[[ 0  1  2  3]
 [ 8  9 10 11]]


mask也可以是一个tensor。

In [17]:
tensor = tf.reshape(tf.range(12), [3,4])
mask = tf.stack([tf.ones(4), tf.zeros(4), tf.ones(4)], 0)
mask = tf.cast(mask, tf.bool)
bool_mask = tf.reshape(tf.boolean_mask(tensor, mask),[2,4])
print sess.run(tensor)
print "---after---"
print sess.run(bool_mask)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
---after---
[[ 0  1  2  3]
 [ 8  9 10 11]]
