In [3]:
# 示例代码运行环境
%load_ext watermark
%watermark -p tensorflow,numpy -v -m

CPython 3.6.2
IPython 6.1.0

tensorflow 1.3.0
numpy 1.13.3

compiler   : GCC 4.2.1 (Apple Inc. build 5666) (dot 3)
system     : Darwin
release    : 17.2.0
machine    : x86_64
processor  : i386
CPU cores  : 4
interpreter: 64bit


In [4]:
import tensorflow as tf
import numpy as np

## RNN Demo (Numpy)

In [3]:
# assume input and state are 128-length vector
class RNNCell:
    def __init__(self, input_size, state_size):
        self.W = np.random.rand(input_size, state_size)
        self.U = np.random.rand(state_size, state_size)
        self.b = np.zeros((1, state_size))
        
    def forward(self, input_, state):
        return input_.dot(self.W) + state.dot(self.U) + self.b


In [4]:
rnn = RNNCell(128, 128)

In [5]:
input0 = np.random.rand(1, 128)

In [6]:
state0 = np.zeros((1, 128))
state1 = rnn.forward(input0, state0)
print(state1.shape)

(1, 128)


In [7]:
input1 = np.random.rand(1, 128)
state2 = rnn.forward(input1, state1)
print(state2.shape)

(1, 128)


## RNN Demo (Tensorflow)

In [5]:
tf.reset_default_graph()

In [6]:
vocab_size = 100
word_embedding_dim = 128

In [8]:
cell = tf.contrib.rnn.BasicRNNCell(128)

In [9]:
def chunks(l, n):
    for i in range(0, len(l), n):
        yield l[i:i + n]

In [10]:
data = np.asarray(list(chunks(range(30), 3)))

In [11]:
print(data)

[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]
 [12 13 14]
 [15 16 17]
 [18 19 20]
 [21 22 23]
 [24 25 26]
 [27 28 29]]


In [14]:
word_embedding = tf.Variable(tf.random_uniform([vocab_size, word_embedding_dim]))

In [15]:
input_embeds = tf.nn.embedding_lookup(word_embedding, data[:, [0, 1]])

In [16]:
output, states = tf.nn.dynamic_rnn(cell, input_embeds, dtype=tf.float32)
print(output, states)

(<tf.Tensor 'rnn/transpose:0' shape=(10, 2, 128) dtype=float32>, <tf.Tensor 'rnn/while/Exit_2:0' shape=(?, 128) dtype=float32>)


In [17]:
output_flat = tf.reshape(output, (-1, 128))

In [18]:
with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())
    output_val = output.eval()
    states_val = states.eval()
    print(output_flat.eval().shape)
    print(output_val.shape)
    print(output_val.reshape((-1, 128)).shape)
    print(states_val.shape)
    print((output_val[:,1,:] == states_val).all())

(20, 128)
(10, 2, 128)
(20, 128)
(10, 128)
True


## RNN Demo（处理变长数据）

In [19]:
data = [[1, 2], [1, 2, 3], [1, 2, 3, 4, 5]]

In [20]:
data

[[1, 2], [1, 2, 3], [1, 2, 3, 4, 5]]

In [21]:
data_padding = np.asarray([[1, 2, 0, 0, 0], [1, 2, 3, 0, 0], [1, 2, 3, 4, 5]])

In [22]:
data_padding

array([[1, 2, 0, 0, 0],
       [1, 2, 3, 0, 0],
       [1, 2, 3, 4, 5]])

Padding 的问题:
1. RNN 进化到一个『不对』的状态
2. 最长的句子可能很长，影响性能
3. 损失函数没法安排，多了很多『假』Label

In [57]:
tf.reset_default_graph()
vocab_size = 100
word_embedding_dim = 128

In [46]:
cell = tf.contrib.rnn.BasicRNNCell(128)
word_embedding = tf.Variable(tf.random_uniform([vocab_size, word_embedding_dim]))

In [58]:
input_embeds = tf.nn.embedding_lookup(word_embedding, data_padding[:, 0:4])

In [48]:
data_padding[:, 0:4]

array([[1, 2, 0, 0],
       [1, 2, 3, 0],
       [1, 2, 3, 4]])

In [49]:
print(data_padding[:, 0:4])

[[1 2 0 0]
 [1 2 3 0]
 [1 2 3 4]]


In [50]:
output, states = tf.nn.dynamic_rnn(cell, input_embeds, dtype=tf.float32, sequence_length=[2, 3, 4])

区别是上面的代码加上了 sequence_length 参数。该参数是一个一维 Tensor（因此可以随着 batch 数据变化），对每个样本，超过其对应 sequence_length 之后 dynamic_rnn 不会实际去做 state 计算，而是直接复制上一个 state，超长的对应 output 则设置为 0 向量。

### 损失函数的解决
根据上面的解释我们知道可以让 dynamic_rnn 在超长之后不做实际计算，这时候超长的部分 output 会输出 0。但是这些 output 依然会和 label 进行计算，产生 cost，进而影响模型的变量

In [29]:
data_padding[:, 1:5]

array([[2, 0, 0, 0],
       [2, 3, 0, 0],
       [2, 3, 4, 5]])

上面是我们这个 RNN Language model 对应的 labels，我们如何让 0 的部分不计入损失呢？

In [30]:
labels = tf.reshape(data_padding[:, 1:5], [-1])
mask = tf.sign(labels)
with tf.Session() as sess:
    print(mask.eval())

[1 0 0 0 1 1 0 0 1 1 1 1]


把原来的 cost 和 mask 函数相乘，作为新的 cost 给优化器进行优化，即可忽略这些无用的 labels

## 用于生成时的一些提示

cell 的 zero_state 函数可以产生该 cell 的初始状态（对 BasicRNNCell 来说就是一个 0 矩阵）
cell 本身也可以调用 (Python 里的 __call__ 方法，用于产生单步的状态变化

tf.slice 可以用于取 tensor 的某一列等

In [67]:
tf.reset_default_graph()
vocab_size = 100
word_embedding_dim = 128
word_embedding = tf.Variable(tf.random_uniform([vocab_size, word_embedding_dim]))
input_embeds = tf.nn.embedding_lookup(word_embedding, data_padding[:, 0:4])

In [68]:
input_embeds.shape

TensorShape([Dimension(3), Dimension(4), Dimension(128)])

In [69]:
## 取第一个词
single_input_embeds = tf.slice(input_embeds, [0, 0, 0], [3, 1, 128])
print(single_input_embeds.shape)

(3, 1, 128)


In [72]:
# Cell 走一步
output, state = cell(tf.reshape(single_input_embeds, (3, 128)), cell.zero_state(3, dtype=tf.float32))

In [74]:
with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())
    output_val = output.eval()
    state_val = state.eval()
    print((output_val == state_val).all())

True
