In [1]:
import tensorflow as tf
import numpy as np

In [2]:
tf.reset_default_graph()

In [3]:
vocab_size = 100
word_embedding_dim = 128

In [4]:
cell = tf.contrib.rnn.BasicRNNCell(128)

In [5]:
def chunks(l, n):
    for i in range(0, len(l), n):
        yield l[i: i + n]

In [6]:
data = np.asarray(list(chunks(range(30), 3)))

In [7]:
word_embedding = tf.Variable(tf.random_uniform([vocab_size, word_embedding_dim]))
word_embedding

<tensorflow.python.ops.variables.Variable at 0x7fbce9f10390>

In [8]:
input_embeds = tf.nn.embedding_lookup(word_embedding, data[:, [0, 1]])
input_embeds

<tf.Tensor 'embedding_lookup:0' shape=(10, 2, 128) dtype=float32>

In [9]:
# 这里 states 就是 output
# 也可以做更复杂的模型
# 本例中，前进了两步，会有两个输出，就是两个 state
# final state 和第二个 output 一样的
output, states = tf.nn.dynamic_rnn(cell, input_embeds, dtype=tf.float32)
print(output, states)

(<tf.Tensor 'rnn/transpose:0' shape=(10, 2, 128) dtype=float32>, <tf.Tensor 'rnn/while/Exit_2:0' shape=(?, 128) dtype=float32>)


In [10]:
output_flat = tf.reshape(output, (-1, 128))

In [11]:
with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())
    output_val = output.eval()
    states_val = states.eval()
    
    print(output_flat.eval().shape) # 20*128
    print(output_val.shape) # 10*2*128
    # -1 让它自己算维度，也可以直接指定 20
    # 必须保证 reshape 后的形状和原来一样
    # 128 这个维度是不变的
    print(output_val.reshape((-1, 128)).shape) # 20*128
    
    print(states_val.shape) # 10*128
    
    print(output_val[:,1,:] == states_val)
    # 确定是不是每一个都是 True
    print((output_val[:,1,:] == states_val).all())

(20, 128)
(10, 2, 128)
(20, 128)
(10, 128)
[[ True  True  True ...,  True  True  True]
 [ True  True  True ...,  True  True  True]
 [ True  True  True ...,  True  True  True]
 ..., 
 [ True  True  True ...,  True  True  True]
 [ True  True  True ...,  True  True  True]
 [ True  True  True ...,  True  True  True]]
True


## 变长数据

In [12]:
# 三个样本，句子长度分别是 2 3 5
data = [[1, 2], [1, 2, 3], [1, 2, 3, 4, 5]]
data

[[1, 2], [1, 2, 3], [1, 2, 3, 4, 5]]

In [13]:
# padding，补 0
data_padding= np.asarray([[1, 2, 0, 0, 0], [1, 2, 3, 0, 0], [1, 2, 3, 4, 5]])
data_padding

array([[1, 2, 0, 0, 0],
       [1, 2, 3, 0, 0],
       [1, 2, 3, 4, 5]])

In [14]:
tf.reset_default_graph()
vocab_size = 100
word_embedding_dim = 128

In [15]:
cell = tf.contrib.rnn.BasicRNNCell(128)
word_embedding = tf.Variable(tf.random_uniform([vocab_size, word_embedding_dim]))

In [16]:
# 去掉了最后一个词，对网络来说，不需要最后一个词
# 最后一个词作为 label 训练的
input_embeds = tf.nn.embedding_lookup(word_embedding, data_padding[:, 0:4])
input_embeds

<tf.Tensor 'embedding_lookup:0' shape=(3, 4, 128) dtype=float32>

In [17]:
print(data_padding[:, 0:4])

[[1 2 0 0]
 [1 2 3 0]
 [1 2 3 4]]


In [18]:
# 虽然给的数据是 padding 过的，但是 sequence_length 可以自动停止进化
# 它超过长度后，state 就一直复制上一个结果，output 就置为 0
# 只是简单复制，对性能影响也很小
output, states = tf.nn.dynamic_rnn(cell, input_embeds, dtype=tf.float32, sequence_length=[2, 3, 4])

- 加了 sequence_length 参数是一个 Tensor（可以随着 batch 的数据变化）  
- 对每个样本，超过其对应 sequence_length 之后，dynamic_rnn 不会实际去做 state 计算，而是直接复制上一个 state，超长的对应 output 则设置为 0 向量

## 损失函数

根据上面的解释我们知道可以让 dynamic_rnn 在超长之后不做实际计算，这时候超长的部分 output 会输出 0  
但是这些 output 仍然会和 label（非零部分才是真正的 label）进行计算，产生 cost，进而影响模型的变量  
所以要把 0 的部分的 label 在 cost 函数中去掉

In [19]:
data_padding[:, 1:5]

array([[2, 0, 0, 0],
       [2, 3, 0, 0],
       [2, 3, 4, 5]])

上面是我们这个 RNN Language Model 对应的 labels，我们如何让 0 的部分不计入损失呢？  

In [20]:
# label 在用之前会用 reshape 打平成固定长度的行向量
labels = tf.reshape(data_padding[:, 1:5], [-1])
labels

<tf.Tensor 'Reshape:0' shape=(12,) dtype=int64>

In [21]:
# >0 返回 1，否则 0
mask = tf.sign(labels)
mask

<tf.Tensor 'Sign:0' shape=(12,) dtype=int64>

In [22]:
mask = tf.sign([-2,1,0])

In [23]:
with tf.Session() as sess:
    print(mask.eval())

[-1  1  0]


把原来的 cost 和 mask 函数相乘，结果做 reduce_mean，作为新的 cost 给优化器进行优化，就把不想要的 label 置为 0，即可忽略这些无用的 labels，不会影响最后的 cost

## 用于生成时的一些提示

cell 的 zero_state 函数可以产生该 cell 的初始状态（对 BasicRNNCell 来说就是一个 0 矩阵） cell 本身也可以调用（Python 里的 call 方法，用于产生单步的状态变化）  

tf.slice 可以用于取 tensor 的某一列等

In [24]:
tf.reset_default_graph()
vocab_size = 100
word_embedding_dim = 128
word_embedding = tf.Variable(tf.random_uniform([vocab_size, word_embedding_dim]))
input_embeds = tf.nn.embedding_lookup(word_embedding, data_padding[:, 0:4])

In [25]:
input_embeds.shape

TensorShape([Dimension(3), Dimension(4), Dimension(128)])

In [26]:
## 取第一个词
single_input_embeds = tf.slice(input_embeds, [0, 0, 0], [3, 1, 128])
print(single_input_embeds)

Tensor("Slice:0", shape=(3, 1, 128), dtype=float32)


In [27]:
# Cell 走一步
output, state = cell(tf.reshape(single_input_embeds, (3, 128)), cell.zero_state(3, dtype=tf.float32))

In [29]:
with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())
    output_val = output.eval()
    state_val = state.eval()
    print((output_val == state_val).all())

True
