# 这一部分演示使用dynamic_rnn实现简单的seq2seq模型

In [2]:
# 产生不定长合成序列的函数
import helpers as data_helpers

## Demo-I：使用dynamic_rnn实现简单的seq2seq模型

### 使用一个合成的minibatch data解释seq2seq模型

### seq2seq模型任务是copy sequence

### 0. 合成数据

**seq2seq模型中的数据特征：不定长度的序列样本**

In [4]:
x = [[5, 7, 8], [6, 3], [3], [1]]
xt, xlen = data_helpers.batch(x)

In [7]:
print('原始的4个序列样本是:\n%s' % x)
print('\npadding以后使用time-major记录的数据array: \n%s' % xt)
print('\npadding以后使用batch-major记录的数据array: \n%s' % xt.T)
print('\npadding以后序列长度是: \n %s' % xlen)

原始的4个序列样本是:
[[5, 7, 8], [6, 3], [3], [1]]

padding以后使用time-major记录的数据array: 
[[5 6 3 1]
 [7 3 0 0]
 [8 0 0 0]]

padding以后使用batch-major记录的数据array: 
[[5 7 8]
 [6 3 0]
 [3 0 0]
 [1 0 0]]

padding以后序列长度是: 
 [3, 2, 1, 1]


**`InteractiveSession`**在 理解tf的函数 和 debug一段代码 方面非常有用

In [9]:
import numpy as np
import tensorflow as tf

tf.reset_default_graph()
sess = tf.InteractiveSession()

In [5]:
PAD = 0
EOS = 1

vocab_size = 10
input_embedding_size = 20

encoder_hidden_units = 20
decoder_hidden_units = encoder_hidden_units

## 1. placeholders,模型的数据

In [6]:
with tf.name_scope('minibatch'):
    # encoding 阶段的 placeholder
    encoder_inputs = tf.placeholder(shape=(None, None),
                                    dtype=tf.int32,
                                    name='encoder_inputs')
    encoder_inputs_length = tf.placeholder(shape=(None,),
                                           dtype=tf.int32,
                                           name='encoder_inputs_length')

    # decoding 阶段的placeholder
    decoder_inputs = tf.placeholder(shape=(None, None),
                                    dtype=tf.int32,
                                    name='decoder_inputs')
    
    # decoding 结束后用来计算损失函数
    decoder_targets = tf.placeholder(shape=(None, None),
                                     dtype=tf.int32,
                                     name='decoder_targets')

In [7]:
with tf.name_scope('embedding'):
    embeddings = tf.Variable(
        tf.random_uniform([vocab_size, input_embedding_size], -1.0, 1.0),
        dtype=tf.float32)

In [8]:
encoder_inputs_embedded = tf.nn.embedding_lookup(embeddings, encoder_inputs)
decoder_inputs_embedded = tf.nn.embedding_lookup(embeddings, decoder_inputs)

## 2. Encoder
使用dynamic_rnn将一个Mini-batch样本编码，只保留每一个sequence结尾处的state

In [9]:
encoder_cell = tf.nn.rnn_cell.BasicLSTMCell(encoder_hidden_units)

_, encoder_final_state = tf.nn.dynamic_rnn(
    cell = encoder_cell,
    inputs = encoder_inputs_embedded,
    sequence_length = encoder_inputs_length,
    dtype=tf.float32,
    time_major=True,
)

In [10]:
encoder_final_state

LSTMStateTuple(c=<tf.Tensor 'rnn/while/Exit_2:0' shape=(?, 20) dtype=float32>, h=<tf.Tensor 'rnn/while/Exit_3:0' shape=(?, 20) dtype=float32>)

## 3. Decoder
使用encoder的final-state作为initial-state，使用dynamic_rnn将一个minibatch的state解码为minibatch个sequences

#### 在decoding阶段，我们不知道`sequence_length`的数值

如果我们提供inputs, 则`dynamic_rnn`返回和inputs同样长度的outputs

In [11]:
decoder_cell = tf.nn.rnn_cell.BasicLSTMCell(decoder_hidden_units)

decoder_outputs, decoder_final_state = tf.nn.dynamic_rnn(
    cell = decoder_cell,
    inputs = decoder_inputs_embedded,
    initial_state=encoder_final_state,
    dtype=tf.float32,
    time_major=True,
    scope="plain_decoder",
)

## 4. Prediction and Loss

### 这里有一个问题是，`<eos>`后面的subsequence也会被用来计算loss

In [12]:
decoder_logits = tf.contrib.layers.linear(decoder_outputs, vocab_size)
decoder_prediction = tf.argmax(decoder_logits, 2)

In [13]:
print('查看decoder_logits的维度（最后一个维度是vocab_size）：')
decoder_logits

查看decoder_logits的维度（最后一个维度是vocab_size）：


<tf.Tensor 'fully_connected/BiasAdd:0' shape=(?, ?, 10) dtype=float32>

In [14]:
stepwise_cross_entropy = tf.nn.softmax_cross_entropy_with_logits(
    labels=tf.one_hot(decoder_targets, depth=vocab_size, dtype=tf.float32),
    logits=decoder_logits,
)

loss = tf.reduce_mean(stepwise_cross_entropy)
train_op = tf.train.AdamOptimizer().minimize(loss)

In [15]:
sess.run(tf.global_variables_initializer())

## 5. 运行forward-propagation

**产生一个minibatch的sequence，实验`seq2seq model forward-propagation`，seq2seq模型的prediction任务是复制input sequence**

* 在encoding阶段，我们只需要`input_sequence`
* 在decoding阶段，我们通常需要使用两个变量
  1. `decoder_input`： 作为RNN模型的底层输入数据，**内容见下面的例子**
  2. `initial_state`： 作为RNN模型的初始状态，seq2seq模型里面，通常对应着encoder的final state
* 在projection阶段：对`decoder_output`（RNN decoding模型运行的输出)通过一个linear projection预测单词ID
* 在训练阶段，projection结束后，我们还需要一个变量来计算损失函数
  3. `decoder_target`： 用来和decoder_output预测的单词sequence比较，计算prediction的准确性。在我们的复制任务里面，等于 `input_sequence` + `<eos>`

In [23]:
batch_ = [[6], [3, 4], [9, 8, 7]]
    
# encoding阶段的输入数据（内容和长度）
ein_, ein_length_ = helpers.batch(batch_)
print('batch_encoded:\n' + str(ein_))

# decoding阶段的目标数据
dtar_, _ = helpers.batch(
    [(sequence) + [EOS] for sequence in batch_]
)
print('decoder targets:\n' + str(dtar_))

# decoding阶段的输入数据（内容和长度）
din_, dlen_ = helpers.batch(np.ones(shape=(3, 1), dtype=np.int32),
                            max_sequence_length=4)
print('decoder inputs:\n' + str(din_))

print("\n/\ \n|| 注意input 和 target的区别")

batch_encoded:
[[6 3 9]
 [0 4 8]
 [0 0 7]]
decoder targets:
[[6 3 9]
 [1 4 8]
 [0 1 7]
 [0 0 1]]
decoder inputs:
[[1 1 1]
 [0 0 0]
 [0 0 0]
 [0 0 0]]

/\ 
|| 注意input 和 target的区别


In [17]:
# 将 encoding 和 decoding 数据输入计算图，得到预测的词语sequence
pred_, loss = sess.run([decoder_prediction, loss],
    feed_dict={
        encoder_inputs: ein_,
        encoder_inputs_length: ein_length_,
        decoder_inputs: din_,
        decoder_targets: dtar_
    })
print('decoder predictions:\n' + str(pred_))

decoder predictions:
[[5 5 5]
 [5 5 5]
 [4 1 4]
 [4 1 4]]


## Demo-II：训练使用dynamic_rnn的简单的seq2seq模型

相对于demo-I增加optimization部分


In [18]:
batch_size = 100

batches = helpers.random_sequences(length_from=3, length_to=8,
                                   vocab_lower=2, vocab_upper=10,
                                   batch_size=batch_size)

print('产生100个长度不一的sequence')
print('其中前十个是:')
for seq in next(batches)[:10]:
    print(seq)

产生100个长度不一的sequence
其中前十个是:
[2, 8, 9, 5, 8, 6, 2]
[9, 5, 9, 4]
[9, 2, 2, 4, 4]
[2, 4, 6, 7, 4, 9]
[6, 9, 2, 2, 6, 8, 5, 2]
[5, 2, 8]
[7, 5, 9, 3, 2, 8, 2, 2]
[5, 5, 6, 6, 4, 3]
[4, 5, 4, 9, 8, 4, 7]
[4, 8, 3, 2, 3, 3, 3, 7]


In [19]:
def next_feed():
    batch = next(batches)
    
    encoder_inputs_, _ = helpers.batch(batch)
    decoder_targets_, _ = helpers.batch(
        [(sequence) + [EOS] for sequence in batch]
    )
    decoder_inputs_, _ = helpers.batch(
        [[EOS] + (sequence) for sequence in batch]
    )
    
    # 在feedDict里面，key可以是一个Tensor
    return {
        encoder_inputs: encoder_inputs_,
        decoder_inputs: decoder_inputs_,
        decoder_targets: decoder_targets_,
    }

In [20]:
x = next_feed()
print('encoder_inputs:')
print(x[encoder_inputs][:,0].T)
print('decoder_inputs:')
print(x[decoder_inputs][:,0].T)
print('decoder_targets:')
print(x[decoder_targets][:,0].T)

encoder_inputs:
[2 9 5 8 2 0 0 0]
decoder_inputs:
[1 2 9 5 8 2 0 0 0]
decoder_targets:
[2 9 5 8 2 1 0 0 0]


一个训练用的样本，注意三者的区别

```
encoder_inputs:
[8 9 6 2 0 0 0 0]
decoder_inputs:
[1 8 9 6 2 0 0 0 0]
decoder_targets:
[8 9 6 2 1 0 0 0 0]
```

* 在这里我们将真实的input shift以后作为decoding 的 input

* 在下一个实验里面，将要讨论**`decoder_input`**的其他选项

In [21]:
loss_track = []

In [22]:
max_batches = 3001
batches_in_epoch = 1000

try:
    # 一个epoch的learning
    for batch in range(max_batches):
        fd = next_feed()
        _, l = sess.run([train_op, loss], fd)
        loss_track.append(l)

        if batch == 0 or batch % batches_in_epoch == 0:
            print('batch {}'.format(batch))
            print('  minibatch loss: {}'.format(sess.run(loss, fd)))
            predict_ = sess.run(decoder_prediction, fd)
            for i, (inp, pred) in enumerate(zip(fd[encoder_inputs].T, predict_.T)):
                print('  sample {}:'.format(i + 1))
                print('    input     > {}'.format(inp))
                print('    predicted > {}'.format(pred))
                if i >= 2:
                    break
            print()
except KeyboardInterrupt:
    print('training interrupted')

TypeError: Fetch argument 2.3414924 has invalid type <class 'numpy.float32'>, must be a string or Tensor. (Can not convert a float32 into a Tensor or Operation.)

## decoder output的长度问题

* 和RNNLM不同，在seq2seq模型中，decoding阶段产生的序列的长度是未知的
* 如何设定decoding序列的长度？
* 可以设定decoding比encoding输入序列长NUM个单位，比较decoding prediction的`<eos>`之前的subsequence和真实的decoding_target的差别作为损失函数

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
plt.plot(loss_track)
print('loss {:.4f} after {} examples (batch_size={})'.format(loss_track[-1], len(loss_track)*batch_size, batch_size))