In [1]:
import os
os.environ['CUDA_VISIBLE_DEVICES'] = '0'

In [2]:
import numpy as np
import tensorflow as tf

  _np_qint8 = np.dtype([("qint8", np.int8, 1)])
  _np_quint8 = np.dtype([("quint8", np.uint8, 1)])
  _np_qint16 = np.dtype([("qint16", np.int16, 1)])
  _np_quint16 = np.dtype([("quint16", np.uint16, 1)])
  _np_qint32 = np.dtype([("qint32", np.int32, 1)])
  np_resource = np.dtype([("resource", np.ubyte, 1)])
  _np_qint8 = np.dtype([("qint8", np.int8, 1)])
  _np_quint8 = np.dtype([("quint8", np.uint8, 1)])
  _np_qint16 = np.dtype([("qint16", np.int16, 1)])
  _np_quint16 = np.dtype([("quint16", np.uint16, 1)])
  _np_qint32 = np.dtype([("qint32", np.int32, 1)])
  np_resource = np.dtype([("resource", np.ubyte, 1)])


In [3]:
import json

with open('train-test.json') as fopen:
    dataset = json.load(fopen)
    
with open('dictionary.json') as fopen:
    dictionary = json.load(fopen)

In [4]:
train_X = dataset['train_X']
train_Y = dataset['train_Y']
test_X = dataset['test_X']
test_Y = dataset['test_Y']

In [5]:
dictionary.keys()

dict_keys(['from', 'to'])

In [6]:
dictionary_from = dictionary['from']['dictionary']
rev_dictionary_from = dictionary['from']['rev_dictionary']

dictionary_to = dictionary['to']['dictionary']
rev_dictionary_to = dictionary['to']['rev_dictionary']

In [7]:
GO = dictionary_from['GO']
PAD = dictionary_from['PAD']
EOS = dictionary_from['EOS']
UNK = dictionary_from['UNK']

In [8]:
for i in range(len(train_X)):
    train_X[i] += ' EOS'
    
train_X[0]

'Rachel Pike : The science behind a climate headline EOS'

In [9]:
for i in range(len(test_X)):
    test_X[i] += ' EOS'
    
test_X[0]

'How can I speak in <NUM> minutes about the bonds of women over three generations , about how the astonishing strength of those bonds took hold in the life of a four - year - old girl huddled with her young sister , her mother and her grandmother for five days and nights in a small boat in the China Sea more than <NUM> years ago , bonds that took hold in the life of that small girl and never let go - - that small girl now living in San Francisco and speaking to you today ? EOS'

In [10]:
from tensorflow.python.util import nest
from tensorflow.python.layers.core import Dense

def gnmt_residual_fn(inputs, outputs):
    def split_input(inp, out):
        out_dim = out.get_shape().as_list()[-1]
        inp_dim = inp.get_shape().as_list()[-1]
        return tf.split(inp, [out_dim, inp_dim - out_dim], axis=-1)
    actual_inputs, _ = nest.map_structure(split_input, inputs, outputs)

    def assert_shape_match(inp, out):
        inp.get_shape().assert_is_compatible_with(out.get_shape())
    nest.assert_same_structure(actual_inputs, outputs)
    nest.map_structure(assert_shape_match, actual_inputs, outputs)
    return nest.map_structure(lambda inp, out: inp + out, actual_inputs, outputs)

class GNMTAttentionMultiCell(tf.nn.rnn_cell.MultiRNNCell):

    def __init__(self, attention_cell, cells, use_new_attention=True):
        cells = [attention_cell] + cells
        self.use_new_attention = use_new_attention
        super(GNMTAttentionMultiCell, self).__init__(
            cells, state_is_tuple=True)

    def __call__(self, inputs, state, scope=None):
        """Run the cell with bottom layer's attention copied to all upper layers."""
        if not nest.is_sequence(state):
            raise ValueError(
                "Expected state to be a tuple of length %d, but received: %s"
                % (len(self.state_size), state))

        with tf.variable_scope(scope or "multi_rnn_cell"):
            new_states = []

            with tf.variable_scope("cell_0_attention"):
                attention_cell = self._cells[0]
                attention_state = state[0]
                cur_inp, new_attention_state = attention_cell(
                    inputs, attention_state)
                new_states.append(new_attention_state)

            for i in range(1, len(self._cells)):
                with tf.variable_scope("cell_%d" % i):
                    cell = self._cells[i]
                    cur_state = state[i]

                    if self.use_new_attention:
                        cur_inp = tf.concat(
                            [cur_inp, new_attention_state.attention], -1)
                    else:
                        cur_inp = tf.concat(
                            [cur_inp, attention_state.attention], -1)

                    cur_inp, new_state = cell(cur_inp, cur_state)
                    new_states.append(new_state)

        return cur_inp, tuple(new_states)

class Translator:
    def __init__(self, size_layer, num_layers, embedded_size,
                 from_dict_size, to_dict_size, learning_rate, beam_width = 5):
        
        def cells(size,reuse=False):
            return tf.nn.rnn_cell.GRUCell(size,reuse=reuse)
        
        self.X = tf.placeholder(tf.int32, [None, None])
        self.Y = tf.placeholder(tf.int32, [None, None])
        self.X_seq_len = tf.count_nonzero(self.X, 1, dtype=tf.int32)
        self.Y_seq_len = tf.count_nonzero(self.Y, 1, dtype=tf.int32)
        batch_size = tf.shape(self.X)[0]
        
        encoder_embeddings = tf.Variable(tf.random_uniform([from_dict_size, embedded_size], -1, 1))
        decoder_embeddings = tf.Variable(tf.random_uniform([to_dict_size, embedded_size], -1, 1))
        encoder_embedded = tf.nn.embedding_lookup(encoder_embeddings, self.X)
        main = tf.strided_slice(self.Y, [0, 0], [batch_size, -1], [1, 1])
        decoder_input = tf.concat([tf.fill([batch_size, 1], GO), main], 1)
        decoder_embedded = tf.nn.embedding_lookup(encoder_embeddings, decoder_input)
        
        num_residual_layer = num_layers - 2
        num_bi_layer = 1
        num_ui_layer = num_layers - num_bi_layer

        for n in range(num_bi_layer):
            (out_fw, out_bw), (state_fw, state_bw) = tf.nn.bidirectional_dynamic_rnn(
                cell_fw = cells(size_layer),
                cell_bw = cells(size_layer),
                inputs = encoder_embedded,
                sequence_length = self.X_seq_len,
                dtype = tf.float32,
                scope = 'bidirectional_rnn_%d'%(n))
            encoder_embedded = tf.concat((out_fw, out_bw), 2)
        
        gru_cells = tf.nn.rnn_cell.MultiRNNCell([cells(size_layer) for _ in range(num_ui_layer)])
        encoder_outputs, encoder_state = tf.nn.dynamic_rnn(
                gru_cells,
                encoder_embedded,
                dtype=tf.float32,
                sequence_length=self.X_seq_len)
        
        encoder_state = (state_bw,) + (
                (encoder_state,) if num_ui_layer == 1 else encoder_state)
        
        decoder_cells = []
        for n in range(num_layers):
            cell = cells(size_layer)
            if (n >= num_layers - num_residual_layer):
                cell = tf.nn.rnn_cell.ResidualWrapper(cell, residual_fn = gnmt_residual_fn)
            decoder_cells.append(cell)
        attention_cell = decoder_cells.pop(0)
        to_dense = tf.layers.Dense(to_dict_size)
        
        with tf.variable_scope('decode'):
            attention_mechanism = tf.contrib.seq2seq.BahdanauAttention(
                num_units = size_layer, 
                memory = encoder_outputs,
                memory_sequence_length = self.X_seq_len)
            att_cell = tf.contrib.seq2seq.AttentionWrapper(
                cell = attention_cell,
                attention_mechanism = attention_mechanism,
                attention_layer_size = None,
                alignment_history = True,
                output_attention = False)
            gcell = GNMTAttentionMultiCell(att_cell, decoder_cells)
            
            self.initial_state = tuple(
                zs.clone(cell_state=es)
                if isinstance(zs, tf.contrib.seq2seq.AttentionWrapperState) else es
                for zs, es in zip(
                    gcell.zero_state(batch_size, dtype=tf.float32), encoder_state))
            
            training_helper = tf.contrib.seq2seq.TrainingHelper(
                decoder_embedded,
                self.Y_seq_len,
                time_major = False
            )
            training_decoder = tf.contrib.seq2seq.BasicDecoder(
                cell = gcell,
                helper = training_helper,
                initial_state = self.initial_state,
                output_layer = to_dense)
            training_decoder_output, _, _ = tf.contrib.seq2seq.dynamic_decode(
                decoder = training_decoder,
                impute_finished = True,
                maximum_iterations = tf.reduce_max(self.Y_seq_len))
            self.training_logits = training_decoder_output.rnn_output
            
        with tf.variable_scope('decode', reuse=True):
            encoder_out_tiled = tf.contrib.seq2seq.tile_batch(encoder_outputs, beam_width)
            encoder_state_tiled = tf.contrib.seq2seq.tile_batch(encoder_state, beam_width)
            X_seq_len_tiled = tf.contrib.seq2seq.tile_batch(self.X_seq_len, beam_width)
            
            attention_mechanism = tf.contrib.seq2seq.BahdanauAttention(
                num_units = size_layer, 
                memory = encoder_out_tiled,
                memory_sequence_length = X_seq_len_tiled)
            att_cell = tf.contrib.seq2seq.AttentionWrapper(
                cell = attention_cell,
                attention_mechanism = attention_mechanism,
                attention_layer_size = None,
                alignment_history = False,
                output_attention = False)
            gcell = GNMTAttentionMultiCell(att_cell, decoder_cells)
            
            self.initial_state = tuple(
                zs.clone(cell_state=es)
                if isinstance(zs, tf.contrib.seq2seq.AttentionWrapperState) else es
                for zs, es in zip(
                    gcell.zero_state(batch_size * beam_width, dtype=tf.float32), encoder_state_tiled))
            
            predicting_decoder = tf.contrib.seq2seq.BeamSearchDecoder(
                cell = gcell,
                embedding = decoder_embeddings,
                start_tokens = tf.tile(tf.constant([GO], dtype=tf.int32), [batch_size]),
                end_token = EOS,
                initial_state = self.initial_state,
                beam_width = beam_width,
                output_layer = to_dense,
                length_penalty_weight = 0.0)
            predicting_decoder_output, _, _ = tf.contrib.seq2seq.dynamic_decode(
                decoder = predicting_decoder,
                impute_finished = False,
                maximum_iterations = 2 * tf.reduce_max(self.X_seq_len))
            self.predicting_ids = predicting_decoder_output.predicted_ids[:, :, 0]
            
        masks = tf.sequence_mask(self.Y_seq_len, tf.reduce_max(self.Y_seq_len), dtype=tf.float32)
        self.cost = tf.contrib.seq2seq.sequence_loss(logits = self.training_logits,
                                                     targets = self.Y,
                                                     weights = masks)
        self.optimizer = tf.train.AdamOptimizer(learning_rate).minimize(self.cost)
        y_t = tf.argmax(self.training_logits,axis=2)
        y_t = tf.cast(y_t, tf.int32)
        self.prediction = tf.boolean_mask(y_t, masks)
        mask_label = tf.boolean_mask(self.Y, masks)
        correct_pred = tf.equal(self.prediction, mask_label)
        correct_index = tf.cast(correct_pred, tf.float32)
        self.accuracy = tf.reduce_mean(tf.cast(correct_pred, tf.float32))

In [11]:
size_layer = 512
num_layers = 3
learning_rate = 1e-3
batch_size = 64
epoch = 20

In [12]:
tf.reset_default_graph()
sess = tf.InteractiveSession()
model = Translator(size_layer, num_layers, size_layer,
    len(dictionary_from), len(dictionary_to), learning_rate)
sess.run(tf.global_variables_initializer())

Instructions for updating:
reduction_indices is deprecated, use axis instead
Instructions for updating:
This class is equivalent as tf.keras.layers.GRUCell, and will be replaced by that in Tensorflow 2.0.
Instructions for updating:
Please use `keras.layers.Bidirectional(keras.layers.RNN(cell))`, which is equivalent to this API
Instructions for updating:
Please use `keras.layers.RNN(cell)`, which is equivalent to this API
Instructions for updating:
Call initializer instance with the dtype argument instead of passing it to the constructor
Instructions for updating:
Call initializer instance with the dtype argument instead of passing it to the constructor
Instructions for updating:
Call initializer instance with the dtype argument instead of passing it to the constructor
Instructions for updating:
Use tf.where in 2.0, which has the same broadcast rule as np.where
Instructions for updating:
This class is equivalent as tf.keras.layers.StackedRNNCells, and will be replaced by that in Tensorf

In [13]:
def str_idx(corpus, dic):
    X = []
    for i in corpus:
        ints = []
        for k in i.split():
            ints.append(dic.get(k,UNK))
        X.append(ints)
    return X

def pad_sentence_batch(sentence_batch, pad_int):
    padded_seqs = []
    seq_lens = []
    max_sentence_len = max([len(sentence) for sentence in sentence_batch])
    for sentence in sentence_batch:
        padded_seqs.append(sentence + [pad_int] * (max_sentence_len - len(sentence)))
        seq_lens.append(len(sentence))
    return padded_seqs, seq_lens

In [14]:
train_X = str_idx(train_X, dictionary_from)
test_X = str_idx(test_X, dictionary_from)
train_Y = str_idx(train_Y, dictionary_to)
test_Y = str_idx(test_Y, dictionary_to)

In [15]:
sess.run(model.predicting_ids, feed_dict = {model.X: [train_X[0]]}).shape

(1, 20)

In [16]:
import tqdm

for e in range(epoch):
    pbar = tqdm.tqdm(
        range(0, len(train_X), batch_size), desc = 'minibatch loop')
    train_loss, train_acc, test_loss, test_acc = [], [], [], []
    for i in pbar:
        index = min(i + batch_size, len(train_X))
        maxlen = max([len(s) for s in train_X[i : index] + train_Y[i : index]])
        batch_x, seq_x = pad_sentence_batch(train_X[i : index], PAD)
        batch_y, seq_y = pad_sentence_batch(train_Y[i : index], PAD)
        feed = {model.X: batch_x,
                model.Y: batch_y}
        accuracy, loss, _ = sess.run([model.accuracy,model.cost,model.optimizer],
                                    feed_dict = feed)
        train_loss.append(loss)
        train_acc.append(accuracy)
        pbar.set_postfix(cost = loss, accuracy = accuracy)
    
    
    pbar = tqdm.tqdm(
        range(0, len(test_X), batch_size), desc = 'minibatch loop')
    for i in pbar:
        index = min(i + batch_size, len(test_X))
        batch_x, seq_x = pad_sentence_batch(test_X[i : index], PAD)
        batch_y, seq_y = pad_sentence_batch(test_Y[i : index], PAD)
        feed = {model.X: batch_x,
                model.Y: batch_y,}
        accuracy, loss = sess.run([model.accuracy,model.cost],
                                    feed_dict = feed)

        test_loss.append(loss)
        test_acc.append(accuracy)
        pbar.set_postfix(cost = loss, accuracy = accuracy)
    
    print('epoch %d, training avg loss %f, training avg acc %f'%(e+1,
                                                                 np.mean(train_loss),np.mean(train_acc)))
    print('epoch %d, testing avg loss %f, testing avg acc %f'%(e+1,
                                                              np.mean(test_loss),np.mean(test_acc)))

minibatch loop: 100%|██████████| 2083/2083 [22:28<00:00,  1.54it/s, accuracy=0.272, cost=4.48] 
minibatch loop: 100%|██████████| 45/45 [00:11<00:00,  4.06it/s, accuracy=0.322, cost=4.05]
minibatch loop:   0%|          | 0/2083 [00:00<?, ?it/s]

epoch 1, training avg loss 4.823276, training avg acc 0.227547
epoch 1, testing avg loss 3.973857, testing avg acc 0.317220


minibatch loop: 100%|██████████| 2083/2083 [22:25<00:00,  1.55it/s, accuracy=0.331, cost=3.66]
minibatch loop: 100%|██████████| 45/45 [00:10<00:00,  4.13it/s, accuracy=0.345, cost=3.76]
minibatch loop:   0%|          | 0/2083 [00:00<?, ?it/s]

epoch 2, training avg loss 3.645219, training avg acc 0.348635
epoch 2, testing avg loss 3.687693, testing avg acc 0.349158


minibatch loop: 100%|██████████| 2083/2083 [22:50<00:00,  1.52it/s, accuracy=0.404, cost=2.99] 
minibatch loop: 100%|██████████| 45/45 [00:11<00:00,  4.01it/s, accuracy=0.362, cost=3.7] 
minibatch loop:   0%|          | 0/2083 [00:00<?, ?it/s]

epoch 3, training avg loss 3.215255, training avg acc 0.392543
epoch 3, testing avg loss 3.628983, testing avg acc 0.357726


minibatch loop: 100%|██████████| 2083/2083 [21:34<00:00,  1.61it/s, accuracy=0.492, cost=2.46]
minibatch loop: 100%|██████████| 45/45 [00:11<00:00,  4.08it/s, accuracy=0.35, cost=3.7]  
minibatch loop:   0%|          | 0/2083 [00:00<?, ?it/s]

epoch 4, training avg loss 2.907694, training avg acc 0.428658
epoch 4, testing avg loss 3.634721, testing avg acc 0.360200


minibatch loop: 100%|██████████| 2083/2083 [21:22<00:00,  1.62it/s, accuracy=0.546, cost=2.06]
minibatch loop: 100%|██████████| 45/45 [00:10<00:00,  4.29it/s, accuracy=0.345, cost=3.76]
minibatch loop:   0%|          | 0/2083 [00:00<?, ?it/s]

epoch 5, training avg loss 2.668102, training avg acc 0.460165
epoch 5, testing avg loss 3.687521, testing avg acc 0.360081


minibatch loop: 100%|██████████| 2083/2083 [21:31<00:00,  1.61it/s, accuracy=0.611, cost=1.76]
minibatch loop: 100%|██████████| 45/45 [00:10<00:00,  4.29it/s, accuracy=0.362, cost=3.78]
minibatch loop:   0%|          | 0/2083 [00:00<?, ?it/s]

epoch 6, training avg loss 2.475425, training avg acc 0.487146
epoch 6, testing avg loss 3.793251, testing avg acc 0.353237


minibatch loop: 100%|██████████| 2083/2083 [21:54<00:00,  1.58it/s, accuracy=0.644, cost=1.55]
minibatch loop: 100%|██████████| 45/45 [00:10<00:00,  4.30it/s, accuracy=0.35, cost=3.89] 
minibatch loop:   0%|          | 0/2083 [00:00<?, ?it/s]

epoch 7, training avg loss 2.319972, training avg acc 0.509522
epoch 7, testing avg loss 3.871982, testing avg acc 0.352093


minibatch loop: 100%|██████████| 2083/2083 [21:42<00:00,  1.60it/s, accuracy=0.665, cost=1.39] 
minibatch loop: 100%|██████████| 45/45 [00:10<00:00,  4.23it/s, accuracy=0.311, cost=4.07]
minibatch loop:   0%|          | 0/2083 [00:00<?, ?it/s]

epoch 8, training avg loss 2.195564, training avg acc 0.527807
epoch 8, testing avg loss 3.984652, testing avg acc 0.345306


minibatch loop: 100%|██████████| 2083/2083 [21:37<00:00,  1.61it/s, accuracy=0.715, cost=1.29] 
minibatch loop: 100%|██████████| 45/45 [00:10<00:00,  4.30it/s, accuracy=0.316, cost=4.07]
minibatch loop:   0%|          | 0/2083 [00:00<?, ?it/s]

epoch 9, training avg loss 2.098341, training avg acc 0.541759
epoch 9, testing avg loss 4.050099, testing avg acc 0.340547


minibatch loop: 100%|██████████| 2083/2083 [21:28<00:00,  1.62it/s, accuracy=0.701, cost=1.25] 
minibatch loop: 100%|██████████| 45/45 [00:10<00:00,  4.10it/s, accuracy=0.333, cost=4.12]
minibatch loop:   0%|          | 0/2083 [00:00<?, ?it/s]

epoch 10, training avg loss 2.020236, training avg acc 0.553221
epoch 10, testing avg loss 4.099510, testing avg acc 0.342090


minibatch loop: 100%|██████████| 2083/2083 [21:46<00:00,  1.59it/s, accuracy=0.737, cost=1.11] 
minibatch loop: 100%|██████████| 45/45 [00:11<00:00,  4.06it/s, accuracy=0.333, cost=4.22]
minibatch loop:   0%|          | 0/2083 [00:00<?, ?it/s]

epoch 11, training avg loss 1.956938, training avg acc 0.562348
epoch 11, testing avg loss 4.171568, testing avg acc 0.338480


minibatch loop: 100%|██████████| 2083/2083 [21:42<00:00,  1.60it/s, accuracy=0.746, cost=1.04] 
minibatch loop: 100%|██████████| 45/45 [00:11<00:00,  4.02it/s, accuracy=0.328, cost=4.31]
minibatch loop:   0%|          | 0/2083 [00:00<?, ?it/s]

epoch 12, training avg loss 1.904061, training avg acc 0.569960
epoch 12, testing avg loss 4.254099, testing avg acc 0.337221


minibatch loop: 100%|██████████| 2083/2083 [21:38<00:00,  1.60it/s, accuracy=0.737, cost=1.03] 
minibatch loop: 100%|██████████| 45/45 [00:10<00:00,  4.10it/s, accuracy=0.339, cost=4.45]
minibatch loop:   0%|          | 0/2083 [00:00<?, ?it/s]

epoch 13, training avg loss 1.861332, training avg acc 0.576394
epoch 13, testing avg loss 4.339471, testing avg acc 0.335661


minibatch loop: 100%|██████████| 2083/2083 [21:48<00:00,  1.59it/s, accuracy=0.757, cost=0.975]
minibatch loop: 100%|██████████| 45/45 [00:10<00:00,  4.19it/s, accuracy=0.328, cost=4.44]
minibatch loop:   0%|          | 0/2083 [00:00<?, ?it/s]

epoch 14, training avg loss 1.824426, training avg acc 0.581566
epoch 14, testing avg loss 4.382103, testing avg acc 0.335848


minibatch loop: 100%|██████████| 2083/2083 [21:51<00:00,  1.59it/s, accuracy=0.746, cost=1]    
minibatch loop: 100%|██████████| 45/45 [00:10<00:00,  4.12it/s, accuracy=0.305, cost=4.54]
minibatch loop:   0%|          | 0/2083 [00:00<?, ?it/s]

epoch 15, training avg loss 1.794062, training avg acc 0.585639
epoch 15, testing avg loss 4.440851, testing avg acc 0.331752


minibatch loop: 100%|██████████| 2083/2083 [21:47<00:00,  1.59it/s, accuracy=0.765, cost=0.934]
minibatch loop: 100%|██████████| 45/45 [00:10<00:00,  4.15it/s, accuracy=0.299, cost=4.51]
minibatch loop:   0%|          | 0/2083 [00:00<?, ?it/s]

epoch 16, training avg loss 1.769079, training avg acc 0.588865
epoch 16, testing avg loss 4.444816, testing avg acc 0.332849


minibatch loop: 100%|██████████| 2083/2083 [21:49<00:00,  1.59it/s, accuracy=0.752, cost=0.952]
minibatch loop: 100%|██████████| 45/45 [00:10<00:00,  4.10it/s, accuracy=0.299, cost=4.47]
minibatch loop:   0%|          | 0/2083 [00:00<?, ?it/s]

epoch 17, training avg loss 1.745167, training avg acc 0.592537
epoch 17, testing avg loss 4.473411, testing avg acc 0.331796


minibatch loop: 100%|██████████| 2083/2083 [21:51<00:00,  1.59it/s, accuracy=0.79, cost=0.884] 
minibatch loop: 100%|██████████| 45/45 [00:10<00:00,  4.12it/s, accuracy=0.294, cost=4.77]
minibatch loop:   0%|          | 0/2083 [00:00<?, ?it/s]

epoch 18, training avg loss 1.726982, training avg acc 0.594760
epoch 18, testing avg loss 4.521189, testing avg acc 0.332070


minibatch loop: 100%|██████████| 2083/2083 [21:48<00:00,  1.59it/s, accuracy=0.774, cost=0.907]
minibatch loop: 100%|██████████| 45/45 [00:10<00:00,  4.10it/s, accuracy=0.333, cost=4.4] 
minibatch loop:   0%|          | 0/2083 [00:00<?, ?it/s]

epoch 19, training avg loss 1.711785, training avg acc 0.596887
epoch 19, testing avg loss 4.544723, testing avg acc 0.330962


minibatch loop: 100%|██████████| 2083/2083 [21:51<00:00,  1.59it/s, accuracy=0.762, cost=0.848]
minibatch loop: 100%|██████████| 45/45 [00:10<00:00,  4.16it/s, accuracy=0.305, cost=4.73]

epoch 20, training avg loss 1.695742, training avg acc 0.598858
epoch 20, testing avg loss 4.600366, testing avg acc 0.330886





In [17]:
rev_dictionary_to = {int(k): v for k, v in rev_dictionary_to.items()}

In [18]:
test_size = 20

batch_x, seq_x = pad_sentence_batch(test_X[: test_size], PAD)
batch_y, seq_y = pad_sentence_batch(test_Y[: test_size], PAD)
feed = {model.X: batch_x}
logits = sess.run(model.predicting_ids, feed_dict = feed)
logits.shape

(20, 198)

In [19]:
rejected = ['PAD', 'EOS', 'UNK', 'GO']

for i in range(test_size):
    predict = [rev_dictionary_to[i] for i in logits[i] if rev_dictionary_to[i] not in rejected]
    actual = [rev_dictionary_to[i] for i in batch_y[i] if rev_dictionary_to[i] not in rejected]
    print(i, 'predict:', ' '.join(predict))
    print(i, 'actual:', ' '.join(actual))
    print()

0 predict: TED đẻ khác khác lâu khoảng <NUM> năm <NUM> khoảng lên năm <NUM> <NUM> , nói <NUM> khoảng năm <NUM> : khoảng <NUM> ở năm năm đã của : - <NUM> năm <NUM> <NUM> và năm <NUM> và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và và
0 actual: Làm sao tôi có thể trình bày trong <NUM> phút về sợi dây liên kết những người phụ nữ qua ba thế hệ , về việc làm thế nào những sợi dây mạnh mẽ đáng kinh ngạc ấy đã níu chặt lấy cuộc sống của một cô bé bốn tuổi co quắp với đứa em gái nhỏ của cô bé , với mẹ và bà trong suốt năm ngày đêm trên con thuyền nhỏ lênh đênh trên Biển