In [1]:
import os
os.environ["CUDA_DEVICE_ORDER"] = "PCI_BUS_ID"  # see issue #152
os.environ["CUDA_VISIBLE_DEVICES"] = "0,1"

In [2]:
import numpy as np
import os
import random

import tensorflow as tf
import matplotlib.pyplot as plt
%matplotlib inline
from tensorflow.contrib import layers, rnn, seq2seq
from tqdm import tqdm

In [3]:
import fasttext as fs

In [4]:
from data_generator import NLUDataGenerator
from tensorflow.contrib.rnn import LSTMCell, LSTMStateTuple
from tensorflow.contrib.legacy_seq2seq import rnn_decoder

In [5]:
TimeMajor = False
batch_size = 32

DataGenDev = NLUDataGenerator('../data/dev/usr_df_final.csv',
                           '../data/ontology_dstc2.json',
                           '../data/slots.txt', None,
                           batch_size = batch_size, time_major=TimeMajor)

DataGen = NLUDataGenerator('../data/train/usr_df_final.csv',
                           '../data/ontology_dstc2.json',
                           '../data/slots.txt', DataGenDev.vocab,
                           batch_size = batch_size, time_major=TimeMajor)

vocab_size = len(DataGen.vocab)
input_embedding_size = 100

len(diff):  175
tmp len:  175
before:  711
fin:  886


In [6]:
x, m1, m2, _lens = next(DataGen)
for x_, m1_, m2_ in zip(x, m1, m2):
    print(DataGen.decode_sentence(x_))
    print(DataGen.decode_acts(m2_))
    print(DataGen.decode_slots(m1_))
    print("-----")

['um', 'thank', 'you', 'goodbye']
['B-bye', 'B-bye', 'B-bye', 'B-bye']
['B-bye', 'B-bye', 'B-bye', 'B-bye']
-----
['in', 'the', 'center', 'part', 'of']
['O', 'O', 'O', 'O', 'O']
['O', 'O', 'O', 'O', 'O']
-----
['i', 'want', 'to', 'find', 'an', 'dontcare', 'restaurant', 'in', 'the', 'east', 'part', 'of', 'town']
['O', 'O', 'O', 'O', 'O', 'B-inform', 'O', 'O', 'O', 'B-inform', 'O', 'O', 'O']
['O', 'O', 'O', 'O', 'O', 'B-pricerange', 'O', 'O', 'O', 'B-area', 'O', 'O', 'O']
-----
['just', 'fuck', 'every', 'time', 'i', 'do', 'it', 'and', 'this', 'moron', 'says', 'that', 'its', 'hungarian', 'sucks']
['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-inform', 'O']
['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-food', 'O']
-----
['how', 'about', 'european', 'type', 'food']
['O', 'O', 'B-inform', 'O', 'O']
['O', 'O', 'B-food', 'O', 'O']
-----
['want', 'something', 'in', 'the', 'centre', 'side', 'of', 'town', 'thats', 'expensive', 'priced']
['O', 'O', 'O',

In [7]:
slots_number = len(DataGen.slots_encode)
acts_number = len(DataGen.acts_encode)
print("slots_number: ", slots_number)
print("acts_number: ", acts_number)
print("vocab_size: ", DataGen.vocab_size)

slots_number:  26
acts_number:  18
vocab_size:  886


In [8]:
class Model:
    
    def __init__(self, train = True, fs_model = None, vocab_size = 886, slots_number = 26, acts_number = 18,
                 batch_size = 32, input_embedding_size = 100, lstm_size = 256, PAD=0):
        tf.reset_default_graph()
        
        def make_embed_mtx(fs_model):
            embedd = np.zeros((vocab_size, input_embedding_size), dtype=np.float32)
            for k, v in DataGen.vocab.items():
                embedd[v] = fs_model[k]
            embedd[0] = [0]*100
            return embedd
        
        self.inputs = tf.placeholder(shape=(batch_size, None), dtype=tf.int32, name='inputs')
        self.mask1 = tf.placeholder(shape=(batch_size, None), dtype=tf.int32, name='tar_mask1')
        self.mask2 = tf.placeholder(shape=(batch_size, None), dtype=tf.int32, name='tar_mask2')
        self.lens = tf.placeholder(shape=(batch_size,), dtype=tf.int32, name='lens')

        if train:
            embedd = make_embed_mtx(fs_model)
            embeddings = tf.get_variable('embeddings', shape=embedd.shape, initializer=tf.constant_initializer(embedd), dtype=tf.float32, trainable=False)
            self.encoded = tf.nn.embedding_lookup(embeddings, self.inputs, name='encoded_train')
        else:
            self.encoded = tf.placeholder(shape=(batch_size, None, input_embedding_size), dtype=tf.float32, name='inference')

        cell = LSTMCell(lstm_size)
        outputs, _ = tf.nn.dynamic_rnn(cell, self.encoded, sequence_length=self.lens, dtype=tf.float32)
        seq_mask = tf.to_float(tf.greater(self.inputs, PAD))

        # regularization:
        #
        # with tf.variable_scope('lm-reg'):
        #     first_words = tf.slice(inputs, [0, 1], [-1, -1])
        #     target = tf.pad(first_words, [[0, 0], [0, 1]])
        #     nwp = layers.fully_connected(outputs, vocab_size, activation_fn=None)
        #     lm_loss = seq2seq.sequence_loss(nwp, target, seq_mask)

        with tf.variable_scope('mask-pred'):
            m1p = layers.fully_connected(outputs, slots_number, activation_fn=None)
            m2p = layers.fully_connected(outputs, acts_number, activation_fn=None)

            self.prediction_m1 = tf.argmax(tf.nn.softmax(m1p), axis = 2, name='prediction_m1')
            self.prediction_m2 = tf.argmax(tf.nn.softmax(m2p), axis = 2, name='prediction_m2')

            self.m1_loss = tf.reduce_sum(seq2seq.sequence_loss(m1p, self.mask1, seq_mask, average_across_batch=False, average_across_timesteps=False), name='m1_loss')
            self.m2_loss = tf.reduce_sum(seq2seq.sequence_loss(m2p, self.mask2, seq_mask, average_across_batch=False, average_across_timesteps=False), name='m2_loss')

        # alternative loss:
        #     log_likelihood_1, transition_params_1 = tf.contrib.crf.crf_log_likelihood(m1p, mask1, lens)
        #     log_likelihood_2, transition_params_2 = tf.contrib.crf.crf_log_likelihood(m2p, mask2, lens)

        lr = tf.Variable(0.0001, trainable=False, name='lr')
        opt = tf.train.GradientDescentOptimizer(lr)
        self.train_op = opt.minimize(self.m1_loss + self.m2_loss, name='train_op')

## Train

In [9]:
fs_model = fs.load_model("./model.bin")
model = Model(fs_model=fs_model)

with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())
    saver = tf.train.Saver()
    avg_loss = -np.ones((3, ))
    alpha = 0.9
    
    pbar = tqdm(range(30000))
    for step in pbar:
        x, m1, m2, _lens = next(DataGen)
        res = sess.run([model.m1_loss, model.m2_loss, model.train_op], {model.inputs: x, model.mask1: m1, model.mask2: m2, model.lens: _lens})
        pbar.set_description(str(res[0]) + ' ' + str(res[1]))
        
#         print(res[0])
#         res = sess.run([lm_loss, m1_loss, m2_loss, train_op], {inputs: x, mask1: m1, mask2: m2, lens: _lens})
#         res = np.array(res[:-1])
        
#         if avg_loss[0] < 0:
#             avg_loss = res
        
#         avg_loss = alpha * avg_loss + (1-alpha) * res
#         pbar.set_description(' '.join('{:.2f}'.format(_) for _ in avg_loss))
        
        
        if(step%1000 == 0):
            
            x_dev, m1_dev, m2_dev, _lens_dev = next(DataGenDev)
            print("step: ", step)
            
            N = 3 # how many examples show to test:
            loss_cv_1, loss_cv_2, _, pred_1, pred_2 = sess.run([model.m1_loss, model.m2_loss, model.train_op, 
                                                                model.prediction_m1, model.prediction_m2], 
                                                    {model.inputs: x_dev, 
                                                      model.mask1: m1_dev,
                                                      model.mask2: m2_dev,
                                                      model.lens: _lens_dev})
            print("CV_loss_slots_1: ", loss_cv_1)
            print("CV_loss_acts_2: ", loss_cv_2)
            
            for x_, m1_, m2_, p1, p2 in zip(x_dev[:N], m1_dev[:N], m2_dev[:N], pred_1[:N], pred_2[:N]):

                print("INPUT: ", DataGen.decode_sentence(x_))
                print("m2_tar: ", DataGen.decode_acts(m2_))
                print("m2_pred: ", DataGen.decode_acts(p2))                
                
                print("-----")
                
                print("m1_tar: ", DataGen.decode_slots(m1_))
                print("m1_pred: ", DataGen.decode_slots(p1))
                
                print("==========================")
    saver.save(sess=sess, save_path='nlu_model_',global_step=30000)

680.369 633.923:   0%|          | 1/30000 [00:00<4:07:23,  2.02it/s]

step:  0
CV_loss_slots_1:  701.7
CV_loss_acts_2:  652.398
INPUT:  ['the', 'price', 'code']
m2_tar:  ['O', 'B-request', 'I-request']
m2_pred:  ['I-confirm', 'I-confirm', 'I-confirm', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['O', 'B-pricerange', 'I-pricerange']
m1_pred:  ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
INPUT:  ['no', 'im', 'looking', 'for', 'pan', 'asian', 'food']
m2_tar:  ['I-reqalts', 'I-reqalts', 'I-reqalts', 'I-reqalts', 'I-reqalts', 'I-reqalts', 'I-reqalts']
m2_pred:  ['B-request', 'B-request', 'B-reqalts', 'B-reqalts', 'B-reqalts', 'B-request', 'B-request', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['I-reqalts', 'I-reqalts', 'I-reqalts', 'I-reqalts', 'I-reqalts', 'I-reqalts', 'I-reqalts']
m1_pred:  ['I-negate', 'I-negate', 'I-negate', 'I-negate', 'I-negate', 'I-negate', 'I-negate', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
INPUT:  ['is', 'it', 'in', 'the', 'centre', 'of', 'town']
m2_tar:  ['O', 'O', 'O', 'O', 'I-

154.311 128.99:   3%|▎         | 1004/30000 [00:26<15:05, 32.02it/s] 

step:  1000
CV_loss_slots_1:  164.516
CV_loss_acts_2:  139.435
INPUT:  ['in', 'the', 'dontcare', 'price']
m2_tar:  ['O', 'O', 'B-inform', 'O']
m2_pred:  ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['O', 'O', 'B-pricerange', 'O']
m1_pred:  ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
INPUT:  ['addrss', 'and', 'phone', 'number']
m2_tar:  ['B-request', 'O', 'B-request', 'I-request']
m2_pred:  ['O', 'O', 'O', 'B-request', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['B-addr', 'O', 'B-phone', 'I-phone']
m1_pred:  ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
INPUT:  ['how', 'bout', 'dontcare', 'food']
m2_tar:  ['O', 'O', 'B-inform', 'O']
m2_pred:  ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['O', 'O', 'B-food', 'O']
m1_pred:  ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']


162.609 140.55:   7%|▋         | 2007/30000 [00:55<13:34, 34.36it/s] 

step:  2000
CV_loss_slots_1:  153.358
CV_loss_acts_2:  132.909
INPUT:  ['how', 'about', 'a', 'cheap', 'priced']
m2_tar:  ['O', 'O', 'O', 'B-inform', 'O']
m2_pred:  ['O', 'O', 'O', 'B-inform', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['O', 'O', 'O', 'B-pricerange', 'O']
m1_pred:  ['O', 'O', 'O', 'B-pricerange', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
INPUT:  ['may', 'i', 'have', 'the', 'phone', 'number']
m2_tar:  ['O', 'O', 'O', 'O', 'B-request', 'I-request']
m2_pred:  ['O', 'O', 'O', 'O', 'B-request', 'B-request', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['O', 'O', 'O', 'O', 'B-phone', 'I-phone']
m1_pred:  ['O', 'O', 'O', 'O', 'B-phone', 'B-phone', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
INPUT:  ['modern', 'european', 'food', 'type']
m2_tar:  ['B-inform', 'I-inform', 'O', 'O']
m2_pred:  ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['B-food', 'I-food

157.345 124.584:  10%|█         | 3006/30000 [01:21<11:54, 37.81it/s]

step:  3000
CV_loss_slots_1:  121.788
CV_loss_acts_2:  95.0013
INPUT:  ['serves', 'of', 'the', 'venue']
m2_tar:  ['B-request', 'O', 'O', 'O']
m2_pred:  ['O', 'O', 'O', 'B-request', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['B-food', 'O', 'O', 'O']
m1_pred:  ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
INPUT:  ['alright', 'can', 'i', 'get', 'canapes', 'food']
m2_tar:  ['O', 'O', 'O', 'O', 'B-inform', 'O']
m2_pred:  ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['O', 'O', 'O', 'O', 'B-food', 'O']
m1_pred:  ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
INPUT:  ['is', 'it', 'in', 'the', 'dontcare', 'of', 'town']
m2_tar:  ['O', 'O', 'O', 'O', 'I-hello', 'O', 'O']
m2_pred:  ['O', 'O', 'O', 'O', 'B-inform', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['O', 'O', 'O', 'O', 'B-area', 'O', 'O']
m1_pred:  ['O', 'O', 'O', 'O', 'B-area', 'O', 'O'

86.2476 66.4135:  13%|█▎        | 4005/30000 [01:47<11:24, 38.00it/s]

step:  4000
CV_loss_slots_1:  92.0846
CV_loss_acts_2:  91.1405
INPUT:  ['alright', 'whats', 'their', 'addrss']
m2_tar:  ['O', 'O', 'O', 'B-request']
m2_pred:  ['O', 'O', 'O', 'B-request', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['O', 'O', 'O', 'B-addr']
m1_pred:  ['O', 'O', 'O', 'B-addr', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
INPUT:  ['barbecue', 'food']
m2_tar:  ['O', 'O']
m2_pred:  ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['O', 'O']
m1_pred:  ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
INPUT:  ['could', 'i', 'get', 'the', 'phone', 'number', 'and', 'zip', 'code']
m2_tar:  ['O', 'O', 'O', 'O', 'B-request', 'I-request', 'O', 'B-request', 'I-request']
m2_pred:  ['O', 'O', 'O', 'O', 'B-request', 'B-request', 'O', 'B-request'

124.284 119.501:  17%|█▋        | 5007/30000 [02:13<11:45, 35.41it/s]

step:  5000
CV_loss_slots_1:  158.817
CV_loss_acts_2:  151.368
INPUT:  ['telephone']
m2_tar:  ['B-request']
m2_pred:  ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['B-phone']
m1_pred:  ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
INPUT:  ['can', 'i', 'have', 'the', 'addrss', 'of', 'the', 'venue']
m2_tar:  ['O', 'O', 'O', 'O', 'B-request', 'O', 'O', 'O']
m2_pred:  ['O', 'O', 'O', 'O', 'B-request', 'O', 'O', 'B-request', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['O', 'O', 'O', 'O', 'B-addr', 'O', 'O', 'O']
m1_pred:  ['O', 'O', 'O', 'O', 'B-addr', 'O', 'O', 'I-pricerange', 'O', 'O', 'O', 'O']
INPUT:  ['is', 'there', 'one', 'that', 'serves', 'chinese', 'food']
m2_tar:  ['O', 'O', 'O', 'O', 'O', 'B-inform', 'O']
m2_pred:  ['O', 'O', 'O', 'O', 'O', 'B-inform', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['O', 'O', 'O', 'O', 'O', 'B-food', 'O']
m1_pred:  ['O', 'O', 'O', 'O', 'O', 'B-food', 'O', 'O', 'O', 'O', 'O', 'O']


70.8851 68.3523:  20%|██        | 6005/30000 [02:40<11:55, 33.53it/s]

step:  6000
CV_loss_slots_1:  103.479
CV_loss_acts_2:  122.547
INPUT:  ['i', 'do', 'not', 'care']
m2_tar:  ['O', 'O', 'O', 'O']
m2_pred:  ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['O', 'O', 'O', 'O']
m1_pred:  ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
INPUT:  ['no', 'thank', 'you']
m2_tar:  ['I-reqalts', 'I-reqalts', 'I-reqalts']
m2_pred:  ['O', 'B-bye', 'B-bye', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['I-reqalts', 'I-reqalts', 'I-reqalts']
m1_pred:  ['O', 'B-bye', 'B-bye', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
INPUT:  ['whats', 'their', 'price', 'range']
m2_tar:  ['O', 'O', 'B-request', 'I-request']
m2_pred:  ['O', 'O', 'O', 'B-request', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['O', 'O', 'B-pricerange', 'I-pricerange']
m1_pred:  ['O', 'O', 'O', 'B-pricerange', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']


53.0718 57.5993:  23%|██▎       | 7005/30000 [03:07<11:17, 33.93it/s]

step:  7000
CV_loss_slots_1:  63.3
CV_loss_acts_2:  77.0811
INPUT:  ['no', 'cost']
m2_tar:  ['O', 'B-request']
m2_pred:  ['O', 'B-reqalts', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['O', 'B-pricerange']
m1_pred:  ['O', 'B-reqalts', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
INPUT:  ['expensive', 'priced', 'restaurant', 'in', 'the', 'centre', 'part', 'of', 'town']
m2_tar:  ['B-inform', 'O', 'O', 'O', 'O', 'B-inform', 'O', 'O', 'O']
m2_pred:  ['O', 'O', 'O', 'O', 'O', 'B-inform', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['B-pricerange', 'O', 'O', 'O', 'O', 'B-area', 'O', 'O', 'O']
m1_pred:  ['O', 'O', 'O', 'O', 'O', 'B-area', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
INPUT:  ['what', 'about', 'a', 'moderate', 'priced', 'restaurant']
m2_tar:  ['O', 'O', 'O', 'B-inform', 'O', 'O']
m2_pred:  ['O', 'O', 'O', 'B-inform', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['O', 'O', 'O', 'B-pricerange', 'O', 'O']
m1_pred:  ['O', 'O', 'O', 'B-

72.4102 68.1441:  27%|██▋       | 8005/30000 [03:35<10:52, 33.70it/s]

step:  8000
CV_loss_slots_1:  80.5593
CV_loss_acts_2:  80.3535
INPUT:  ['im', 'looking', 'for', 'a', 'restaurant', 'in', 'the', 'center']
m2_tar:  ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
m2_pred:  ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
m1_pred:  ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
INPUT:  ['what', 'is', 'the', 'part', 'of', 'town', 'of', 'the', 'venue']
m2_tar:  ['O', 'O', 'O', 'B-request', 'I-request', 'I-request', 'O', 'O', 'O']
m2_pred:  ['O', 'O', 'O', 'O', 'I-request', 'I-request', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['O', 'O', 'O', 'B-area', 'I-area', 'I-area', 'O', 'O', 'O']
m1_pred:  ['O', 'O', 'O', 'B-area', 'O', 'I-area', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
INPUT:  ['what', 'kind', 'of', 'food', 'does', 'it', 'serve']
m2_tar:  ['O', 'O', 'O', 'B-request', 'O', 'O', 'O']
m2_pred:  ['O', 'O', '

73.5225 73.7444:  30%|███       | 9005/30000 [04:02<09:33, 36.61it/s]

step:  9000
CV_loss_slots_1:  61.1029
CV_loss_acts_2:  70.5331
INPUT:  ['can', 'i', 'have', 'the', 'phone', 'and', 'the', 'location']
m2_tar:  ['O', 'O', 'O', 'O', 'B-request', 'O', 'O', 'B-request']
m2_pred:  ['O', 'O', 'O', 'O', 'B-request', 'O', 'O', 'B-request', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['O', 'O', 'O', 'O', 'B-phone', 'O', 'O', 'B-area']
m1_pred:  ['O', 'O', 'O', 'O', 'B-phone', 'O', 'O', 'I-pricerange', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
INPUT:  ['i', 'need', 'an', 'moderate', 'restaurant', 'in', 'the', 'dontcare', 'part', 'of', 'town']
m2_tar:  ['O', 'O', 'O', 'B-inform', 'O', 'O', 'O', 'B-inform', 'O', 'O', 'O']
m2_pred:  ['O', 'O', 'O', 'B-inform', 'O', 'O', 'O', 'B-inform', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['O', 'O', 'O', 'B-pricerange', 'O', 'O', 'O', 'B-area', 'O', 'O', 'O']
m1_pred:  ['O', 'O', 'O', 'B-pricerange', 'O', 'O', 'O', 'B-area', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
INPUT:  ['ok', 'is', 'there', 'any', 'r

77.3991 68.737:  33%|███▎      | 10007/30000 [04:28<09:25, 35.34it/s] 

step:  10000
CV_loss_slots_1:  244.944
CV_loss_acts_2:  292.918
INPUT:  ['bye']
m2_tar:  ['B-bye']
m2_pred:  ['B-bye', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['B-bye']
m1_pred:  ['B-bye', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
INPUT:  ['what', 'is', 'available']
m2_tar:  ['B-reqalts', 'B-reqalts', 'B-reqalts']
m2_pred:  ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['B-reqalts', 'B-reqalts', 'B-reqalts']
m1_pred:  ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
INPUT:  ['i', 'am', 'looking', 'for', 'kitalian', 'food']
m2_tar:  ['O', 'O', 'O', 'O', 'O', 'O']
m2_pred:  ['O', 'O', 'O', 'O', 'B-inform', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['O', 'O', 'O', 'O', 'O', 'O']
m1_pred:  ['O', 'O', 'O', 'O', 'B-food', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']


60.2437 58.8433:  37%|███▋      | 11007/30000 [04:55<08:53, 35.62it/s]

step:  11000
CV_loss_slots_1:  39.2497
CV_loss_acts_2:  72.2803
INPUT:  ['swedish', 'food', 'west', 'part', 'of', 'town']
m2_tar:  ['B-inform', 'O', 'B-inform', 'O', 'O', 'O']
m2_pred:  ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['B-food', 'O', 'B-area', 'O', 'O', 'O']
m1_pred:  ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
INPUT:  ['im', 'looking', 'for', 'a', 'austrian', 'food', 'restaurant']
m2_tar:  ['O', 'O', 'O', 'O', 'B-inform', 'O', 'O']
m2_pred:  ['O', 'O', 'O', 'O', 'B-inform', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['O', 'O', 'O', 'O', 'B-food', 'O', 'O']
m1_pred:  ['O', 'O', 'O', 'O', 'B-food', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
INPUT:  ['alright', 'can', 'i', 'get', 'tuscan', 'food']
m2_tar:  ['O', 'O', 'O', 'O', 'B-inform', 'O']
m2_pred:  ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['O', 'O', 'O', 'O', 'B-foo

53.8593 58.5208:  40%|████      | 12007/30000 [05:21<08:34, 34.99it/s]

step:  12000
CV_loss_slots_1:  71.855
CV_loss_acts_2:  95.1445
INPUT:  ['no', 'well', 'how', 'about', 'international']
m2_tar:  ['O', 'O', 'O', 'O', 'I-reqalts']
m2_pred:  ['O', 'O', 'O', 'O', 'B-negate', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['O', 'O', 'O', 'O', 'B-food']
m1_pred:  ['O', 'O', 'O', 'O', 'B-food', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
INPUT:  ['alright', 'whats', 'the', 'addre']
m2_tar:  ['O', 'O', 'O', 'B-request']
m2_pred:  ['O', 'O', 'O', 'B-request', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['O', 'O', 'O', 'B-addr']
m1_pred:  ['O', 'O', 'O', 'B-addr', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
INPUT:  ['it', 'doesnt', 'matter', 'to', 'me']
m2_tar:  ['O', 'O', 'O', 'O', 'O']
m2_pred:  ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['O', 'O', 'O', 'O', 'O']
m1_pred:  ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']


45.2588 37.9109:  43%|████▎     | 13004/30000 [05:49<08:13, 34.46it/s]

step:  13000
CV_loss_slots_1:  53.9761
CV_loss_acts_2:  60.0992
INPUT:  ['im', 'looking', 'for', 'a', 'malaysian', 'restaurant', 'in', 'the', 'center', 'of', 'town']
m2_tar:  ['O', 'O', 'O', 'O', 'B-inform', 'O', 'O', 'O', 'O', 'O', 'O']
m2_pred:  ['O', 'O', 'O', 'O', 'B-inform', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['O', 'O', 'O', 'O', 'B-food', 'O', 'O', 'O', 'O', 'O', 'O']
m1_pred:  ['O', 'O', 'O', 'O', 'B-food', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
INPUT:  ['centre', 'part', 'of', 'town']
m2_tar:  ['B-inform', 'O', 'O', 'O']
m2_pred:  ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['B-area', 'O', 'O', 'O']
m1_pred:  ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
INPUT:  ['i', 'need', 'an', 'cheap', 'caribbean', 'restaurant']
m2_tar:  ['O', 'O', 'O', 'B-inform', 'B-inform', 'O']
m2_pred:  ['O', 'O', 'O', 'B-inform', 'B-inform', 'O'

57.8335 57.7684:  47%|████▋     | 14007/30000 [06:15<07:28, 35.63it/s]

step:  14000
CV_loss_slots_1:  77.8974
CV_loss_acts_2:  77.2579
INPUT:  ['and', 'their', 'phone']
m2_tar:  ['O', 'O', 'B-request']
m2_pred:  ['O', 'O', 'B-request', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['O', 'O', 'B-phone']
m1_pred:  ['O', 'O', 'B-phone', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
INPUT:  ['what', 'is', 'their', 'postcode']
m2_tar:  ['O', 'O', 'O', 'B-request']
m2_pred:  ['O', 'O', 'O', 'B-request', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['O', 'O', 'O', 'B-postcode']
m1_pred:  ['O', 'O', 'O', 'B-postcode', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
INPUT:  ['panasian', 'food', 'please']
m2_tar:  ['B-inform', 'O', 'O']
m2_pred:  ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['B-food', 'O', 'O']
m1_pred:  ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']


57.0459 52.5338:  50%|█████     | 15007/30000 [06:41<06:54, 36.20it/s]

step:  15000
CV_loss_slots_1:  51.6857
CV_loss_acts_2:  65.3701
INPUT:  ['yea', 'im', 'looking', 'for', 'a', 'really', 'dontcare', 'restaurant', 'in', 'the', 'west', 'part', 'of', 'town']
m2_tar:  ['O', 'O', 'O', 'O', 'O', 'O', 'B-inform', 'O', 'O', 'O', 'B-inform', 'O', 'O', 'O']
m2_pred:  ['O', 'O', 'O', 'O', 'O', 'O', 'B-inform', 'O', 'O', 'O', 'B-inform', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['O', 'O', 'O', 'O', 'O', 'O', 'B-pricerange', 'O', 'O', 'O', 'B-area', 'O', 'O', 'O']
m1_pred:  ['O', 'O', 'O', 'O', 'O', 'O', 'B-pricerange', 'O', 'O', 'O', 'B-area', 'O', 'O', 'O', 'O']
INPUT:  ['im', 'looking', 'for', 'an', 'cheap', 'restaurant', 'serving', 'seafood', 'food']
m2_tar:  ['O', 'O', 'O', 'O', 'B-inform', 'O', 'O', 'B-inform', 'O']
m2_pred:  ['O', 'O', 'O', 'O', 'B-inform', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['O', 'O', 'O', 'O', 'B-pricerange', 'O', 'O', 'B-food', 'O']
m1_pred:  ['O', 'O', 'O', 'O', 'B-pricerange', 'O', 'O', 'B-food', 'O', 'O', 'O', '

35.5731 31.0109:  53%|█████▎    | 16005/30000 [07:06<06:05, 38.29it/s]

step:  16000
CV_loss_slots_1:  47.3636
CV_loss_acts_2:  67.6609
INPUT:  ['in', 'dontcare', 'restaurant']
m2_tar:  ['O', 'B-inform', 'O']
m2_pred:  ['O', 'B-inform', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['O', 'B-pricerange', 'O']
m1_pred:  ['O', 'B-pricerange', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
INPUT:  ['thank', 'you', 'good', 'bye']
m2_tar:  ['B-bye', 'B-bye', 'B-bye', 'B-bye']
m2_pred:  ['B-bye', 'B-bye', 'B-bye', 'B-bye', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['B-bye', 'B-bye', 'B-bye', 'B-bye']
m1_pred:  ['B-bye', 'B-bye', 'B-bye', 'B-bye', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
INPUT:  ['is', 'it', 'in', 'the', 'west', 'part', 'of', 'town']
m2_tar:  ['O', 'O', 'O', 'O', 'I-hello', 'O', 'O', 'O']
m2_pred:  ['O', 'O', 'O', 'O', 'B-inform', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['O', 'O', 

63.426 57.6805:  57%|█████▋    | 17004/30000 [07:31<05:54, 36.65it/s] 

step:  17000
CV_loss_slots_1:  90.5319
CV_loss_acts_2:  108.578
INPUT:  ['is', 'it', 'in', 'the', 'north', 'part', 'of', 'town']
m2_tar:  ['O', 'O', 'O', 'O', 'I-hello', 'O', 'O', 'O']
m2_pred:  ['O', 'O', 'O', 'O', 'B-inform', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['O', 'O', 'O', 'O', 'B-area', 'O', 'O', 'O']
m1_pred:  ['O', 'O', 'O', 'O', 'B-area', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
INPUT:  ['im', 'looking', 'for', 'a', 'dontcare', 'priced', 'restaurant', 'in', 'the', 'centre', 'part', 'of', 'town']
m2_tar:  ['O', 'O', 'O', 'O', 'B-inform', 'O', 'O', 'O', 'O', 'B-inform', 'O', 'O', 'O']
m2_pred:  ['O', 'O', 'O', 'O', 'B-inform', 'O', 'O', 'O', 'O', 'B-inform', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['O', 'O', 'O', 'O', 'B-pricerange', 'O', 'O', 'O', 'O', 'B-area', 'O', 'O', 'O']
m1_pred:  ['O', 'O', 'O', 'O', 'B-pricerange', 'O', 'O', 'O', 'O', 'B-area', 'O', 'O', 'O', 'O', 'O']
INPUT:  ['can', 'i', 'have', 'it', 'in', 'expensive', 'price', 

64.7542 63.9964:  60%|██████    | 18007/30000 [07:56<05:10, 38.58it/s]

step:  18000
CV_loss_slots_1:  114.709
CV_loss_acts_2:  156.396
INPUT:  ['yes', 'the', 'address']
m2_tar:  ['B-affirm', 'B-affirm', 'B-affirm']
m2_pred:  ['O', 'O', 'B-request', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['B-affirm', 'B-affirm', 'B-affirm']
m1_pred:  ['O', 'O', 'B-addr', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
INPUT:  ['i', 'need', 'a', 'expensive', 'priced', 'restaurant']
m2_tar:  ['O', 'O', 'O', 'B-inform', 'O', 'O']
m2_pred:  ['O', 'O', 'O', 'B-inform', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['O', 'O', 'O', 'B-pricerange', 'O', 'O']
m1_pred:  ['O', 'O', 'O', 'B-pricerange', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
INPUT:  ['whats', 'the', 'type', 'of', 'food']
m2_tar:  ['O', 'O', 'O', 'O', 'B-request']
m2_pred:  ['O', 'O', 'O', 'O', 'B-request', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
--

66.8336 65.9771:  63%|██████▎   | 19004/30000 [08:20<04:46, 38.44it/s]

step:  19000
CV_loss_slots_1:  53.1719
CV_loss_acts_2:  88.5522
INPUT:  ['west', 'area']
m2_tar:  ['B-inform', 'O']
m2_pred:  ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['B-area', 'O']
m1_pred:  ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
INPUT:  ['i', 'want', 'a', 'restaurant', 'in', 'the', 'center', 'that', 'serves', 'indian', 'food']
m2_tar:  ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-inform', 'O']
m2_pred:  ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-inform', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-food', 'O']
m1_pred:  ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-food', 'O', 'O', 'O', 'O', 'O']
INPUT:  ['a', 'restaurant', 'in', 'the', 'north', 'part', 'of', 'town', 'serving', 'panasian', 'food']
m2_tar:  ['O', 'O', 'O', 'O', 'B-inform', 'O', 'O', 'O', 'O', 'B-inform', 'O']
m2_pred:  ['O', 'O', 'O', 'O', 'B-inform', 'O', 'O', 'O', 'O', 'B-i

68.7386 66.8743:  67%|██████▋   | 20003/30000 [08:46<04:30, 36.93it/s]

step:  20000
CV_loss_slots_1:  54.9086
CV_loss_acts_2:  60.6863
INPUT:  ['steak', 'house']
m2_tar:  ['O', 'O']
m2_pred:  ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['O', 'O']
m1_pred:  ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
INPUT:  ['and', 'what', 'price', 'ran', 'is', 'that', 'or', 'nevermind']
m2_tar:  ['O', 'O', 'B-request', 'I-request', 'O', 'O', 'O', 'O']
m2_pred:  ['O', 'O', 'B-request', 'B-inform', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['O', 'O', 'B-pricerange', 'I-pricerange', 'O', 'O', 'O', 'O']
m1_pred:  ['O', 'O', 'B-pricerange', 'I-pricerange', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
INPUT:  ['brazilian', 'food', 'in', 'the', 'dontcare', 'part', 'of', 'town']
m2_tar:  ['B-inform', 'O', 'O', 'O', 'B-inform', 'O', 'O', 'O']
m2_pred:  ['O', 'O', 'O', 'O', 'B-inform', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['B-food', 'O', 

68.8663 63.7026:  70%|███████   | 21004/30000 [09:10<04:05, 36.71it/s]

step:  21000
CV_loss_slots_1:  111.175
CV_loss_acts_2:  196.734
INPUT:  ['dontcare', 'part', 'of', 'town', 'please']
m2_tar:  ['B-inform', 'O', 'O', 'O', 'O']
m2_pred:  ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['B-area', 'O', 'O', 'O', 'O']
m1_pred:  ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
INPUT:  ['what', 'is', 'the', 'telephone', 'and', 'postal', 'code']
m2_tar:  ['O', 'O', 'O', 'B-request', 'O', 'B-request', 'I-request']
m2_pred:  ['O', 'O', 'O', 'B-request', 'O', 'B-request', 'I-request', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['O', 'O', 'O', 'B-phone', 'O', 'B-postcode', 'I-postcode']
m1_pred:  ['O', 'O', 'O', 'B-addr', 'O', 'B-postcode', 'I-postcode', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
INPUT:  ['what', 'type', 'of', 'food', 'is']
m2_tar:  ['O', 'O', 'O', 'B-request', 'O']
m2_pred:  ['O', 'O', 'O', 'B-request', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 

61.4637 58.849:  73%|███████▎  | 22005/30000 [09:35<03:15, 40.92it/s] 

step:  22000
CV_loss_slots_1:  68.71
CV_loss_acts_2:  78.1823
INPUT:  ['ok', 'how', 'about', 'thai', 'food']
m2_tar:  ['O', 'O', 'O', 'B-inform', 'O']
m2_pred:  ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['O', 'O', 'O', 'B-food', 'O']
m1_pred:  ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
INPUT:  ['how', 'about', 'the', 'south', 'part']
m2_tar:  ['O', 'O', 'O', 'B-inform', 'O']
m2_pred:  ['O', 'O', 'O', 'B-inform', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['O', 'O', 'O', 'B-area', 'O']
m1_pred:  ['O', 'O', 'O', 'B-area', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
INPUT:  ['south', 'moderate']
m2_tar:  ['B-inform', 'B-inform']
m2_pred:  ['B-inform', 'B-inform', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['B-area', 'B-pricerange']
m1_pred:  ['B-area', 'B-pricerange', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O

61.6419 64.3238:  77%|███████▋  | 23005/30000 [10:01<03:24, 34.20it/s]

step:  23000
CV_loss_slots_1:  138.382
CV_loss_acts_2:  152.648
INPUT:  ['hello', 'im', 'looking', 'for', 'a', 'dontcare', 'restaurant', 'in', 'the', 'east', 'part', 'of', 'town']
m2_tar:  ['O', 'O', 'O', 'O', 'O', 'B-inform', 'O', 'O', 'O', 'B-inform', 'O', 'O', 'O']
m2_pred:  ['O', 'O', 'O', 'O', 'O', 'B-inform', 'O', 'O', 'O', 'B-inform', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['O', 'O', 'O', 'O', 'O', 'B-pricerange', 'O', 'O', 'O', 'B-area', 'O', 'O', 'O']
m1_pred:  ['O', 'O', 'O', 'O', 'O', 'B-pricerange', 'O', 'O', 'O', 'B-area', 'O', 'O', 'O', 'O', 'O']
INPUT:  ['what', 'kind', 'of', 'food', 'does', 'it']
m2_tar:  ['O', 'O', 'O', 'B-request', 'O', 'O']
m2_pred:  ['O', 'O', 'O', 'B-request', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['O', 'O', 'O', 'B-food', 'O', 'O']
m1_pred:  ['O', 'O', 'O', 'B-food', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
INPUT:  ['what', 'is', 'their', 'address']
m2_tar:  ['O', 'O', 'O', 'B-request']
m2_pred:  ['O'

54.2993 52.0093:  80%|████████  | 24006/30000 [10:26<02:47, 35.86it/s]

step:  24000
CV_loss_slots_1:  105.911
CV_loss_acts_2:  201.785
INPUT:  ['and', 'what', 'cost', 'is', 'that', 'or', 'nevermind']
m2_tar:  ['O', 'O', 'B-request', 'O', 'O', 'O', 'O']
m2_pred:  ['O', 'O', 'B-request', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['O', 'O', 'B-pricerange', 'O', 'O', 'O', 'O']
m1_pred:  ['O', 'O', 'B-postcode', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
INPUT:  ['what', 'type', 'of', 'serves', 'is', 'it']
m2_tar:  ['O', 'O', 'O', 'B-request', 'O', 'O']
m2_pred:  ['O', 'O', 'O', 'B-request', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['O', 'O', 'O', 'B-food', 'O', 'O']
m1_pred:  ['O', 'O', 'O', 'B-food', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
INPUT:  ['vegitarian']
m2_tar:  ['O']
m2_pred:  ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['O']
m1_pred:  ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O',

32.9388 32.1152:  83%|████████▎ | 25007/30000 [10:52<02:12, 37.59it/s]

step:  25000
CV_loss_slots_1:  36.0911
CV_loss_acts_2:  53.5913
INPUT:  ['its', 'cheap']
m2_tar:  ['O', 'B-inform']
m2_pred:  ['O', 'B-inform', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['O', 'B-pricerange']
m1_pred:  ['O', 'B-pricerange', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
INPUT:  ['yes', 'a', 'cheap', 'priced', 'restaurant']
m2_tar:  ['O', 'O', 'B-affirm', 'O', 'O']
m2_pred:  ['O', 'O', 'B-inform', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['O', 'O', 'B-pricerange', 'O', 'O']
m1_pred:  ['O', 'O', 'B-pricerange', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
INPUT:  ['could', 'i', 'have', 'the', 'address', 'please']
m2_tar:  ['O', 'O', 'O', 'O', 'B-request', 'O']
m2_pred:  ['O', 'O', 'O', 'O', 'B-request', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['O', 'O', 'O', 'O', 'B-addr', 'O']
m1_pred:  ['O', 'O', 'O', 'O', 'B-addr', 'O', 'O', 'O', 'O', 'O', '

46.5882 48.9056:  87%|████████▋ | 26004/30000 [11:18<01:55, 34.45it/s]

step:  26000
CV_loss_slots_1:  113.372
CV_loss_acts_2:  139.063
INPUT:  ['what', 'serves', 'does', 'it', 'serve']
m2_tar:  ['O', 'B-request', 'O', 'O', 'O']
m2_pred:  ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['O', 'B-food', 'O', 'O', 'O']
m1_pred:  ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
INPUT:  ['i', 'would', 'like', 'christmas', 'foo']
m2_tar:  ['O', 'O', 'O', 'B-inform', 'O']
m2_pred:  ['O', 'O', 'O', 'B-inform', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['O', 'O', 'O', 'B-food', 'O']
m1_pred:  ['O', 'O', 'O', 'B-food', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
INPUT:  ['im', 'looking', 'for', 'a', 'dontcare', 'priced', 'restaurant']
m2_tar:  ['O', 'O', 'O', 'O', 'B-inform', 'O', 'O']
m2_pred:  ['O', 'O', 'O', 'O', 'B-inform', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['O', 'O', 'O', 'O', 'B-pricerange', 'O', 'O']
m1_pred:  ['O', 'O', 'O', 'O', 'B-pricerange', 'O', 'O', 'O', 'O', 'O',

21.0833 17.3764:  90%|█████████ | 27005/30000 [11:43<01:21, 36.69it/s]

step:  27000
CV_loss_slots_1:  49.6647
CV_loss_acts_2:  72.3783
INPUT:  ['no', 'east', 'area']
m2_tar:  ['O', 'I-reqalts', 'O']
m2_pred:  ['O', 'B-negate', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['O', 'B-area', 'O']
m1_pred:  ['O', 'B-area', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
INPUT:  ['ok', 'if', 'there', 'is', 'no', 'restaurant', 'serving', 'indonesian', 'food', 'how', 'about', 'a', 'restaurant', 'serving', 'creative', 'food']
m2_tar:  ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-inform', 'O']
m2_pred:  ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-inform', 'O']
-----
m1_tar:  ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-food', 'O']
m1_pred:  ['O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-food', 'O', 'O', 'O', 'O', 'O', 'O', 'B-food', 'O']
INPUT:  ['does', 'anyone', 'serve', 'spanish', 'food']
m2_tar:  ['O', 'O', 'O', 'B-inform'

76.3102 69.357:  93%|█████████▎| 28005/30000 [12:09<01:00, 33.02it/s] 

step:  28000
CV_loss_slots_1:  50.4388
CV_loss_acts_2:  73.248
INPUT:  ['alright', 'give', 'me', 'the', 'addre']
m2_tar:  ['O', 'O', 'O', 'O', 'B-request']
m2_pred:  ['O', 'O', 'O', 'O', 'B-request', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['O', 'O', 'O', 'O', 'B-addr']
m1_pred:  ['O', 'O', 'O', 'O', 'B-addr', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
INPUT:  ['is', 'it', 'in', 'the', 'north', 'part', 'of', 'town']
m2_tar:  ['O', 'O', 'O', 'O', 'I-hello', 'O', 'O', 'O']
m2_pred:  ['O', 'O', 'O', 'O', 'B-confirm', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['O', 'O', 'O', 'O', 'B-area', 'O', 'O', 'O']
m1_pred:  ['O', 'O', 'O', 'O', 'B-area', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
INPUT:  ['in', 'the', 'south']
m2_tar:  ['O', 'O', 'B-inform']
m2_pred:  ['O', 'O', 'B-inform', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['O', 'O', 'B-area']
m1_p

23.6942 27.8445:  97%|█████████▋| 29005/30000 [12:33<00:27, 35.63it/s]

step:  29000
CV_loss_slots_1:  87.214
CV_loss_acts_2:  129.687
INPUT:  ['is', 'it', 'in', 'the', 'dontcare', 'of', 'town']
m2_tar:  ['O', 'O', 'O', 'O', 'I-hello', 'O', 'O']
m2_pred:  ['O', 'O', 'O', 'O', 'B-confirm', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['O', 'O', 'O', 'O', 'B-area', 'O', 'O']
m1_pred:  ['O', 'O', 'O', 'O', 'B-area', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
INPUT:  ['is', 'it', 'in', 'the', 'dontcare', 'price', 'range']
m2_tar:  ['O', 'O', 'O', 'O', 'I-hello', 'O', 'O']
m2_pred:  ['O', 'O', 'O', 'O', 'B-confirm', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['O', 'O', 'O', 'O', 'B-pricerange', 'O', 'O']
m1_pred:  ['O', 'O', 'O', 'O', 'B-area', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
INPUT:  ['i', 'would', 'like', 'a', 'cheap', 'restaurant', 'and', 'it', 'should']
m2_tar:  ['O', 'O', 'O', 'O', 'B-inform', 'O', 'O', 'O', 'O']
m2_pred:  ['O', 'O', 'O', 'O', 'B-inform', 'O', 'O', 'O', '

17.1799 18.3609: 100%|██████████| 30000/30000 [13:00<00:00, 38.46it/s]


In [None]:
file_writer = tf.summary.FileWriter('../logdir/', sess.graph)

# Использование обученной модели

In [10]:
model = Model(train=False)
fs_model = fs.load_model("./model.bin")

In [11]:
TimeMajor = False
batch_size = 32
DataGenDev = NLUDataGenerator('../data/dev/usr_df_final.csv',
                           '../data/ontology_dstc2.json',
                           '../data/slots.txt', None,
                           batch_size = batch_size, time_major=TimeMajor, digitize = False, fs_model=fs_model)

In [26]:
x_dev, m1_dev, m2_dev, _lens_dev = next(DataGenDev)

In [16]:
with tf.Session() as sess:
    
    new_saver = tf.train.Saver()
    sess.run(tf.global_variables_initializer())
    new_saver.restore(sess, tf.train.latest_checkpoint('./'))

    N = 4
    x_dev, m1_dev, m2_dev, _lens_dev = next(DataGenDev)
    x_dev_vectorized = DataGenDev.vectorize(x_dev, len(m1_dev[0]), embedd_size=100)
    
    loss_cv_1, loss_cv_2, pred_1, pred_2 = sess.run([model.m1_loss, model.m2_loss,
                                                        model.prediction_m1, model.prediction_m2],
                                                   {model.inputs: m1_dev,
                                                      model.encoded:x_dev_vectorized,
                                                      model.mask1: m1_dev,
                                                      model.mask2: m2_dev,
                                                      model.lens: np.array(_lens_dev)})
    
    for x_, m1_, m2_, p1, p2 in zip(x_dev[:N], m1_dev[:N], m2_dev[:N], pred_1[:N], pred_2[:N]):

        print("INPUT: ", x_)
        print("m2_tar: ", DataGenDev.decode_acts(m2_))
        print("m2_pred: ", DataGenDev.decode_acts(p2))                

        print("-----")

        print("m1_tar: ", DataGenDev.decode_slots(m1_))
        print("m1_pred: ", DataGenDev.decode_slots(p1))

        print("==========================")

INFO:tensorflow:Restoring parameters from ./nlu_model_-30000
INPUT:  ['perfect', 'may', 'i', 'have', 'the', 'address']
m2_tar:  ['O', 'O', 'O', 'O', 'O', 'B-request']
m2_pred:  ['O', 'O', 'O', 'O', 'O', 'B-request', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['O', 'O', 'O', 'O', 'O', 'B-addr']
m1_pred:  ['O', 'O', 'O', 'O', 'O', 'B-addr', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
INPUT:  ['what', 'is', 'the', 'addre', 'phone', 'and', 'type', 'of', 'food']
m2_tar:  ['O', 'O', 'O', 'B-request', 'B-request', 'O', 'O', 'O', 'B-request']
m2_pred:  ['O', 'O', 'O', 'B-request', 'B-request', 'O', 'O', 'O', 'B-request', 'O', 'O', 'O', 'O', 'O']
-----
m1_tar:  ['O', 'O', 'O', 'B-addr', 'B-phone', 'O', 'O', 'O', 'B-food']
m1_pred:  ['O', 'O', 'O', 'B-addr', 'B-phone', 'O', 'O', 'O', 'B-food', 'O', 'O', 'O', 'O', 'O']
INPUT:  ['what', 'about', 'a', 'polish', 'restaurant', 'in', 'the', 'north', 'of', 'town']
m2_tar:  ['O', 'O', 'O', 'B-inform', 'O', 'O', 'O', 'B-inform', 'O', 'O']
m2_pred

# Метрики качества

In [35]:
## Считаем процент совпавших тегов в одном предложении ##

def acc(tar, pred, lens):
    count = 0
    count_all = 0
    for i in range(lens):
        if (tar[i] != 1):
            count_all+=1
            if (pred[i]==tar[i]):
                count+=1
    if count_all == 0:
        return -1
    return count/count_all

In [36]:
Acc1 = 0
Acc2 = 0

In [37]:
batch_size = 32
with tf.Session() as sess:
    new_saver = tf.train.Saver()
    sess.run(tf.global_variables_initializer())
    new_saver.restore(sess, tf.train.latest_checkpoint('./'))
    
    N_batches = 3000
    incorrect1 = 0 ## предложения, в которых нет значимых тегов1
    incorrect2 = 0 ## предложения, в которых нет значимых тегов2
    
    for i in range(N_batches):
        x_dev, m1_dev, m2_dev, _lens_dev = next(DataGenDev)
        x_dev_vectorized = DataGenDev.vectorize(x_dev, len(m1_dev[0]), embedd_size=100)
        
        loss_cv_1, loss_cv_2, pred_1, pred_2 = sess.run([model.m1_loss, model.m2_loss,
                                                        model.prediction_m1, model.prediction_m2],
                                                    {model.inputs: m1_dev,
                                                      model.encoded:x_dev_vectorized,
                                                      model.mask1: m1_dev,
                                                      model.mask2: m2_dev,
                                                      model.lens: np.array(_lens_dev)})
        sum_batch1 = 0
        sum_batch2 = 0
        
        for tar1, pred1, tar2, pred2, length in zip(m1_dev, pred_1, m2_dev, pred_2, _lens_dev):
            acc1 = acc(tar1, pred1, length)
            acc2 = acc(tar2, pred2, length)
            
            if acc1==-1:
                incorrect1+=1
            else:
                sum_batch1+=acc1
                
            if acc2 == -1:
                incorrect2+=1
            else:
                sum_batch2+=acc2
            
            
        Acc1+=sum_batch1 ## прибавляем сумму за батч
        Acc2+=sum_batch2 ##
    
    print(Acc1/(N_batches*batch_size - incorrect1))
    print(Acc2/(N_batches*batch_size - incorrect2))

INFO:tensorflow:Restoring parameters from ./nlu_model_-30000
0.826976672466895
0.7910093926917128


In [40]:
N_batches*batch_size - incorrect1

85492

In [39]:
incorrect2

10508

### Вывод:

Ну неплохо ж)

## Это чисто черновик, где происходит какая-то фигня с bi-LSTM

In [None]:
encoder_inputs = tf.placeholder(shape=(None, None), dtype=tf.int32, name='encoder_inputs')
encoder_inputs_length = tf.placeholder(shape=(None,), dtype=tf.int32, name='encoder_inputs_length')

encoder_targets = tf.placeholder(shape=(None), dtype=tf.int32, name='encoder_targets')
embeddings = tf.Variable(tf.random_uniform([vocab_size, input_embedding_size], -1.0, 1.0), dtype=tf.float32)

encoder_inputs_embedded = tf.nn.embedding_lookup(embeddings, encoder_inputs)

In [None]:
encoder_cell_b = LSTMCell(encoder_hidden_units)
encoder_cell_f = LSTMCell(encoder_hidden_units, reuse=None)

In [None]:
# encoder_cell = LSTMCell(encoder_hidden_units, reuse=tf.get_variable_scope().reuse)
# encoder_cell_f = LSTMCell(encoder_hidden_units)
((encoder_fw_outputs,
encoder_bw_outputs),
(encoder_fw_final_state,
encoder_bw_final_state)) = (tf.nn.bidirectional_dynamic_rnn(cell_fw=encoder_cell_f,
                                cell_bw=encoder_cell_b,
                                inputs=encoder_inputs_embedded,
                                sequence_length=encoder_inputs_length,
                                dtype=tf.float32, time_major=TimeMajor))
    

In [None]:
encoder_outputs = tf.concat((encoder_fw_outputs, encoder_bw_outputs), 2)

encoder_final_state_c = tf.concat(
    (encoder_fw_final_state.c, encoder_bw_final_state.c), 1)

encoder_final_state_h = tf.concat(
    (encoder_fw_final_state.h, encoder_bw_final_state.h), 1)

encoder_final_state = LSTMStateTuple(
    c=encoder_final_state_c,
    h=encoder_final_state_h)

In [None]:
from tensorflow.contrib import layers
next_word_pred = layers.fully_connected(encoder_outputs, vocab_size, ...)



mask1_pred = layers.fully_connected(encoder_outputs, mask1_vocab, ...)
mask2_pred = layers.fully_connected(encoder_outputs, mask2_vocab, ...)


In [None]:
encoder_final_state_h

In [None]:
W = tf.Variable(tf.random_uniform([encoder_hidden_units*2, vocab_size], -1, 1), dtype=tf.float32)
b = tf.Variable(tf.zeros([vocab_size]), dtype=tf.float32)

In [None]:
logits = tf.add(tf.matmul(encoder_final_state_h, W), b)
# encoder_logits = tf.reshape(encoder_logits_flat, (decoder_max_steps, decoder_batch_size, vocab_size))

In [None]:
logits

In [None]:
encoder_targets

In [None]:
losses = tf.nn.sparse_softmax_cross_entropy_with_logits(logits = logits, labels = encoder_targets)