# Textual entailment

### Imports

In [1]:
from tqdm import tqdm
import tensorflow as tf
import numpy as np
import sys
display_step = 10

### Embeddings

Download Glove word embeddings

In [3]:
glove_zip_file = "data/glove.6B.zip"
glove_vectors_file = "data/glove.6B.50d.txt"
import zipfile, urllib.request, shutil, os
    
#large file - 862 MB
if (not os.path.isfile(glove_zip_file) and
    not os.path.isfile(glove_vectors_file)):
    with urllib.request.urlopen("http://nlp.stanford.edu/data/glove.6B.zip") as response, open(glove_zip_file, 'wb') as out_file:
        shutil.copyfileobj(response, out_file)

Unzip word embeddings

In [4]:
import zipfile
def unzip_single_file(zip_file_name, output_file_name):
    """
        If the outFile is already created, don't recreate
        If the outFile does not exist, create it from the zipFile
    """
    if not os.path.isfile(output_file_name):
        with open(output_file_name, 'wb') as out_file:
            with zipfile.ZipFile(zip_file_name) as zipped:
                for info in zipped.infolist():
                    if output_file_name in info.filename:
                        with zipped.open(info) as requested_file:
                            out_file.write(requested_file.read())
                            return

unzip_single_file(glove_zip_file, glove_vectors_file)

In [4]:
glove_wordmap = {}
with open(glove_vectors_file, "r", encoding="utf8") as glove:
    for line in glove:
        name, vector = tuple(line.split(" ", 1))
        glove_wordmap[name] = np.fromstring(vector, sep=" ")

## Model

### Embed sentences - sentence2sequence

In [5]:
def sentence2sequence(sentence):
    """
    - Turns an input sentence into an (n,d) matrix, 
        where n is the number of tokens in the sentence
        and d is the number of dimensions each word vector has.
    
      Tensorflow doesn't need to be used here, as simply
      turning the sentence into a sequence based off our 
      mapping does not need the computational power that
      Tensorflow provides. Normal Python suffices for this task.
    """
    tokens = sentence.lower().split(" ")
    rows = []
    words = []
    #Greedy search for tokens
    for token in tokens:
        i = len(token)
        while len(token) > 0 and i > 0:
            word = token[:i]
            if word in glove_wordmap:
                rows.append(glove_wordmap[word])
                words.append(word)
                token = token[i:]
                i = len(token)
            else:
                i = i-1
    return rows, words

In [85]:
display_step = 1
# one hot encoding
def score_setup(row):
    convert_dict = {
      'ENTAILMENT': 0,
      'NEUTRAL': 1,
      'CONTRADICTION': 2
    }
    score = np.zeros((3,))
    tag = row["entailment_judgment"]
    score[convert_dict[tag]] += 1
    return score

def fit_to_size(matrix, shape):
    res = np.zeros(shape)
    slices = [slice(0,min(dim,shape[e])) for e, dim in enumerate(matrix.shape)]
    res[slices] = matrix[slices]
    return res

### Cell used for development

In [56]:
def create_model():
    tf.reset_default_graph() 
    data_feature_list, correct_values, correct_scores = split_data_into_scores()

    l_h, l_e = max_hypothesis_length, max_evidence_length
    N, D, H = batch_size, vector_size, hidden_size
    l_seq = l_h + l_e
    lstm = tf.contrib.rnn.BasicLSTMCell(lstm_size)
    lstm_drop =  tf.contrib.rnn.DropoutWrapper(lstm, input_p, output_p)
    hyp = tf.placeholder(tf.float32, [N, l_h, D], 'hypothesis')
    evi = tf.placeholder(tf.float32, [N, l_e, D], 'evidence')
    y = tf.placeholder(tf.float32, [N, 3], 'label')
    lstm_back = tf.contrib.rnn.BasicLSTMCell(lstm_size)

    lstm_drop_back = tf.contrib.rnn.DropoutWrapper(lstm_back, input_p, output_p)

    fc_initializer = tf.random_normal_initializer(stddev=0.1) 
    fc_weight = tf.get_variable('fc_weight', [2*hidden_size, 3], 
                            initializer = fc_initializer)
    fc_bias = tf.get_variable('bias', [3])
    tf.add_to_collection(tf.GraphKeys.REGULARIZATION_LOSSES, 
                     tf.nn.l2_loss(fc_weight)) 

    x = tf.concat([hyp, evi], 1) # N, (Lh+Le), d
    x = tf.transpose(x, [1, 0, 2]) # (Le+Lh), N, d
    x = tf.reshape(x, [-1, vector_size]) # (Le+Lh)*N, d
    x = tf.split(x, l_seq,)
    rnn_outputs, _, _ = tf.contrib.rnn.static_bidirectional_rnn(lstm, lstm_back,
                                                            x, dtype=tf.float32)

    classification_scores = tf.matmul(rnn_outputs[-1], fc_weight) + fc_bias

    with tf.variable_scope('Accuracy'):
        predicts = tf.cast(tf.argmax(classification_scores, 1), 'int32')
        y_label = tf.cast(tf.argmax(y, 1), 'int32')
        corrects = tf.equal(predicts, y_label)
        num_corrects = tf.reduce_sum(tf.cast(corrects, tf.float32))
        accuracy = tf.reduce_mean(tf.cast(corrects, tf.float32))

    with tf.variable_scope("loss"):
        cross_entropy = tf.nn.softmax_cross_entropy_with_logits(
            logits = classification_scores, labels = y)
        loss = tf.reduce_mean(cross_entropy)
        total_loss = loss + weight_decay * tf.add_n(
            tf.get_collection(tf.GraphKeys.REGULARIZATION_LOSSES))

    optimizer = tf.train.GradientDescentOptimizer(learning_rate)

    opt_op = optimizer.minimize(total_loss)
    # Initialize variables
    init = tf.global_variables_initializer()

    # Use TQDM if installed
    tqdm_installed = False
    try:
        from tqdm import tqdm
        tqdm_installed = True
    except:
        pass

    # Launch the Tensorflow session
    sess = tf.Session()
    sess.run(init)

    # training_iterations_count: The number of data pieces to train on in total
    # batch_size: The number of data pieces per batch
    training_iterations = range(0,training_iterations_count,batch_size)
    if tqdm_installed:
        # Add a progress bar if TQDM is installed
        training_iterations = tqdm(training_iterations)

    for i in training_iterations:
        if i % 1000 == 0:
        # Select indices for a random data subset
            batch = np.random.randint(data_feature_list[0].shape[0], size=batch_size)

        # Use the selected subset indices to initialize the graph's 
        #   placeholder values
        hyps, evis, ys = (data_feature_list[0][batch,:],
                          data_feature_list[1][batch,:],
                          correct_scores[batch])

        # Run the optimization with these initialized values
        sess.run([opt_op], feed_dict={hyp: hyps, evi: evis, y: ys})
        # display_step: how often the accuracy and loss should 
        #   be tested and displayed.
        if (i/batch_size) % display_step == 0:
            # Calculate batch accuracy
            acc = sess.run(accuracy, feed_dict={hyp: hyps, evi: evis, y: ys})
            # Calculate batch loss
            tmp_loss = sess.run(loss, feed_dict={hyp: hyps, evi: evis, y: ys})
            # Display results
            print("Iter " + str(i/batch_size) + ", Minibatch Loss= " + \
                  "{:.6f}".format(tmp_loss) + ", Training Accuracy= " + \
                  "{:.5f}".format(acc))

    data_feature_list, correct_values, correct_scores = split_test_data_into_scores("data/dev.txt")


    hyps, evis, ys = (data_feature_list[0][:],
                      data_feature_list[1][:],
                      correct_scores)
    predictions = sess.run(classification_scores, feed_dict={hyp: hyps, evi: evis, y: ys})
    total = len(predictions)
    correct_predictions = 0
    for i,prediction in enumerate(predictions):
        if np.argmax(prediction[0])==np.argmax(ys[i]):
            correct_predictions += 1
    #     print(["Positive", "Neutral", "Negative"][np.argmax(prediction[0])]+
    #       " / " + ["Positive", "Neutral", "Negative"][np.argmax(ys[i])])
    acc = correct_predictions*100/total
    print("Acc: %s" % str(acc))
    return acc

In [57]:
import numpy as np
accs = [] # 128
batches = [128, 64, 32, 1, 256]
for batch in batches:
    batch_size = batch
    accs.append(create_model())

print(accs)
print("Best batch size %s" % str(batches[np.argmax(accs)]))






  0%|                                                                                                                                                                                   | 0/782 [00:00<?, ?it/s]

Iter 0.0, Minibatch Loss= 0.956232, Training Accuracy= 0.58594






  0%|▏                                                                                                                                                                          | 1/782 [00:00<10:43,  1.21it/s]



  1%|▊                                                                                                                                                                          | 4/782 [00:00<07:39,  1.69it/s]



  1%|█▌                                                                                                                                                                         | 7/782 [00:01<05:30,  2.35it/s]



  1%|██▏                                                                                                                                                                       | 10/782 [00:01<04:00,  3.21it/s]

Iter 10.0, Minibatch Loss= 0.938195, Training Accuracy= 0.58594






  2%|██▌                                                                                                                                                                       | 12/782 [00:01<03:01,  4.23it/s]



  2%|███▎                                                                                                                                                                      | 15/782 [00:01<02:16,  5.64it/s]



  2%|███▉                                                                                                                                                                      | 18/782 [00:01<01:44,  7.31it/s]

Iter 20.0, Minibatch Loss= 0.937931, Training Accuracy= 0.58594






  3%|████▌                                                                                                                                                                     | 21/782 [00:01<01:26,  8.83it/s]



  3%|█████▏                                                                                                                                                                    | 24/782 [00:01<01:10, 10.81it/s]



  3%|█████▊                                                                                                                                                                    | 27/782 [00:02<00:57, 13.05it/s]



  4%|██████▌                                                                                                                                                                   | 30/782 [00:02<00:50, 14.98it/s]

Iter 30.0, Minibatch Loss= 0.937693, Training Accuracy= 0.58594






  4%|███████▏                                                                                                                                                                  | 33/782 [00:02<00:48, 15.50it/s]



  5%|███████▊                                                                                                                                                                  | 36/782 [00:02<00:43, 16.99it/s]



  5%|████████▍                                                                                                                                                                 | 39/782 [00:02<00:39, 18.86it/s]

Iter 40.0, Minibatch Loss= 0.937342, Training Accuracy= 0.58594






  5%|█████████▏                                                                                                                                                                | 42/782 [00:02<00:39, 18.77it/s]



  6%|█████████▊                                                                                                                                                                | 45/782 [00:02<00:35, 20.62it/s]



  6%|██████████▍                                                                                                                                                               | 48/782 [00:02<00:33, 22.13it/s]

Iter 50.0, Minibatch Loss= 0.936669, Training Accuracy= 0.58594






  7%|███████████                                                                                                                                                               | 51/782 [00:03<00:33, 21.57it/s]



  7%|███████████▋                                                                                                                                                              | 54/782 [00:03<00:32, 22.35it/s]



  7%|████████████▍                                                                                                                                                             | 57/782 [00:03<00:31, 22.82it/s]



  8%|█████████████                                                                                                                                                             | 60/782 [00:03<00:31, 23.11it/s]

Iter 60.0, Minibatch Loss= 0.935027, Training Accuracy= 0.58594






  8%|█████████████▋                                                                                                                                                            | 63/782 [00:03<00:33, 21.77it/s]



  8%|██████████████▎                                                                                                                                                           | 66/782 [00:03<00:31, 22.71it/s]



  9%|███████████████                                                                                                                                                           | 69/782 [00:03<00:29, 23.80it/s]

Iter 70.0, Minibatch Loss= 0.930252, Training Accuracy= 0.58594






  9%|███████████████▋                                                                                                                                                          | 72/782 [00:04<00:31, 22.68it/s]



 10%|████████████████▎                                                                                                                                                         | 75/782 [00:04<00:29, 23.72it/s]



 10%|████████████████▉                                                                                                                                                         | 78/782 [00:04<00:29, 23.97it/s]

Iter 80.0, Minibatch Loss= 0.917919, Training Accuracy= 0.58594






 10%|█████████████████▌                                                                                                                                                        | 81/782 [00:04<00:30, 22.76it/s]



 11%|██████████████████▎                                                                                                                                                       | 84/782 [00:04<00:29, 23.87it/s]



 11%|██████████████████▉                                                                                                                                                       | 87/782 [00:04<00:28, 24.68it/s]



 12%|███████████████████▌                                                                                                                                                      | 90/782 [00:04<00:27, 24.96it/s]

Iter 90.0, Minibatch Loss= 0.935087, Training Accuracy= 0.58594


KeyboardInterrupt: 

### Constants

In [181]:
#Constants setup
max_hypothesis_length, max_evidence_length = 28, 32
batch_size, vector_size, hidden_size = 128, 50, 128

training_iterations_count = 100000

lstm_size = hidden_size

weight_decay = 0.0005

learning_rate = 1

input_p, output_p = 0.6, 0.3

### [Training data](http://www.site.uottawa.ca/~diana/csi5386/A2_2019/SICK_train.txt)

In [182]:
import numpy as np

def split_data_into_scores(file_name="data/training.txt"):
    import csv
    with open(file_name,"r") as data:
        train = csv.DictReader(data , delimiter='\t')
        evi_sentences = []
        hyp_sentences = []
        labels = []
        scores = []
        count = 1
        for row in train:
            hyp_sentences.append(np.vstack(
                    sentence2sequence(row["sentence_A"].lower())[0]))
            evi_sentences.append(np.vstack(
                    sentence2sequence(row["sentence_B"].lower())[0]))
            labels.append(row["entailment_judgment"])
            scores.append(score_setup(row))
        
        hyp_sentences = np.stack([fit_to_size(x, (max_hypothesis_length, vector_size))
                          for x in hyp_sentences])
        evi_sentences = np.stack([fit_to_size(x, (max_evidence_length, vector_size))
                          for x in evi_sentences])
                                 
        return (hyp_sentences, evi_sentences), labels, np.array(scores)
data_feature_list, correct_values, correct_scores = split_data_into_scores()

l_h, l_e = max_hypothesis_length, max_evidence_length
N, D, H = batch_size, vector_size, hidden_size
l_seq = l_h + l_e



### TRAINING

In [183]:
tf.reset_default_graph()

In [184]:
lstm = tf.contrib.rnn.GRUCell(lstm_size)
lstm_drop =  tf.contrib.rnn.DropoutWrapper(lstm, input_p, output_p)

In [185]:
# N: The number of elements in each of our batches, 
#   which we use to train subsets of data for efficiency's sake.
# l_h: The maximum length of a hypothesis, or the second sentence.  This is
#   used because training an RNN is extraordinarily difficult without 
#   rolling it out to a fixed length.
# l_e: The maximum length of evidence, the first sentence.  This is used
#   because training an RNN is extraordinarily difficult without 
#   rolling it out to a fixed length.
# D: The size of our used GloVe or other vectors.
hyp = tf.placeholder(tf.float32, [N, l_h, D], 'hypothesis')
evi = tf.placeholder(tf.float32, [N, l_e, D], 'evidence')
y = tf.placeholder(tf.float32, [N, 3], 'label')
# hyp: Where the hypotheses will be stored during training.
# evi: Where the evidences will be stored during training.
# y: Where correct scores will be stored during training.

# lstm_size: the size of the gates in the LSTM, 
#    as in the first LSTM layer's initialization.
# lstm_back = tf.contrib.rnn.BasicLSTMCell(lstm_size)
lstm_back = tf.contrib.rnn.GRUCell(lstm_size)

# lstm_back:  The LSTM used for looking backwards 
#   through the sentences, similar to lstm.

# input_p: the probability that inputs to the LSTM will be retained at each
#   iteration of dropout.
# output_p: the probability that outputs from the LSTM will be retained at 
#   each iteration of dropout.
lstm_drop_back = tf.contrib.rnn.DropoutWrapper(lstm_back, input_p, output_p)
# lstm_drop_back:  A dropout wrapper for lstm_back, like lstm_drop.


fc_initializer = tf.random_normal_initializer(stddev=0.1) 
# fc_initializer: initial values for the fully connected layer's weights.
# hidden_size: the size of the outputs from each lstm layer.  
#   Multiplied by 2 to account for the two LSTMs.
fc_weight = tf.get_variable('fc_weight', [2*hidden_size, 3], 
                            initializer = fc_initializer)
# fc_weight: Storage for the fully connected layer's weights.
fc_bias = tf.get_variable('bias', [3])
# fc_bias: Storage for the fully connected layer's bias.

# tf.GraphKeys.REGULARIZATION_LOSSES:  A key to a collection in the graph
#   designated for losses due to regularization.
#   In this case, this portion of loss is regularization on the weights
#   for the fully connected layer.
tf.add_to_collection(tf.GraphKeys.REGULARIZATION_LOSSES, 
                     tf.nn.l2_loss(fc_weight)) 

x = tf.concat([hyp, evi], 1) # N, (Lh+Le), d
# Permuting batch_size and n_steps
x = tf.transpose(x, [1, 0, 2]) # (Le+Lh), N, d
# Reshaping to (n_steps*batch_size, n_input)
x = tf.reshape(x, [-1, vector_size]) # (Le+Lh)*N, d
# Split to get a list of 'n_steps' tensors of shape (batch_size, n_input)
x = tf.split(x, l_seq,)

# x: the inputs to the bidirectional_rnn


# tf.contrib.rnn.static_bidirectional_rnn: Runs the input through
#   two recurrent networks, one that runs the inputs forward and one
#   that runs the inputs in reversed order, combining the outputs.
rnn_outputs, _, _ = tf.contrib.rnn.static_bidirectional_rnn(lstm, lstm_back,
                                                            x, dtype=tf.float32)
# rnn_outputs: the list of LSTM outputs, as a list. 
#   What we want is the latest output, rnn_outputs[-1]

classification_scores = tf.matmul(rnn_outputs[-1], fc_weight) + fc_bias
# The scores are relative certainties for how likely the output matches
#   a certain entailment: 
#     0: Positive entailment
#     1: Neutral entailment
#     2: Negative entailment

In [186]:
with tf.variable_scope('Accuracy'):
    predicts = tf.cast(tf.argmax(classification_scores, 1), 'int32')
    y_label = tf.cast(tf.argmax(y, 1), 'int32')
    corrects = tf.equal(predicts, y_label)
    num_corrects = tf.reduce_sum(tf.cast(corrects, tf.float32))
    accuracy = tf.reduce_mean(tf.cast(corrects, tf.float32))

with tf.variable_scope("loss"):
    cross_entropy = tf.nn.softmax_cross_entropy_with_logits(
        logits = classification_scores, labels = y)
    loss = tf.reduce_mean(cross_entropy)
    total_loss = loss + weight_decay * tf.add_n(
        tf.get_collection(tf.GraphKeys.REGULARIZATION_LOSSES))

optimizer = tf.train.GradientDescentOptimizer(learning_rate)

opt_op = optimizer.minimize(total_loss)

In [187]:
# Initialize variables
init = tf.global_variables_initializer()

from tqdm import tqdm
import time
start = time.time()
# Launch the Tensorflow session
sess = tf.Session()
sess.run(init)

# training_iterations_count: The number of data pieces to train on in total
# batch_size: The number of data pieces per batch
training_iterations = range(0,training_iterations_count,batch_size)
print(training_iterations)
training_iterations = tqdm(training_iterations)

for i in training_iterations:
    if i % 1000 == 0:
    # Select indices for a random data subset
        batch = np.random.randint(data_feature_list[0].shape[0], size=batch_size)
    
    # Use the selected subset indices to initialize the graph's 
    #   placeholder values
    hyps, evis, ys = (data_feature_list[0][batch,:],
                      data_feature_list[1][batch,:],
                      correct_scores[batch])
    
    # Run the optimization with these initialized values
    sess.run([opt_op], feed_dict={hyp: hyps, evi: evis, y: ys})
    # display_step: how often the accuracy and loss should 
    #   be tested and displayed.
    if (i/batch_size) % display_step == 0:
        # Calculate batch accuracy
        acc = sess.run(accuracy, feed_dict={hyp: hyps, evi: evis, y: ys})
        # Calculate batch loss
        tmp_loss = sess.run(loss, feed_dict={hyp: hyps, evi: evis, y: ys})
        # Display results
        print("Iter " + str(i/batch_size) + ", Minibatch Loss= " + \
              "{:.6f}".format(tmp_loss) + ", Training Accuracy= " + \
              "{:.5f}".format(acc))
stop = time.time()
mins = int((stop-start)/60.0)
print("Training took %s:%s" % (str(mins), str(stop - start - mins*60)))

range(0, 100000, 128)








  0%|                                                                                                                                                                                   | 0/782 [00:00<?, ?it/s]

Iter 0.0, Minibatch Loss= 1.017356, Training Accuracy= 0.50781








  0%|▏                                                                                                                                                                          | 1/782 [00:01<13:51,  1.06s/it]

Iter 1.0, Minibatch Loss= 1.025229, Training Accuracy= 0.49219








  0%|▍                                                                                                                                                                          | 2/782 [00:01<10:36,  1.23it/s]

Iter 2.0, Minibatch Loss= 1.029215, Training Accuracy= 0.50781








  0%|▋                                                                                                                                                                          | 3/782 [00:01<08:14,  1.58it/s]

Iter 3.0, Minibatch Loss= 1.023902, Training Accuracy= 0.49219








  1%|▊                                                                                                                                                                          | 4/782 [00:01<06:32,  1.98it/s]

Iter 4.0, Minibatch Loss= 1.014413, Training Accuracy= 0.50781








  1%|█                                                                                                                                                                          | 5/782 [00:01<05:20,  2.42it/s]

Iter 5.0, Minibatch Loss= 1.008243, Training Accuracy= 0.50781








  1%|█▎                                                                                                                                                                         | 6/782 [00:02<04:29,  2.88it/s]

Iter 6.0, Minibatch Loss= 1.006558, Training Accuracy= 0.50781








  1%|█▌                                                                                                                                                                         | 7/782 [00:02<03:53,  3.32it/s]

Iter 7.0, Minibatch Loss= 1.005673, Training Accuracy= 0.50781








  1%|█▋                                                                                                                                                                         | 8/782 [00:02<03:28,  3.71it/s]

Iter 8.0, Minibatch Loss= 1.005096, Training Accuracy= 0.50781








  1%|█▉                                                                                                                                                                         | 9/782 [00:02<03:11,  4.03it/s]

Iter 9.0, Minibatch Loss= 1.004578, Training Accuracy= 0.50781








  1%|██▏                                                                                                                                                                       | 10/782 [00:02<03:03,  4.21it/s]

Iter 10.0, Minibatch Loss= 1.004068, Training Accuracy= 0.50781








  1%|██▍                                                                                                                                                                       | 11/782 [00:03<02:50,  4.51it/s]

Iter 11.0, Minibatch Loss= 1.003538, Training Accuracy= 0.50781








  2%|██▌                                                                                                                                                                       | 12/782 [00:03<02:47,  4.61it/s]

Iter 12.0, Minibatch Loss= 1.002974, Training Accuracy= 0.50781








  2%|██▊                                                                                                                                                                       | 13/782 [00:03<02:41,  4.75it/s]

Iter 13.0, Minibatch Loss= 1.002360, Training Accuracy= 0.50781








  2%|███                                                                                                                                                                       | 14/782 [00:03<02:37,  4.87it/s]

Iter 14.0, Minibatch Loss= 1.001679, Training Accuracy= 0.50781








  2%|███▎                                                                                                                                                                      | 15/782 [00:03<02:31,  5.05it/s]

Iter 15.0, Minibatch Loss= 1.000906, Training Accuracy= 0.50781








  2%|███▍                                                                                                                                                                      | 16/782 [00:04<02:36,  4.91it/s]

Iter 16.0, Minibatch Loss= 1.000008, Training Accuracy= 0.50781








  2%|███▋                                                                                                                                                                      | 17/782 [00:04<02:31,  5.06it/s]

Iter 17.0, Minibatch Loss= 0.998936, Training Accuracy= 0.50781








  2%|███▉                                                                                                                                                                      | 18/782 [00:04<02:33,  4.98it/s]

Iter 18.0, Minibatch Loss= 0.997611, Training Accuracy= 0.50781








  2%|████▏                                                                                                                                                                     | 19/782 [00:04<02:32,  5.01it/s]

Iter 19.0, Minibatch Loss= 0.995898, Training Accuracy= 0.50781








  3%|████▎                                                                                                                                                                     | 20/782 [00:04<02:31,  5.04it/s]

Iter 20.0, Minibatch Loss= 0.993556, Training Accuracy= 0.50781








  3%|████▌                                                                                                                                                                     | 21/782 [00:05<02:33,  4.96it/s]

Iter 21.0, Minibatch Loss= 0.990081, Training Accuracy= 0.50781








  3%|████▊                                                                                                                                                                     | 22/782 [00:05<02:30,  5.04it/s]

Iter 22.0, Minibatch Loss= 0.985214, Training Accuracy= 0.50781








  3%|█████                                                                                                                                                                     | 23/782 [00:05<02:34,  4.92it/s]

Iter 23.0, Minibatch Loss= 1.059684, Training Accuracy= 0.35938








  3%|█████▏                                                                                                                                                                    | 24/782 [00:05<02:34,  4.92it/s]

Iter 24.0, Minibatch Loss= 1.170609, Training Accuracy= 0.46875








  3%|█████▍                                                                                                                                                                    | 25/782 [00:05<02:29,  5.07it/s]

Iter 25.0, Minibatch Loss= 1.223567, Training Accuracy= 0.50000








  3%|█████▋                                                                                                                                                                    | 26/782 [00:06<02:33,  4.94it/s]

Iter 26.0, Minibatch Loss= 1.107630, Training Accuracy= 0.50781








  3%|█████▊                                                                                                                                                                    | 27/782 [00:06<02:34,  4.89it/s]

Iter 27.0, Minibatch Loss= 1.013634, Training Accuracy= 0.50000








  4%|██████                                                                                                                                                                    | 28/782 [00:06<02:32,  4.96it/s]

Iter 28.0, Minibatch Loss= 1.009016, Training Accuracy= 0.50000








  4%|██████▎                                                                                                                                                                   | 29/782 [00:06<02:27,  5.11it/s]

Iter 29.0, Minibatch Loss= 1.007022, Training Accuracy= 0.50000








  4%|██████▌                                                                                                                                                                   | 30/782 [00:06<02:28,  5.07it/s]

Iter 30.0, Minibatch Loss= 1.005434, Training Accuracy= 0.50000








  4%|██████▋                                                                                                                                                                   | 31/782 [00:07<02:29,  5.02it/s]

Iter 31.0, Minibatch Loss= 1.004229, Training Accuracy= 0.50000








  4%|██████▉                                                                                                                                                                   | 32/782 [00:07<02:28,  5.04it/s]

Iter 32.0, Minibatch Loss= 1.003095, Training Accuracy= 0.50000








  4%|███████▏                                                                                                                                                                  | 33/782 [00:07<02:28,  5.05it/s]

Iter 33.0, Minibatch Loss= 1.001966, Training Accuracy= 0.50781








  4%|███████▍                                                                                                                                                                  | 34/782 [00:07<02:27,  5.07it/s]

Iter 34.0, Minibatch Loss= 1.000786, Training Accuracy= 0.50781








  4%|███████▌                                                                                                                                                                  | 35/782 [00:07<02:26,  5.11it/s]

Iter 35.0, Minibatch Loss= 0.999518, Training Accuracy= 0.50781








  5%|███████▊                                                                                                                                                                  | 36/782 [00:08<02:25,  5.12it/s]

Iter 36.0, Minibatch Loss= 0.998118, Training Accuracy= 0.50781








  5%|████████                                                                                                                                                                  | 37/782 [00:08<02:24,  5.16it/s]

Iter 37.0, Minibatch Loss= 0.996534, Training Accuracy= 0.50781








  5%|████████▎                                                                                                                                                                 | 38/782 [00:08<02:24,  5.14it/s]

Iter 38.0, Minibatch Loss= 0.994692, Training Accuracy= 0.50781








  5%|████████▍                                                                                                                                                                 | 39/782 [00:08<02:27,  5.03it/s]

Iter 39.0, Minibatch Loss= 0.992489, Training Accuracy= 0.50781








  5%|████████▋                                                                                                                                                                 | 40/782 [00:08<02:25,  5.10it/s]

Iter 40.0, Minibatch Loss= 0.989765, Training Accuracy= 0.50781








  5%|████████▉                                                                                                                                                                 | 41/782 [00:09<02:26,  5.06it/s]

Iter 41.0, Minibatch Loss= 0.986288, Training Accuracy= 0.50781








  5%|█████████▏                                                                                                                                                                | 42/782 [00:09<02:25,  5.07it/s]

Iter 42.0, Minibatch Loss= 0.981750, Training Accuracy= 0.51562








  5%|█████████▎                                                                                                                                                                | 43/782 [00:09<02:22,  5.20it/s]

Iter 43.0, Minibatch Loss= 0.976646, Training Accuracy= 0.51562








  6%|█████████▌                                                                                                                                                                | 44/782 [00:09<02:25,  5.08it/s]

Iter 44.0, Minibatch Loss= 0.993706, Training Accuracy= 0.57031








  6%|█████████▊                                                                                                                                                                | 45/782 [00:09<02:25,  5.07it/s]

Iter 45.0, Minibatch Loss= 1.313124, Training Accuracy= 0.50781








  6%|██████████                                                                                                                                                                | 46/782 [00:10<02:22,  5.15it/s]

Iter 46.0, Minibatch Loss= 1.024456, Training Accuracy= 0.50000








  6%|██████████▏                                                                                                                                                               | 47/782 [00:10<02:24,  5.07it/s]

Iter 47.0, Minibatch Loss= 1.011104, Training Accuracy= 0.50781








  6%|██████████▍                                                                                                                                                               | 48/782 [00:10<02:21,  5.20it/s]

Iter 48.0, Minibatch Loss= 1.006763, Training Accuracy= 0.50781








  6%|██████████▋                                                                                                                                                               | 49/782 [00:10<02:22,  5.14it/s]

Iter 49.0, Minibatch Loss= 1.004606, Training Accuracy= 0.50781








  6%|██████████▊                                                                                                                                                               | 50/782 [00:10<02:23,  5.10it/s]

Iter 50.0, Minibatch Loss= 1.003801, Training Accuracy= 0.50781








  7%|███████████                                                                                                                                                               | 51/782 [00:10<02:24,  5.07it/s]

Iter 51.0, Minibatch Loss= 1.003217, Training Accuracy= 0.50781








  7%|███████████▎                                                                                                                                                              | 52/782 [00:11<02:24,  5.05it/s]

Iter 52.0, Minibatch Loss= 1.002688, Training Accuracy= 0.50781








  7%|███████████▌                                                                                                                                                              | 53/782 [00:11<02:24,  5.03it/s]

Iter 53.0, Minibatch Loss= 1.002167, Training Accuracy= 0.50781








  7%|███████████▋                                                                                                                                                              | 54/782 [00:11<02:25,  5.02it/s]

Iter 54.0, Minibatch Loss= 1.001638, Training Accuracy= 0.50781








  7%|███████████▉                                                                                                                                                              | 55/782 [00:11<02:21,  5.13it/s]

Iter 55.0, Minibatch Loss= 1.001094, Training Accuracy= 0.50781








  7%|████████████▏                                                                                                                                                             | 56/782 [00:11<02:21,  5.13it/s]

Iter 56.0, Minibatch Loss= 1.000526, Training Accuracy= 0.50781








  7%|████████████▍                                                                                                                                                             | 57/782 [00:12<02:20,  5.16it/s]

Iter 57.0, Minibatch Loss= 0.999924, Training Accuracy= 0.50781








  7%|████████████▌                                                                                                                                                             | 58/782 [00:12<02:21,  5.11it/s]

Iter 58.0, Minibatch Loss= 0.999278, Training Accuracy= 0.50781








  8%|████████████▊                                                                                                                                                             | 59/782 [00:12<02:22,  5.08it/s]

Iter 59.0, Minibatch Loss= 0.998571, Training Accuracy= 0.50781








  8%|█████████████                                                                                                                                                             | 60/782 [00:12<02:22,  5.06it/s]

Iter 60.0, Minibatch Loss= 0.997787, Training Accuracy= 0.50781








  8%|█████████████▎                                                                                                                                                            | 61/782 [00:12<02:21,  5.08it/s]

Iter 61.0, Minibatch Loss= 0.996898, Training Accuracy= 0.50781








  8%|█████████████▍                                                                                                                                                            | 62/782 [00:13<02:21,  5.08it/s]

Iter 62.0, Minibatch Loss= 0.995868, Training Accuracy= 0.50781








  8%|█████████████▋                                                                                                                                                            | 63/782 [00:13<02:22,  5.04it/s]

Iter 63.0, Minibatch Loss= 0.994645, Training Accuracy= 0.50781








  8%|█████████████▉                                                                                                                                                            | 64/782 [00:13<02:24,  4.97it/s]

Iter 64.0, Minibatch Loss= 0.993146, Training Accuracy= 0.50781








  8%|██████████████▏                                                                                                                                                           | 65/782 [00:13<02:20,  5.09it/s]

Iter 65.0, Minibatch Loss= 0.991239, Training Accuracy= 0.50781








  8%|██████████████▎                                                                                                                                                           | 66/782 [00:13<02:20,  5.11it/s]

Iter 66.0, Minibatch Loss= 0.988698, Training Accuracy= 0.50781








  9%|██████████████▌                                                                                                                                                           | 67/782 [00:14<02:19,  5.11it/s]

Iter 67.0, Minibatch Loss= 0.985100, Training Accuracy= 0.50781








  9%|██████████████▊                                                                                                                                                           | 68/782 [00:14<02:21,  5.05it/s]

Iter 68.0, Minibatch Loss= 0.979597, Training Accuracy= 0.53125








  9%|███████████████                                                                                                                                                           | 69/782 [00:14<02:21,  5.02it/s]

Iter 69.0, Minibatch Loss= 0.970473, Training Accuracy= 0.53125








  9%|███████████████▏                                                                                                                                                          | 70/782 [00:14<02:21,  5.03it/s]

Iter 70.0, Minibatch Loss= 0.987145, Training Accuracy= 0.53125








  9%|███████████████▍                                                                                                                                                          | 71/782 [00:14<02:19,  5.11it/s]

Iter 71.0, Minibatch Loss= 1.978658, Training Accuracy= 0.50781








  9%|███████████████▋                                                                                                                                                          | 72/782 [00:15<02:18,  5.13it/s]

Iter 72.0, Minibatch Loss= 2.614125, Training Accuracy= 0.32812








  9%|███████████████▊                                                                                                                                                          | 73/782 [00:15<02:20,  5.06it/s]

Iter 73.0, Minibatch Loss= 1.316586, Training Accuracy= 0.50781








  9%|████████████████                                                                                                                                                          | 74/782 [00:15<02:21,  5.02it/s]

Iter 74.0, Minibatch Loss= 2.068746, Training Accuracy= 0.33594








 10%|████████████████▎                                                                                                                                                         | 75/782 [00:15<02:21,  4.99it/s]

Iter 75.0, Minibatch Loss= 4.492942, Training Accuracy= 0.50781








 10%|████████████████▌                                                                                                                                                         | 76/782 [00:15<02:21,  5.00it/s]

Iter 76.0, Minibatch Loss= 2.911989, Training Accuracy= 0.35156








 10%|████████████████▋                                                                                                                                                         | 77/782 [00:16<02:22,  4.95it/s]

Iter 77.0, Minibatch Loss= 1.939297, Training Accuracy= 0.16406








 10%|████████████████▉                                                                                                                                                         | 78/782 [00:16<02:22,  4.93it/s]

Iter 78.0, Minibatch Loss= 3.614887, Training Accuracy= 0.50781








 10%|█████████████████▏                                                                                                                                                        | 79/782 [00:16<02:22,  4.92it/s]

Iter 79.0, Minibatch Loss= 5.575560, Training Accuracy= 0.32031








 10%|█████████████████▍                                                                                                                                                        | 80/782 [00:16<02:18,  5.06it/s]

Iter 80.0, Minibatch Loss= 8.669307, Training Accuracy= 0.32812








 10%|█████████████████▌                                                                                                                                                        | 81/782 [00:16<02:21,  4.95it/s]

Iter 81.0, Minibatch Loss= 10.019150, Training Accuracy= 0.42188








 10%|█████████████████▊                                                                                                                                                        | 82/782 [00:17<02:18,  5.04it/s]

Iter 82.0, Minibatch Loss= 4.901442, Training Accuracy= 0.35938








 11%|██████████████████                                                                                                                                                        | 83/782 [00:17<02:17,  5.08it/s]

Iter 83.0, Minibatch Loss= 4.871851, Training Accuracy= 0.49219








 11%|██████████████████▎                                                                                                                                                       | 84/782 [00:17<02:19,  5.02it/s]

Iter 84.0, Minibatch Loss= 8.715942, Training Accuracy= 0.35156








 11%|██████████████████▍                                                                                                                                                       | 85/782 [00:17<02:19,  5.00it/s]

Iter 85.0, Minibatch Loss= 10.217403, Training Accuracy= 0.52344








 11%|██████████████████▋                                                                                                                                                       | 86/782 [00:17<02:19,  5.00it/s]

Iter 86.0, Minibatch Loss= 7.089148, Training Accuracy= 0.25781








 11%|██████████████████▉                                                                                                                                                       | 87/782 [00:18<02:16,  5.09it/s]

Iter 87.0, Minibatch Loss= 9.305466, Training Accuracy= 0.57812








 11%|███████████████████▏                                                                                                                                                      | 88/782 [00:18<02:17,  5.04it/s]

Iter 88.0, Minibatch Loss= 9.210927, Training Accuracy= 0.36719








 11%|███████████████████▎                                                                                                                                                      | 89/782 [00:18<02:16,  5.08it/s]

Iter 89.0, Minibatch Loss= 13.085297, Training Accuracy= 0.51562








 12%|███████████████████▌                                                                                                                                                      | 90/782 [00:18<02:16,  5.05it/s]

Iter 90.0, Minibatch Loss= 2.586379, Training Accuracy= 0.62500








 12%|███████████████████▊                                                                                                                                                      | 91/782 [00:18<02:19,  4.97it/s]

Iter 91.0, Minibatch Loss= 1.288366, Training Accuracy= 0.63281








 12%|████████████████████                                                                                                                                                      | 92/782 [00:19<02:17,  5.02it/s]

Iter 92.0, Minibatch Loss= 1.695906, Training Accuracy= 0.64844








 12%|████████████████████▏                                                                                                                                                     | 93/782 [00:19<02:31,  4.54it/s]

Iter 93.0, Minibatch Loss= 3.965014, Training Accuracy= 0.48438








 12%|████████████████████▍                                                                                                                                                     | 94/782 [00:19<02:26,  4.69it/s]

Iter 94.0, Minibatch Loss= 7.860993, Training Accuracy= 0.53125








 12%|████████████████████▋                                                                                                                                                     | 95/782 [00:19<02:25,  4.73it/s]

Iter 95.0, Minibatch Loss= 4.480308, Training Accuracy= 0.42969








 12%|████████████████████▊                                                                                                                                                     | 96/782 [00:19<02:21,  4.85it/s]

Iter 96.0, Minibatch Loss= 5.828094, Training Accuracy= 0.62500








 12%|█████████████████████                                                                                                                                                     | 97/782 [00:20<02:21,  4.83it/s]

Iter 97.0, Minibatch Loss= 6.595821, Training Accuracy= 0.42188








 13%|█████████████████████▎                                                                                                                                                    | 98/782 [00:20<02:19,  4.89it/s]

Iter 98.0, Minibatch Loss= 9.984589, Training Accuracy= 0.53125








 13%|█████████████████████▌                                                                                                                                                    | 99/782 [00:20<02:17,  4.97it/s]

Iter 99.0, Minibatch Loss= 1.514616, Training Accuracy= 0.71094








 13%|█████████████████████▌                                                                                                                                                   | 100/782 [00:20<02:17,  4.98it/s]

Iter 100.0, Minibatch Loss= 1.200507, Training Accuracy= 0.71875








 13%|█████████████████████▊                                                                                                                                                   | 101/782 [00:20<02:16,  4.98it/s]

Iter 101.0, Minibatch Loss= 2.506148, Training Accuracy= 0.59375








 13%|██████████████████████                                                                                                                                                   | 102/782 [00:21<02:19,  4.87it/s]

Iter 102.0, Minibatch Loss= 5.558066, Training Accuracy= 0.56250








 13%|██████████████████████▎                                                                                                                                                  | 103/782 [00:21<02:19,  4.87it/s]

Iter 103.0, Minibatch Loss= 3.264386, Training Accuracy= 0.51562








 13%|██████████████████████▍                                                                                                                                                  | 104/782 [00:21<02:20,  4.82it/s]

Iter 104.0, Minibatch Loss= 4.342063, Training Accuracy= 0.64062








 13%|██████████████████████▋                                                                                                                                                  | 105/782 [00:21<02:18,  4.87it/s]

Iter 105.0, Minibatch Loss= 3.595927, Training Accuracy= 0.49219








 14%|██████████████████████▉                                                                                                                                                  | 106/782 [00:22<02:17,  4.91it/s]

Iter 106.0, Minibatch Loss= 6.629910, Training Accuracy= 0.57031








 14%|███████████████████████                                                                                                                                                  | 107/782 [00:22<02:17,  4.91it/s]

Iter 107.0, Minibatch Loss= 1.532741, Training Accuracy= 0.68750








 14%|███████████████████████▎                                                                                                                                                 | 108/782 [00:22<02:16,  4.95it/s]

Iter 108.0, Minibatch Loss= 1.950306, Training Accuracy= 0.69531








 14%|███████████████████████▌                                                                                                                                                 | 109/782 [00:22<02:15,  4.98it/s]

Iter 109.0, Minibatch Loss= 2.481041, Training Accuracy= 0.60938








 14%|███████████████████████▊                                                                                                                                                 | 110/782 [00:22<02:14,  4.98it/s]

Iter 110.0, Minibatch Loss= 4.891030, Training Accuracy= 0.59375








 14%|███████████████████████▉                                                                                                                                                 | 111/782 [00:23<02:14,  4.98it/s]

Iter 111.0, Minibatch Loss= 1.780274, Training Accuracy= 0.65625








 14%|████████████████████████▏                                                                                                                                                | 112/782 [00:23<02:17,  4.87it/s]

Iter 112.0, Minibatch Loss= 2.496774, Training Accuracy= 0.67188








 14%|████████████████████████▍                                                                                                                                                | 113/782 [00:23<02:13,  5.01it/s]

Iter 113.0, Minibatch Loss= 2.537367, Training Accuracy= 0.62500








 15%|████████████████████████▋                                                                                                                                                | 114/782 [00:23<02:16,  4.88it/s]

Iter 114.0, Minibatch Loss= 4.238488, Training Accuracy= 0.62500








 15%|████████████████████████▊                                                                                                                                                | 115/782 [00:23<02:20,  4.76it/s]

Iter 115.0, Minibatch Loss= 1.508459, Training Accuracy= 0.71094








 15%|█████████████████████████                                                                                                                                                | 116/782 [00:24<02:22,  4.66it/s]

Iter 116.0, Minibatch Loss= 1.613087, Training Accuracy= 0.72656








 15%|█████████████████████████▎                                                                                                                                               | 117/782 [00:24<02:25,  4.58it/s]

Iter 117.0, Minibatch Loss= 1.775164, Training Accuracy= 0.71875








 15%|█████████████████████████▌                                                                                                                                               | 118/782 [00:24<02:28,  4.49it/s]

Iter 118.0, Minibatch Loss= 2.604484, Training Accuracy= 0.71094








 15%|█████████████████████████▋                                                                                                                                               | 119/782 [00:24<02:27,  4.50it/s]

Iter 119.0, Minibatch Loss= 1.530256, Training Accuracy= 0.75000








 15%|█████████████████████████▉                                                                                                                                               | 120/782 [00:25<02:28,  4.46it/s]

Iter 120.0, Minibatch Loss= 1.941673, Training Accuracy= 0.74219








 15%|██████████████████████████▏                                                                                                                                              | 121/782 [00:25<02:28,  4.47it/s]

Iter 121.0, Minibatch Loss= 1.639111, Training Accuracy= 0.73438








 16%|██████████████████████████▎                                                                                                                                              | 122/782 [00:25<02:50,  3.88it/s]

Iter 122.0, Minibatch Loss= 2.187252, Training Accuracy= 0.72656








 16%|██████████████████████████▌                                                                                                                                              | 123/782 [00:25<03:14,  3.39it/s]

Iter 123.0, Minibatch Loss= 1.530077, Training Accuracy= 0.74219








 16%|██████████████████████████▊                                                                                                                                              | 124/782 [00:26<03:02,  3.61it/s]

Iter 124.0, Minibatch Loss= 1.767923, Training Accuracy= 0.75781








 16%|███████████████████████████                                                                                                                                              | 125/782 [00:26<02:52,  3.81it/s]

Iter 125.0, Minibatch Loss= 5.631662, Training Accuracy= 0.39844








 16%|███████████████████████████▏                                                                                                                                             | 126/782 [00:26<02:43,  4.01it/s]

Iter 126.0, Minibatch Loss= 6.004503, Training Accuracy= 0.58594








 16%|███████████████████████████▍                                                                                                                                             | 127/782 [00:26<02:35,  4.20it/s]

Iter 127.0, Minibatch Loss= 5.309714, Training Accuracy= 0.40625








 16%|███████████████████████████▋                                                                                                                                             | 128/782 [00:27<02:36,  4.17it/s]

Iter 128.0, Minibatch Loss= 6.437922, Training Accuracy= 0.57812








 16%|███████████████████████████▉                                                                                                                                             | 129/782 [00:27<02:40,  4.06it/s]

Iter 129.0, Minibatch Loss= 4.327715, Training Accuracy= 0.46094








 17%|████████████████████████████                                                                                                                                             | 130/782 [00:27<02:37,  4.14it/s]

Iter 130.0, Minibatch Loss= 5.556388, Training Accuracy= 0.60938








 17%|████████████████████████████▎                                                                                                                                            | 131/782 [00:27<02:33,  4.25it/s]

Iter 131.0, Minibatch Loss= 5.654981, Training Accuracy= 0.39062








 17%|████████████████████████████▌                                                                                                                                            | 132/782 [00:28<02:36,  4.15it/s]

Iter 132.0, Minibatch Loss= 8.780416, Training Accuracy= 0.59375








 17%|████████████████████████████▋                                                                                                                                            | 133/782 [00:28<02:33,  4.24it/s]

Iter 133.0, Minibatch Loss= 4.299199, Training Accuracy= 0.47656








 17%|████████████████████████████▉                                                                                                                                            | 134/782 [00:28<02:29,  4.33it/s]

Iter 134.0, Minibatch Loss= 4.206705, Training Accuracy= 0.59375








 17%|█████████████████████████████▏                                                                                                                                           | 135/782 [00:28<02:31,  4.28it/s]

Iter 135.0, Minibatch Loss= 2.708838, Training Accuracy= 0.60938








 17%|█████████████████████████████▍                                                                                                                                           | 136/782 [00:29<02:37,  4.10it/s]

Iter 136.0, Minibatch Loss= 1.660221, Training Accuracy= 0.67188








 18%|█████████████████████████████▌                                                                                                                                           | 137/782 [00:29<02:36,  4.13it/s]

Iter 137.0, Minibatch Loss= 1.397290, Training Accuracy= 0.68750








 18%|█████████████████████████████▊                                                                                                                                           | 138/782 [00:29<02:30,  4.27it/s]

Iter 138.0, Minibatch Loss= 1.327807, Training Accuracy= 0.69531








 18%|██████████████████████████████                                                                                                                                           | 139/782 [00:29<02:35,  4.13it/s]

Iter 139.0, Minibatch Loss= 2.060827, Training Accuracy= 0.64062








 18%|██████████████████████████████▎                                                                                                                                          | 140/782 [00:29<02:38,  4.04it/s]

Iter 140.0, Minibatch Loss= 4.130351, Training Accuracy= 0.39844








 18%|██████████████████████████████▍                                                                                                                                          | 141/782 [00:30<02:42,  3.94it/s]

Iter 141.0, Minibatch Loss= 8.627146, Training Accuracy= 0.60156








 18%|██████████████████████████████▋                                                                                                                                          | 142/782 [00:30<02:46,  3.84it/s]

Iter 142.0, Minibatch Loss= 4.195895, Training Accuracy= 0.43750








 18%|██████████████████████████████▉                                                                                                                                          | 143/782 [00:30<02:42,  3.94it/s]

Iter 143.0, Minibatch Loss= 4.080435, Training Accuracy= 0.66406








 18%|███████████████████████████████                                                                                                                                          | 144/782 [00:30<02:36,  4.08it/s]

Iter 144.0, Minibatch Loss= 3.719841, Training Accuracy= 0.49219








 19%|███████████████████████████████▎                                                                                                                                         | 145/782 [00:31<02:37,  4.06it/s]

Iter 145.0, Minibatch Loss= 6.928673, Training Accuracy= 0.60156








 19%|███████████████████████████████▌                                                                                                                                         | 146/782 [00:31<02:41,  3.95it/s]

Iter 146.0, Minibatch Loss= 1.598248, Training Accuracy= 0.63281








 19%|███████████████████████████████▊                                                                                                                                         | 147/782 [00:31<02:47,  3.80it/s]

Iter 147.0, Minibatch Loss= 2.121297, Training Accuracy= 0.70312








 19%|███████████████████████████████▉                                                                                                                                         | 148/782 [00:32<02:48,  3.76it/s]

Iter 148.0, Minibatch Loss= 3.753131, Training Accuracy= 0.47656








 19%|████████████████████████████████▏                                                                                                                                        | 149/782 [00:32<02:44,  3.85it/s]

Iter 149.0, Minibatch Loss= 7.088032, Training Accuracy= 0.62500








 19%|████████████████████████████████▍                                                                                                                                        | 150/782 [00:32<02:38,  3.98it/s]

Iter 150.0, Minibatch Loss= 2.145262, Training Accuracy= 0.56250








 19%|████████████████████████████████▋                                                                                                                                        | 151/782 [00:32<02:34,  4.08it/s]

Iter 151.0, Minibatch Loss= 2.444114, Training Accuracy= 0.72656








 19%|████████████████████████████████▊                                                                                                                                        | 152/782 [00:33<02:33,  4.10it/s]

Iter 152.0, Minibatch Loss= 1.202011, Training Accuracy= 0.78125








 20%|█████████████████████████████████                                                                                                                                        | 153/782 [00:33<02:36,  4.02it/s]

Iter 153.0, Minibatch Loss= 1.044099, Training Accuracy= 0.78125








 20%|█████████████████████████████████▎                                                                                                                                       | 154/782 [00:33<02:28,  4.24it/s]

Iter 154.0, Minibatch Loss= 1.799001, Training Accuracy= 0.61719








 20%|█████████████████████████████████▍                                                                                                                                       | 155/782 [00:33<02:24,  4.34it/s]

Iter 155.0, Minibatch Loss= 4.446413, Training Accuracy= 0.65625








 20%|█████████████████████████████████▋                                                                                                                                       | 156/782 [00:33<02:21,  4.44it/s]

Iter 156.0, Minibatch Loss= 1.722345, Training Accuracy= 0.64062








 20%|█████████████████████████████████▉                                                                                                                                       | 157/782 [00:34<02:19,  4.50it/s]

Iter 157.0, Minibatch Loss= 2.658766, Training Accuracy= 0.64844








 20%|██████████████████████████████████▏                                                                                                                                      | 158/782 [00:34<02:39,  3.90it/s]

Iter 158.0, Minibatch Loss= 3.553458, Training Accuracy= 0.46875








 20%|██████████████████████████████████▎                                                                                                                                      | 159/782 [00:34<02:38,  3.93it/s]

Iter 159.0, Minibatch Loss= 6.843150, Training Accuracy= 0.65625








 20%|██████████████████████████████████▌                                                                                                                                      | 160/782 [00:34<02:33,  4.06it/s]

Iter 160.0, Minibatch Loss= 1.638821, Training Accuracy= 0.63281








 21%|██████████████████████████████████▊                                                                                                                                      | 161/782 [00:35<02:31,  4.10it/s]

Iter 161.0, Minibatch Loss= 1.371671, Training Accuracy= 0.78125








 21%|███████████████████████████████████                                                                                                                                      | 162/782 [00:35<02:29,  4.14it/s]

Iter 162.0, Minibatch Loss= 0.554175, Training Accuracy= 0.87500








 21%|███████████████████████████████████▏                                                                                                                                     | 163/782 [00:35<02:24,  4.27it/s]

Iter 163.0, Minibatch Loss= 0.437776, Training Accuracy= 0.84375








 21%|███████████████████████████████████▍                                                                                                                                     | 164/782 [00:35<02:21,  4.37it/s]

Iter 164.0, Minibatch Loss= 0.468514, Training Accuracy= 0.89062








 21%|███████████████████████████████████▋                                                                                                                                     | 165/782 [00:36<02:18,  4.45it/s]

Iter 165.0, Minibatch Loss= 0.546715, Training Accuracy= 0.81250








 21%|███████████████████████████████████▊                                                                                                                                     | 166/782 [00:36<02:19,  4.42it/s]

Iter 166.0, Minibatch Loss= 1.040968, Training Accuracy= 0.78906








 21%|████████████████████████████████████                                                                                                                                     | 167/782 [00:36<02:18,  4.43it/s]

Iter 167.0, Minibatch Loss= 1.647644, Training Accuracy= 0.64062








 21%|████████████████████████████████████▎                                                                                                                                    | 168/782 [00:36<02:30,  4.09it/s]

Iter 168.0, Minibatch Loss= 4.062246, Training Accuracy= 0.65625








 22%|████████████████████████████████████▌                                                                                                                                    | 169/782 [00:37<02:27,  4.16it/s]

Iter 169.0, Minibatch Loss= 1.253163, Training Accuracy= 0.68750








 22%|████████████████████████████████████▋                                                                                                                                    | 170/782 [00:37<02:26,  4.17it/s]

Iter 170.0, Minibatch Loss= 2.007818, Training Accuracy= 0.71875








 22%|████████████████████████████████████▉                                                                                                                                    | 171/782 [00:37<02:44,  3.71it/s]

Iter 171.0, Minibatch Loss= 2.005596, Training Accuracy= 0.58594








 22%|█████████████████████████████████████▏                                                                                                                                   | 172/782 [00:37<02:32,  3.99it/s]

Iter 172.0, Minibatch Loss= 4.340302, Training Accuracy= 0.65625








 22%|█████████████████████████████████████▍                                                                                                                                   | 173/782 [00:38<02:26,  4.16it/s]

Iter 173.0, Minibatch Loss= 0.779541, Training Accuracy= 0.77344








 22%|█████████████████████████████████████▌                                                                                                                                   | 174/782 [00:38<02:23,  4.24it/s]

Iter 174.0, Minibatch Loss= 0.802009, Training Accuracy= 0.83594








 22%|█████████████████████████████████████▊                                                                                                                                   | 175/782 [00:38<02:45,  3.66it/s]

Iter 175.0, Minibatch Loss= 0.550099, Training Accuracy= 0.83594








 23%|██████████████████████████████████████                                                                                                                                   | 176/782 [00:38<02:48,  3.59it/s]

Iter 176.0, Minibatch Loss= 0.740552, Training Accuracy= 0.84375








 23%|██████████████████████████████████████▎                                                                                                                                  | 177/782 [00:39<02:42,  3.73it/s]

Iter 177.0, Minibatch Loss= 0.689772, Training Accuracy= 0.84375








 23%|██████████████████████████████████████▍                                                                                                                                  | 178/782 [00:39<02:34,  3.90it/s]

Iter 178.0, Minibatch Loss= 1.143686, Training Accuracy= 0.78906








 23%|██████████████████████████████████████▋                                                                                                                                  | 179/782 [00:39<02:29,  4.04it/s]

Iter 179.0, Minibatch Loss= 0.996642, Training Accuracy= 0.76562








 23%|██████████████████████████████████████▉                                                                                                                                  | 180/782 [00:39<02:26,  4.10it/s]

Iter 180.0, Minibatch Loss= 1.970200, Training Accuracy= 0.71875








 23%|███████████████████████████████████████                                                                                                                                  | 181/782 [00:40<02:25,  4.13it/s]

Iter 181.0, Minibatch Loss= 1.190699, Training Accuracy= 0.73438








 23%|███████████████████████████████████████▎                                                                                                                                 | 182/782 [00:40<02:24,  4.16it/s]

Iter 182.0, Minibatch Loss= 2.203819, Training Accuracy= 0.71875








 23%|███████████████████████████████████████▌                                                                                                                                 | 183/782 [00:40<02:20,  4.26it/s]

Iter 183.0, Minibatch Loss= 1.012641, Training Accuracy= 0.75781








 24%|███████████████████████████████████████▊                                                                                                                                 | 184/782 [00:40<02:18,  4.31it/s]

Iter 184.0, Minibatch Loss= 1.528022, Training Accuracy= 0.76562








 24%|███████████████████████████████████████▉                                                                                                                                 | 185/782 [00:41<02:20,  4.24it/s]

Iter 185.0, Minibatch Loss= 0.762972, Training Accuracy= 0.81250








 24%|████████████████████████████████████████▏                                                                                                                                | 186/782 [00:41<02:23,  4.16it/s]

Iter 186.0, Minibatch Loss= 1.020805, Training Accuracy= 0.84375








 24%|████████████████████████████████████████▍                                                                                                                                | 187/782 [00:41<02:22,  4.18it/s]

Iter 187.0, Minibatch Loss= 0.462402, Training Accuracy= 0.90625








 24%|████████████████████████████████████████▋                                                                                                                                | 188/782 [00:41<02:36,  3.81it/s]

Iter 188.0, Minibatch Loss= 0.449776, Training Accuracy= 0.91406








 24%|████████████████████████████████████████▊                                                                                                                                | 189/782 [00:42<02:41,  3.67it/s]

Iter 189.0, Minibatch Loss= 0.267253, Training Accuracy= 0.92188








 24%|█████████████████████████████████████████                                                                                                                                | 190/782 [00:42<02:32,  3.88it/s]

Iter 190.0, Minibatch Loss= 0.218708, Training Accuracy= 0.92969








 24%|█████████████████████████████████████████▎                                                                                                                               | 191/782 [00:42<02:25,  4.06it/s]

Iter 191.0, Minibatch Loss= 0.173848, Training Accuracy= 0.95312








 25%|█████████████████████████████████████████▍                                                                                                                               | 192/782 [00:42<02:21,  4.18it/s]

Iter 192.0, Minibatch Loss= 0.147824, Training Accuracy= 0.94531








 25%|█████████████████████████████████████████▋                                                                                                                               | 193/782 [00:43<02:28,  3.97it/s]

Iter 193.0, Minibatch Loss= 0.130787, Training Accuracy= 0.96875








 25%|█████████████████████████████████████████▉                                                                                                                               | 194/782 [00:43<02:24,  4.08it/s]

Iter 194.0, Minibatch Loss= 0.117324, Training Accuracy= 0.96094








 25%|██████████████████████████████████████████▏                                                                                                                              | 195/782 [00:43<02:19,  4.20it/s]

Iter 195.0, Minibatch Loss= 0.110115, Training Accuracy= 0.96875








 25%|██████████████████████████████████████████▎                                                                                                                              | 196/782 [00:43<02:25,  4.03it/s]

Iter 196.0, Minibatch Loss= 0.105407, Training Accuracy= 0.96875








 25%|██████████████████████████████████████████▌                                                                                                                              | 197/782 [00:44<02:23,  4.06it/s]

Iter 197.0, Minibatch Loss= 0.101137, Training Accuracy= 0.96094








 25%|██████████████████████████████████████████▊                                                                                                                              | 198/782 [00:44<02:19,  4.18it/s]

Iter 198.0, Minibatch Loss= 0.105574, Training Accuracy= 0.96094








 25%|███████████████████████████████████████████                                                                                                                              | 199/782 [00:44<02:16,  4.28it/s]

Iter 199.0, Minibatch Loss= 0.098736, Training Accuracy= 0.96094








 26%|███████████████████████████████████████████▏                                                                                                                             | 200/782 [00:44<02:14,  4.32it/s]

Iter 200.0, Minibatch Loss= 0.112788, Training Accuracy= 0.96094








 26%|███████████████████████████████████████████▍                                                                                                                             | 201/782 [00:44<02:12,  4.38it/s]

Iter 201.0, Minibatch Loss= 0.097940, Training Accuracy= 0.95312








 26%|███████████████████████████████████████████▋                                                                                                                             | 202/782 [00:45<02:11,  4.43it/s]

Iter 202.0, Minibatch Loss= 0.118338, Training Accuracy= 0.96875








 26%|███████████████████████████████████████████▊                                                                                                                             | 203/782 [00:45<02:17,  4.20it/s]

Iter 203.0, Minibatch Loss= 0.093787, Training Accuracy= 0.96094








 26%|████████████████████████████████████████████                                                                                                                             | 204/782 [00:45<02:22,  4.06it/s]

Iter 204.0, Minibatch Loss= 0.114055, Training Accuracy= 0.96875








 26%|████████████████████████████████████████████▎                                                                                                                            | 205/782 [00:45<02:24,  4.00it/s]

Iter 205.0, Minibatch Loss= 0.082423, Training Accuracy= 0.96094








 26%|████████████████████████████████████████████▌                                                                                                                            | 206/782 [00:46<02:20,  4.09it/s]

Iter 206.0, Minibatch Loss= 0.095120, Training Accuracy= 0.98438








 26%|████████████████████████████████████████████▋                                                                                                                            | 207/782 [00:46<02:20,  4.10it/s]

Iter 207.0, Minibatch Loss= 0.062899, Training Accuracy= 0.99219








 27%|████████████████████████████████████████████▉                                                                                                                            | 208/782 [00:46<02:17,  4.18it/s]

Iter 208.0, Minibatch Loss= 0.064719, Training Accuracy= 0.99219








 27%|█████████████████████████████████████████████▏                                                                                                                           | 209/782 [00:46<02:15,  4.24it/s]

Iter 209.0, Minibatch Loss= 0.045042, Training Accuracy= 0.99219








 27%|█████████████████████████████████████████████▍                                                                                                                           | 210/782 [00:47<02:14,  4.24it/s]

Iter 210.0, Minibatch Loss= 0.042921, Training Accuracy= 0.99219








 27%|█████████████████████████████████████████████▌                                                                                                                           | 211/782 [00:47<02:12,  4.30it/s]

Iter 211.0, Minibatch Loss= 0.037363, Training Accuracy= 0.99219








 27%|█████████████████████████████████████████████▊                                                                                                                           | 212/782 [00:47<02:34,  3.69it/s]

Iter 212.0, Minibatch Loss= 0.035768, Training Accuracy= 0.99219








 27%|██████████████████████████████████████████████                                                                                                                           | 213/782 [00:47<02:32,  3.72it/s]

Iter 213.0, Minibatch Loss= 0.033653, Training Accuracy= 1.00000








 27%|██████████████████████████████████████████████▏                                                                                                                          | 214/782 [00:48<02:31,  3.74it/s]

Iter 214.0, Minibatch Loss= 0.032493, Training Accuracy= 0.99219








 27%|██████████████████████████████████████████████▍                                                                                                                          | 215/782 [00:48<02:26,  3.88it/s]

Iter 215.0, Minibatch Loss= 0.031228, Training Accuracy= 1.00000








 28%|██████████████████████████████████████████████▋                                                                                                                          | 216/782 [00:48<02:20,  4.03it/s]

Iter 216.0, Minibatch Loss= 0.030329, Training Accuracy= 0.99219








 28%|██████████████████████████████████████████████▉                                                                                                                          | 217/782 [00:48<02:16,  4.13it/s]

Iter 217.0, Minibatch Loss= 0.029442, Training Accuracy= 1.00000








 28%|███████████████████████████████████████████████                                                                                                                          | 218/782 [00:49<02:13,  4.24it/s]

Iter 218.0, Minibatch Loss= 0.028729, Training Accuracy= 0.99219








 28%|███████████████████████████████████████████████▎                                                                                                                         | 219/782 [00:49<02:20,  4.00it/s]

Iter 219.0, Minibatch Loss= 0.028064, Training Accuracy= 1.00000








 28%|███████████████████████████████████████████████▌                                                                                                                         | 220/782 [00:49<02:17,  4.08it/s]

Iter 220.0, Minibatch Loss= 0.027494, Training Accuracy= 1.00000








 28%|███████████████████████████████████████████████▊                                                                                                                         | 221/782 [00:49<02:13,  4.19it/s]

Iter 221.0, Minibatch Loss= 0.026974, Training Accuracy= 1.00000








 28%|███████████████████████████████████████████████▉                                                                                                                         | 222/782 [00:50<02:11,  4.26it/s]

Iter 222.0, Minibatch Loss= 0.026512, Training Accuracy= 1.00000








 29%|████████████████████████████████████████████████▏                                                                                                                        | 223/782 [00:50<02:08,  4.34it/s]

Iter 223.0, Minibatch Loss= 0.026089, Training Accuracy= 1.00000








 29%|████████████████████████████████████████████████▍                                                                                                                        | 224/782 [00:50<02:07,  4.38it/s]

Iter 224.0, Minibatch Loss= 0.025703, Training Accuracy= 1.00000








 29%|████████████████████████████████████████████████▋                                                                                                                        | 225/782 [00:50<02:06,  4.41it/s]

Iter 225.0, Minibatch Loss= 0.025346, Training Accuracy= 1.00000








 29%|████████████████████████████████████████████████▊                                                                                                                        | 226/782 [00:50<02:05,  4.42it/s]

Iter 226.0, Minibatch Loss= 0.025013, Training Accuracy= 1.00000








 29%|█████████████████████████████████████████████████                                                                                                                        | 227/782 [00:51<02:05,  4.43it/s]

Iter 227.0, Minibatch Loss= 0.024702, Training Accuracy= 1.00000








 29%|█████████████████████████████████████████████████▎                                                                                                                       | 228/782 [00:51<02:07,  4.35it/s]

Iter 228.0, Minibatch Loss= 0.024409, Training Accuracy= 1.00000








 29%|█████████████████████████████████████████████████▍                                                                                                                       | 229/782 [00:51<02:06,  4.37it/s]

Iter 229.0, Minibatch Loss= 0.024132, Training Accuracy= 1.00000








 29%|█████████████████████████████████████████████████▋                                                                                                                       | 230/782 [00:51<02:05,  4.39it/s]

Iter 230.0, Minibatch Loss= 0.023869, Training Accuracy= 1.00000








 30%|█████████████████████████████████████████████████▉                                                                                                                       | 231/782 [00:52<02:05,  4.40it/s]

Iter 231.0, Minibatch Loss= 0.023618, Training Accuracy= 1.00000








 30%|██████████████████████████████████████████████████▏                                                                                                                      | 232/782 [00:52<02:04,  4.41it/s]

Iter 232.0, Minibatch Loss= 0.023380, Training Accuracy= 1.00000








 30%|██████████████████████████████████████████████████▎                                                                                                                      | 233/782 [00:52<02:05,  4.37it/s]

Iter 233.0, Minibatch Loss= 0.023152, Training Accuracy= 1.00000








 30%|██████████████████████████████████████████████████▌                                                                                                                      | 234/782 [00:52<02:05,  4.38it/s]

Iter 234.0, Minibatch Loss= 0.022933, Training Accuracy= 1.00000








 30%|██████████████████████████████████████████████████▊                                                                                                                      | 235/782 [00:53<02:06,  4.33it/s]

Iter 235.0, Minibatch Loss= 0.022724, Training Accuracy= 1.00000








 30%|███████████████████████████████████████████████████                                                                                                                      | 236/782 [00:53<02:07,  4.27it/s]

Iter 236.0, Minibatch Loss= 0.022522, Training Accuracy= 1.00000








 30%|███████████████████████████████████████████████████▏                                                                                                                     | 237/782 [00:53<02:16,  3.99it/s]

Iter 237.0, Minibatch Loss= 0.022328, Training Accuracy= 1.00000








 30%|███████████████████████████████████████████████████▍                                                                                                                     | 238/782 [00:53<02:25,  3.74it/s]

Iter 238.0, Minibatch Loss= 0.022142, Training Accuracy= 1.00000








 31%|███████████████████████████████████████████████████▋                                                                                                                     | 239/782 [00:54<02:26,  3.71it/s]

Iter 239.0, Minibatch Loss= 0.021962, Training Accuracy= 1.00000








 31%|███████████████████████████████████████████████████▊                                                                                                                     | 240/782 [00:54<02:19,  3.89it/s]

Iter 240.0, Minibatch Loss= 0.021788, Training Accuracy= 1.00000








 31%|████████████████████████████████████████████████████                                                                                                                     | 241/782 [00:54<02:15,  4.00it/s]

Iter 241.0, Minibatch Loss= 0.021620, Training Accuracy= 1.00000








 31%|████████████████████████████████████████████████████▎                                                                                                                    | 242/782 [00:54<02:13,  4.06it/s]

Iter 242.0, Minibatch Loss= 0.021457, Training Accuracy= 1.00000








 31%|████████████████████████████████████████████████████▌                                                                                                                    | 243/782 [00:55<02:09,  4.17it/s]

Iter 243.0, Minibatch Loss= 0.021299, Training Accuracy= 1.00000








 31%|████████████████████████████████████████████████████▋                                                                                                                    | 244/782 [00:55<02:07,  4.22it/s]

Iter 244.0, Minibatch Loss= 0.021146, Training Accuracy= 1.00000








 31%|████████████████████████████████████████████████████▉                                                                                                                    | 245/782 [00:55<02:06,  4.26it/s]

Iter 245.0, Minibatch Loss= 0.020998, Training Accuracy= 1.00000








 31%|█████████████████████████████████████████████████████▏                                                                                                                   | 246/782 [00:55<02:05,  4.29it/s]

Iter 246.0, Minibatch Loss= 0.020854, Training Accuracy= 1.00000








 32%|█████████████████████████████████████████████████████▍                                                                                                                   | 247/782 [00:55<02:04,  4.29it/s]

Iter 247.0, Minibatch Loss= 0.020714, Training Accuracy= 1.00000








 32%|█████████████████████████████████████████████████████▌                                                                                                                   | 248/782 [00:56<02:04,  4.29it/s]

Iter 248.0, Minibatch Loss= 0.020578, Training Accuracy= 1.00000








 32%|█████████████████████████████████████████████████████▊                                                                                                                   | 249/782 [00:56<02:05,  4.24it/s]

Iter 249.0, Minibatch Loss= 0.020446, Training Accuracy= 1.00000








 32%|██████████████████████████████████████████████████████                                                                                                                   | 250/782 [00:56<02:04,  4.27it/s]

Iter 250.0, Minibatch Loss= 4.672013, Training Accuracy= 0.41406








 32%|██████████████████████████████████████████████████████▏                                                                                                                  | 251/782 [00:56<02:03,  4.29it/s]

Iter 251.0, Minibatch Loss= 4.718026, Training Accuracy= 0.52344








 32%|██████████████████████████████████████████████████████▍                                                                                                                  | 252/782 [00:57<02:02,  4.33it/s]

Iter 252.0, Minibatch Loss= 5.955721, Training Accuracy= 0.36719








 32%|██████████████████████████████████████████████████████▋                                                                                                                  | 253/782 [00:57<02:01,  4.36it/s]

Iter 253.0, Minibatch Loss= 8.634145, Training Accuracy= 0.56250








 32%|██████████████████████████████████████████████████████▉                                                                                                                  | 254/782 [00:57<02:04,  4.23it/s]

Iter 254.0, Minibatch Loss= 4.463116, Training Accuracy= 0.36719








 33%|███████████████████████████████████████████████████████                                                                                                                  | 255/782 [00:57<02:04,  4.22it/s]

Iter 255.0, Minibatch Loss= 5.919860, Training Accuracy= 0.60156








 33%|███████████████████████████████████████████████████████▎                                                                                                                 | 256/782 [00:58<02:06,  4.16it/s]

Iter 256.0, Minibatch Loss= 7.092106, Training Accuracy= 0.38281








 33%|███████████████████████████████████████████████████████▌                                                                                                                 | 257/782 [00:58<02:06,  4.16it/s]

Iter 257.0, Minibatch Loss= 9.878460, Training Accuracy= 0.58594








 33%|███████████████████████████████████████████████████████▊                                                                                                                 | 258/782 [00:58<02:03,  4.23it/s]

Iter 258.0, Minibatch Loss= 3.533274, Training Accuracy= 0.50000








 33%|███████████████████████████████████████████████████████▉                                                                                                                 | 259/782 [00:58<02:02,  4.26it/s]

Iter 259.0, Minibatch Loss= 3.754363, Training Accuracy= 0.60938








 33%|████████████████████████████████████████████████████████▏                                                                                                                | 260/782 [00:59<02:03,  4.23it/s]

Iter 260.0, Minibatch Loss= 3.552833, Training Accuracy= 0.53125








 33%|████████████████████████████████████████████████████████▍                                                                                                                | 261/782 [00:59<02:05,  4.16it/s]

Iter 261.0, Minibatch Loss= 6.140031, Training Accuracy= 0.60938








 34%|████████████████████████████████████████████████████████▌                                                                                                                | 262/782 [00:59<02:06,  4.11it/s]

Iter 262.0, Minibatch Loss= 4.066086, Training Accuracy= 0.42188








 34%|████████████████████████████████████████████████████████▊                                                                                                                | 263/782 [00:59<02:13,  3.89it/s]

Iter 263.0, Minibatch Loss= 6.075260, Training Accuracy= 0.60938








 34%|█████████████████████████████████████████████████████████                                                                                                                | 264/782 [01:00<02:09,  3.99it/s]

Iter 264.0, Minibatch Loss= 4.949451, Training Accuracy= 0.45312








 34%|█████████████████████████████████████████████████████████▎                                                                                                               | 265/782 [01:00<02:06,  4.09it/s]

Iter 265.0, Minibatch Loss= 8.032772, Training Accuracy= 0.61719








 34%|█████████████████████████████████████████████████████████▍                                                                                                               | 266/782 [01:00<02:08,  4.01it/s]

Iter 266.0, Minibatch Loss= 3.405051, Training Accuracy= 0.49219








 34%|█████████████████████████████████████████████████████████▋                                                                                                               | 267/782 [01:00<02:14,  3.84it/s]

Iter 267.0, Minibatch Loss= 3.727220, Training Accuracy= 0.69531








 34%|█████████████████████████████████████████████████████████▉                                                                                                               | 268/782 [01:01<02:16,  3.77it/s]

Iter 268.0, Minibatch Loss= 3.496258, Training Accuracy= 0.53906








 34%|██████████████████████████████████████████████████████████▏                                                                                                              | 269/782 [01:01<02:19,  3.68it/s]

Iter 269.0, Minibatch Loss= 5.835721, Training Accuracy= 0.61719








 35%|██████████████████████████████████████████████████████████▎                                                                                                              | 270/782 [01:01<02:18,  3.70it/s]

Iter 270.0, Minibatch Loss= 2.882422, Training Accuracy= 0.50781








 35%|██████████████████████████████████████████████████████████▌                                                                                                              | 271/782 [01:01<02:17,  3.73it/s]

Iter 271.0, Minibatch Loss= 4.150528, Training Accuracy= 0.64844








 35%|██████████████████████████████████████████████████████████▊                                                                                                              | 272/782 [01:02<02:14,  3.79it/s]

Iter 272.0, Minibatch Loss= 3.554344, Training Accuracy= 0.49219








 35%|██████████████████████████████████████████████████████████▉                                                                                                              | 273/782 [01:02<02:10,  3.89it/s]

Iter 273.0, Minibatch Loss= 5.524621, Training Accuracy= 0.63281








 35%|███████████████████████████████████████████████████████████▏                                                                                                             | 274/782 [01:02<02:09,  3.93it/s]

Iter 274.0, Minibatch Loss= 2.536262, Training Accuracy= 0.57812








 35%|███████████████████████████████████████████████████████████▍                                                                                                             | 275/782 [01:02<02:05,  4.05it/s]

Iter 275.0, Minibatch Loss= 2.580533, Training Accuracy= 0.72656








 35%|███████████████████████████████████████████████████████████▋                                                                                                             | 276/782 [01:03<02:03,  4.11it/s]

Iter 276.0, Minibatch Loss= 3.019049, Training Accuracy= 0.54688








 35%|███████████████████████████████████████████████████████████▊                                                                                                             | 277/782 [01:03<02:01,  4.15it/s]

Iter 277.0, Minibatch Loss= 5.401067, Training Accuracy= 0.64062








 36%|████████████████████████████████████████████████████████████                                                                                                             | 278/782 [01:03<02:00,  4.19it/s]

Iter 278.0, Minibatch Loss= 2.545800, Training Accuracy= 0.56250








 36%|████████████████████████████████████████████████████████████▎                                                                                                            | 279/782 [01:03<01:59,  4.20it/s]

Iter 279.0, Minibatch Loss= 2.778364, Training Accuracy= 0.74219








 36%|████████████████████████████████████████████████████████████▌                                                                                                            | 280/782 [01:04<01:58,  4.24it/s]

Iter 280.0, Minibatch Loss= 2.430897, Training Accuracy= 0.61719








 36%|████████████████████████████████████████████████████████████▋                                                                                                            | 281/782 [01:04<01:58,  4.24it/s]

Iter 281.0, Minibatch Loss= 4.121184, Training Accuracy= 0.64062








 36%|████████████████████████████████████████████████████████████▉                                                                                                            | 282/782 [01:04<01:56,  4.27it/s]

Iter 282.0, Minibatch Loss= 2.461725, Training Accuracy= 0.55469








 36%|█████████████████████████████████████████████████████████████▏                                                                                                           | 283/782 [01:04<01:56,  4.30it/s]

Iter 283.0, Minibatch Loss= 3.173403, Training Accuracy= 0.66406








 36%|█████████████████████████████████████████████████████████████▍                                                                                                           | 284/782 [01:05<01:55,  4.32it/s]

Iter 284.0, Minibatch Loss= 2.733248, Training Accuracy= 0.58594








 36%|█████████████████████████████████████████████████████████████▌                                                                                                           | 285/782 [01:05<02:06,  3.94it/s]

Iter 285.0, Minibatch Loss= 4.555428, Training Accuracy= 0.65625








 37%|█████████████████████████████████████████████████████████████▊                                                                                                           | 286/782 [01:05<02:29,  3.31it/s]

Iter 286.0, Minibatch Loss= 1.751171, Training Accuracy= 0.64844








 37%|██████████████████████████████████████████████████████████████                                                                                                           | 287/782 [01:06<02:45,  3.00it/s]

Iter 287.0, Minibatch Loss= 1.681092, Training Accuracy= 0.78906








 37%|██████████████████████████████████████████████████████████████▏                                                                                                          | 288/782 [01:06<02:44,  3.00it/s]

Iter 288.0, Minibatch Loss= 1.370308, Training Accuracy= 0.70312








 37%|██████████████████████████████████████████████████████████████▍                                                                                                          | 289/782 [01:06<02:37,  3.13it/s]

Iter 289.0, Minibatch Loss= 1.983709, Training Accuracy= 0.78125








 37%|██████████████████████████████████████████████████████████████▋                                                                                                          | 290/782 [01:07<02:28,  3.31it/s]

Iter 290.0, Minibatch Loss= 1.127559, Training Accuracy= 0.71875








 37%|██████████████████████████████████████████████████████████████▉                                                                                                          | 291/782 [01:07<02:19,  3.52it/s]

Iter 291.0, Minibatch Loss= 1.498461, Training Accuracy= 0.79688








 37%|███████████████████████████████████████████████████████████████                                                                                                          | 292/782 [01:07<02:11,  3.73it/s]

Iter 292.0, Minibatch Loss= 1.211941, Training Accuracy= 0.71094








 37%|███████████████████████████████████████████████████████████████▎                                                                                                         | 293/782 [01:07<02:07,  3.85it/s]

Iter 293.0, Minibatch Loss= 1.992086, Training Accuracy= 0.75781








 38%|███████████████████████████████████████████████████████████████▌                                                                                                         | 294/782 [01:08<02:05,  3.88it/s]

Iter 294.0, Minibatch Loss= 1.200069, Training Accuracy= 0.69531








 38%|███████████████████████████████████████████████████████████████▊                                                                                                         | 295/782 [01:08<02:04,  3.91it/s]

Iter 295.0, Minibatch Loss= 1.896240, Training Accuracy= 0.76562








 38%|███████████████████████████████████████████████████████████████▉                                                                                                         | 296/782 [01:08<02:00,  4.03it/s]

Iter 296.0, Minibatch Loss= 1.279732, Training Accuracy= 0.68750








 38%|████████████████████████████████████████████████████████████████▏                                                                                                        | 297/782 [01:08<01:58,  4.09it/s]

Iter 297.0, Minibatch Loss= 2.134938, Training Accuracy= 0.72656








 38%|████████████████████████████████████████████████████████████████▍                                                                                                        | 298/782 [01:08<01:56,  4.15it/s]

Iter 298.0, Minibatch Loss= 1.458094, Training Accuracy= 0.64844








 38%|████████████████████████████████████████████████████████████████▌                                                                                                        | 299/782 [01:09<01:55,  4.17it/s]

Iter 299.0, Minibatch Loss= 2.531239, Training Accuracy= 0.67188








 38%|████████████████████████████████████████████████████████████████▊                                                                                                        | 300/782 [01:09<01:54,  4.20it/s]

Iter 300.0, Minibatch Loss= 1.764048, Training Accuracy= 0.64062








 38%|█████████████████████████████████████████████████████████████████                                                                                                        | 301/782 [01:09<01:55,  4.18it/s]

Iter 301.0, Minibatch Loss= 3.036512, Training Accuracy= 0.64844








 39%|█████████████████████████████████████████████████████████████████▎                                                                                                       | 302/782 [01:09<01:53,  4.23it/s]

Iter 302.0, Minibatch Loss= 1.711203, Training Accuracy= 0.65625








 39%|█████████████████████████████████████████████████████████████████▍                                                                                                       | 303/782 [01:10<01:53,  4.23it/s]

Iter 303.0, Minibatch Loss= 2.389517, Training Accuracy= 0.73438








 39%|█████████████████████████████████████████████████████████████████▋                                                                                                       | 304/782 [01:10<01:52,  4.25it/s]

Iter 304.0, Minibatch Loss= 1.055393, Training Accuracy= 0.75781








 39%|█████████████████████████████████████████████████████████████████▉                                                                                                       | 305/782 [01:10<01:51,  4.26it/s]

Iter 305.0, Minibatch Loss= 0.924798, Training Accuracy= 0.85156








 39%|██████████████████████████████████████████████████████████████████▏                                                                                                      | 306/782 [01:10<01:52,  4.25it/s]

Iter 306.0, Minibatch Loss= 0.669577, Training Accuracy= 0.82812








 39%|██████████████████████████████████████████████████████████████████▎                                                                                                      | 307/782 [01:11<01:50,  4.28it/s]

Iter 307.0, Minibatch Loss= 0.726433, Training Accuracy= 0.82812








 39%|██████████████████████████████████████████████████████████████████▌                                                                                                      | 308/782 [01:11<01:51,  4.26it/s]

Iter 308.0, Minibatch Loss= 0.548101, Training Accuracy= 0.82812








 40%|██████████████████████████████████████████████████████████████████▊                                                                                                      | 309/782 [01:11<01:50,  4.26it/s]

Iter 309.0, Minibatch Loss= 0.684725, Training Accuracy= 0.83594








 40%|██████████████████████████████████████████████████████████████████▉                                                                                                      | 310/782 [01:11<01:50,  4.27it/s]

Iter 310.0, Minibatch Loss= 0.504345, Training Accuracy= 0.85156








 40%|███████████████████████████████████████████████████████████████████▏                                                                                                     | 311/782 [01:12<01:49,  4.29it/s]

Iter 311.0, Minibatch Loss= 0.719051, Training Accuracy= 0.83594








 40%|███████████████████████████████████████████████████████████████████▍                                                                                                     | 312/782 [01:12<01:49,  4.29it/s]

Iter 312.0, Minibatch Loss= 0.501652, Training Accuracy= 0.84375








 40%|███████████████████████████████████████████████████████████████████▋                                                                                                     | 313/782 [01:12<01:48,  4.31it/s]

Iter 313.0, Minibatch Loss= 0.771749, Training Accuracy= 0.84375








 40%|███████████████████████████████████████████████████████████████████▊                                                                                                     | 314/782 [01:12<01:48,  4.31it/s]

Iter 314.0, Minibatch Loss= 0.514445, Training Accuracy= 0.83594








 40%|████████████████████████████████████████████████████████████████████                                                                                                     | 315/782 [01:12<01:48,  4.31it/s]

Iter 315.0, Minibatch Loss= 0.850251, Training Accuracy= 0.83594








 40%|████████████████████████████████████████████████████████████████████▎                                                                                                    | 316/782 [01:13<01:48,  4.31it/s]

Iter 316.0, Minibatch Loss= 0.537646, Training Accuracy= 0.84375








 41%|████████████████████████████████████████████████████████████████████▌                                                                                                    | 317/782 [01:13<01:47,  4.31it/s]

Iter 317.0, Minibatch Loss= 0.974966, Training Accuracy= 0.82031








 41%|████████████████████████████████████████████████████████████████████▋                                                                                                    | 318/782 [01:13<01:47,  4.32it/s]

Iter 318.0, Minibatch Loss= 0.590994, Training Accuracy= 0.83594








 41%|████████████████████████████████████████████████████████████████████▉                                                                                                    | 319/782 [01:13<01:47,  4.32it/s]

Iter 319.0, Minibatch Loss= 1.198792, Training Accuracy= 0.78906








 41%|█████████████████████████████████████████████████████████████████████▏                                                                                                   | 320/782 [01:14<01:46,  4.34it/s]

Iter 320.0, Minibatch Loss= 0.678314, Training Accuracy= 0.80469








 41%|█████████████████████████████████████████████████████████████████████▎                                                                                                   | 321/782 [01:14<01:46,  4.34it/s]

Iter 321.0, Minibatch Loss= 1.474754, Training Accuracy= 0.76562








 41%|█████████████████████████████████████████████████████████████████████▌                                                                                                   | 322/782 [01:14<01:45,  4.34it/s]

Iter 322.0, Minibatch Loss= 0.756418, Training Accuracy= 0.78125








 41%|█████████████████████████████████████████████████████████████████████▊                                                                                                   | 323/782 [01:14<01:46,  4.29it/s]

Iter 323.0, Minibatch Loss= 1.525316, Training Accuracy= 0.72656








 41%|██████████████████████████████████████████████████████████████████████                                                                                                   | 324/782 [01:15<01:45,  4.33it/s]

Iter 324.0, Minibatch Loss= 1.002104, Training Accuracy= 0.67969








 42%|██████████████████████████████████████████████████████████████████████▏                                                                                                  | 325/782 [01:15<01:46,  4.30it/s]

Iter 325.0, Minibatch Loss= 2.027103, Training Accuracy= 0.70312








 42%|██████████████████████████████████████████████████████████████████████▍                                                                                                  | 326/782 [01:15<01:45,  4.30it/s]

Iter 326.0, Minibatch Loss= 1.335000, Training Accuracy= 0.62500








 42%|██████████████████████████████████████████████████████████████████████▋                                                                                                  | 327/782 [01:15<01:49,  4.16it/s]

Iter 327.0, Minibatch Loss= 2.936006, Training Accuracy= 0.63281








 42%|██████████████████████████████████████████████████████████████████████▉                                                                                                  | 328/782 [01:15<01:51,  4.06it/s]

Iter 328.0, Minibatch Loss= 1.399197, Training Accuracy= 0.64062








 42%|███████████████████████████████████████████████████████████████████████                                                                                                  | 329/782 [01:16<01:57,  3.86it/s]

Iter 329.0, Minibatch Loss= 2.050011, Training Accuracy= 0.72656








 42%|███████████████████████████████████████████████████████████████████████▎                                                                                                 | 330/782 [01:16<02:03,  3.65it/s]

Iter 330.0, Minibatch Loss= 0.819035, Training Accuracy= 0.77344








 42%|███████████████████████████████████████████████████████████████████████▌                                                                                                 | 331/782 [01:16<02:07,  3.53it/s]

Iter 331.0, Minibatch Loss= 1.123899, Training Accuracy= 0.81250








 42%|███████████████████████████████████████████████████████████████████████▋                                                                                                 | 332/782 [01:17<02:04,  3.62it/s]

Iter 332.0, Minibatch Loss= 0.332657, Training Accuracy= 0.89844








 43%|███████████████████████████████████████████████████████████████████████▉                                                                                                 | 333/782 [01:17<01:58,  3.79it/s]

Iter 333.0, Minibatch Loss= 0.297191, Training Accuracy= 0.89844








 43%|████████████████████████████████████████████████████████████████████████▏                                                                                                | 334/782 [01:17<01:54,  3.92it/s]

Iter 334.0, Minibatch Loss= 0.228025, Training Accuracy= 0.91406








 43%|████████████████████████████████████████████████████████████████████████▍                                                                                                | 335/782 [01:17<01:50,  4.04it/s]

Iter 335.0, Minibatch Loss= 0.221580, Training Accuracy= 0.92969








 43%|████████████████████████████████████████████████████████████████████████▌                                                                                                | 336/782 [01:18<01:48,  4.11it/s]

Iter 336.0, Minibatch Loss= 0.189325, Training Accuracy= 0.91406








 43%|████████████████████████████████████████████████████████████████████████▊                                                                                                | 337/782 [01:18<01:46,  4.18it/s]

Iter 337.0, Minibatch Loss= 0.190296, Training Accuracy= 0.94531








 43%|█████████████████████████████████████████████████████████████████████████                                                                                                | 338/782 [01:18<01:44,  4.23it/s]

Iter 338.0, Minibatch Loss= 0.161718, Training Accuracy= 0.92188








 43%|█████████████████████████████████████████████████████████████████████████▎                                                                                               | 339/782 [01:18<01:43,  4.27it/s]

Iter 339.0, Minibatch Loss= 0.172348, Training Accuracy= 0.95312








 43%|█████████████████████████████████████████████████████████████████████████▍                                                                                               | 340/782 [01:19<01:44,  4.24it/s]

Iter 340.0, Minibatch Loss= 0.152252, Training Accuracy= 0.94531








 44%|█████████████████████████████████████████████████████████████████████████▋                                                                                               | 341/782 [01:19<01:44,  4.24it/s]

Iter 341.0, Minibatch Loss= 0.187835, Training Accuracy= 0.94531








 44%|█████████████████████████████████████████████████████████████████████████▉                                                                                               | 342/782 [01:19<01:43,  4.26it/s]

Iter 342.0, Minibatch Loss= 0.175121, Training Accuracy= 0.94531








 44%|██████████████████████████████████████████████████████████████████████████▏                                                                                              | 343/782 [01:19<01:43,  4.25it/s]

Iter 343.0, Minibatch Loss= 0.248565, Training Accuracy= 0.92188








 44%|██████████████████████████████████████████████████████████████████████████▎                                                                                              | 344/782 [01:19<01:42,  4.27it/s]

Iter 344.0, Minibatch Loss= 0.187076, Training Accuracy= 0.93750








 44%|██████████████████████████████████████████████████████████████████████████▌                                                                                              | 345/782 [01:20<01:42,  4.26it/s]

Iter 345.0, Minibatch Loss= 0.275547, Training Accuracy= 0.91406








 44%|██████████████████████████████████████████████████████████████████████████▊                                                                                              | 346/782 [01:20<01:42,  4.27it/s]

Iter 346.0, Minibatch Loss= 0.175233, Training Accuracy= 0.93750








 44%|██████████████████████████████████████████████████████████████████████████▉                                                                                              | 347/782 [01:20<01:41,  4.28it/s]

Iter 347.0, Minibatch Loss= 0.252991, Training Accuracy= 0.92188








 45%|███████████████████████████████████████████████████████████████████████████▏                                                                                             | 348/782 [01:20<01:41,  4.28it/s]

Iter 348.0, Minibatch Loss= 0.157354, Training Accuracy= 0.93750








 45%|███████████████████████████████████████████████████████████████████████████▍                                                                                             | 349/782 [01:21<01:41,  4.28it/s]

Iter 349.0, Minibatch Loss= 0.219798, Training Accuracy= 0.92188








 45%|███████████████████████████████████████████████████████████████████████████▋                                                                                             | 350/782 [01:21<01:42,  4.22it/s]

Iter 350.0, Minibatch Loss= 0.137753, Training Accuracy= 0.96094








 45%|███████████████████████████████████████████████████████████████████████████▊                                                                                             | 351/782 [01:21<01:41,  4.24it/s]

Iter 351.0, Minibatch Loss= 0.184107, Training Accuracy= 0.93750








 45%|████████████████████████████████████████████████████████████████████████████                                                                                             | 352/782 [01:21<01:40,  4.27it/s]

Iter 352.0, Minibatch Loss= 0.118321, Training Accuracy= 0.96094








 45%|████████████████████████████████████████████████████████████████████████████▎                                                                                            | 353/782 [01:22<01:40,  4.27it/s]

Iter 353.0, Minibatch Loss= 0.149891, Training Accuracy= 0.95312








 45%|████████████████████████████████████████████████████████████████████████████▌                                                                                            | 354/782 [01:22<01:40,  4.28it/s]

Iter 354.0, Minibatch Loss= 0.100919, Training Accuracy= 0.97656








 45%|████████████████████████████████████████████████████████████████████████████▋                                                                                            | 355/782 [01:22<01:39,  4.29it/s]

Iter 355.0, Minibatch Loss= 0.120802, Training Accuracy= 0.96094








 46%|████████████████████████████████████████████████████████████████████████████▉                                                                                            | 356/782 [01:22<01:39,  4.30it/s]

Iter 356.0, Minibatch Loss= 0.087106, Training Accuracy= 0.97656








 46%|█████████████████████████████████████████████████████████████████████████████▏                                                                                           | 357/782 [01:22<01:38,  4.32it/s]

Iter 357.0, Minibatch Loss= 0.099269, Training Accuracy= 0.96875








 46%|█████████████████████████████████████████████████████████████████████████████▎                                                                                           | 358/782 [01:23<01:38,  4.32it/s]

Iter 358.0, Minibatch Loss= 0.076591, Training Accuracy= 0.98438








 46%|█████████████████████████████████████████████████████████████████████████████▌                                                                                           | 359/782 [01:23<01:37,  4.33it/s]

Iter 359.0, Minibatch Loss= 0.083854, Training Accuracy= 0.96875








 46%|█████████████████████████████████████████████████████████████████████████████▊                                                                                           | 360/782 [01:23<01:37,  4.32it/s]

Iter 360.0, Minibatch Loss= 0.068162, Training Accuracy= 0.98438








 46%|██████████████████████████████████████████████████████████████████████████████                                                                                           | 361/782 [01:23<01:37,  4.33it/s]

Iter 361.0, Minibatch Loss= 0.071938, Training Accuracy= 0.96875








 46%|██████████████████████████████████████████████████████████████████████████████▏                                                                                          | 362/782 [01:24<01:37,  4.32it/s]

Iter 362.0, Minibatch Loss= 0.060929, Training Accuracy= 1.00000








 46%|██████████████████████████████████████████████████████████████████████████████▍                                                                                          | 363/782 [01:24<01:37,  4.32it/s]

Iter 363.0, Minibatch Loss= 0.062070, Training Accuracy= 0.97656








 47%|██████████████████████████████████████████████████████████████████████████████▋                                                                                          | 364/782 [01:24<01:37,  4.28it/s]

Iter 364.0, Minibatch Loss= 0.054466, Training Accuracy= 1.00000








 47%|██████████████████████████████████████████████████████████████████████████████▉                                                                                          | 365/782 [01:24<01:37,  4.30it/s]

Iter 365.0, Minibatch Loss= 0.053803, Training Accuracy= 0.98438








 47%|███████████████████████████████████████████████████████████████████████████████                                                                                          | 366/782 [01:25<01:36,  4.29it/s]

Iter 366.0, Minibatch Loss= 0.048741, Training Accuracy= 1.00000








 47%|███████████████████████████████████████████████████████████████████████████████▎                                                                                         | 367/782 [01:25<01:36,  4.31it/s]

Iter 367.0, Minibatch Loss= 0.047207, Training Accuracy= 0.99219








 47%|███████████████████████████████████████████████████████████████████████████████▌                                                                                         | 368/782 [01:25<01:35,  4.31it/s]

Iter 368.0, Minibatch Loss= 0.044017, Training Accuracy= 1.00000








 47%|███████████████████████████████████████████████████████████████████████████████▋                                                                                         | 369/782 [01:25<01:36,  4.29it/s]

Iter 369.0, Minibatch Loss= 0.042451, Training Accuracy= 1.00000








 47%|███████████████████████████████████████████████████████████████████████████████▉                                                                                         | 370/782 [01:26<01:35,  4.30it/s]

Iter 370.0, Minibatch Loss= 0.040565, Training Accuracy= 1.00000








 47%|████████████████████████████████████████████████████████████████████████████████▏                                                                                        | 371/782 [01:26<01:36,  4.27it/s]

Iter 371.0, Minibatch Loss= 0.039387, Training Accuracy= 1.00000








 48%|████████████████████████████████████████████████████████████████████████████████▍                                                                                        | 372/782 [01:26<01:37,  4.23it/s]

Iter 372.0, Minibatch Loss= 0.038297, Training Accuracy= 1.00000








 48%|████████████████████████████████████████████████████████████████████████████████▌                                                                                        | 373/782 [01:26<01:36,  4.23it/s]

Iter 373.0, Minibatch Loss= 0.037504, Training Accuracy= 1.00000








 48%|████████████████████████████████████████████████████████████████████████████████▊                                                                                        | 374/782 [01:26<01:35,  4.26it/s]

Iter 374.0, Minibatch Loss= 0.036820, Training Accuracy= 1.00000








 48%|█████████████████████████████████████████████████████████████████████████████████                                                                                        | 375/782 [01:27<01:36,  4.23it/s]

Iter 375.0, Minibatch Loss= 3.800735, Training Accuracy= 0.49219








 48%|█████████████████████████████████████████████████████████████████████████████████▎                                                                                       | 376/782 [01:27<01:36,  4.21it/s]

Iter 376.0, Minibatch Loss= 3.307968, Training Accuracy= 0.53906








 48%|█████████████████████████████████████████████████████████████████████████████████▍                                                                                       | 377/782 [01:27<01:37,  4.16it/s]

Iter 377.0, Minibatch Loss= 3.063782, Training Accuracy= 0.48438








 48%|█████████████████████████████████████████████████████████████████████████████████▋                                                                                       | 378/782 [01:27<01:36,  4.20it/s]

Iter 378.0, Minibatch Loss= 3.621609, Training Accuracy= 0.57031








 48%|█████████████████████████████████████████████████████████████████████████████████▉                                                                                       | 379/782 [01:28<01:35,  4.20it/s]

Iter 379.0, Minibatch Loss= 5.443666, Training Accuracy= 0.38281








 49%|██████████████████████████████████████████████████████████████████████████████████                                                                                       | 380/782 [01:28<01:35,  4.22it/s]

Iter 380.0, Minibatch Loss= 7.353657, Training Accuracy= 0.55469








 49%|██████████████████████████████████████████████████████████████████████████████████▎                                                                                      | 381/782 [01:28<01:34,  4.25it/s]

Iter 381.0, Minibatch Loss= 4.258343, Training Accuracy= 0.46094








 49%|██████████████████████████████████████████████████████████████████████████████████▌                                                                                      | 382/782 [01:28<01:33,  4.26it/s]

Iter 382.0, Minibatch Loss= 5.814636, Training Accuracy= 0.57812








 49%|██████████████████████████████████████████████████████████████████████████████████▊                                                                                      | 383/782 [01:29<01:33,  4.25it/s]

Iter 383.0, Minibatch Loss= 4.634336, Training Accuracy= 0.43750








 49%|██████████████████████████████████████████████████████████████████████████████████▉                                                                                      | 384/782 [01:29<01:33,  4.28it/s]

Iter 384.0, Minibatch Loss= 5.969296, Training Accuracy= 0.58594








 49%|███████████████████████████████████████████████████████████████████████████████████▏                                                                                     | 385/782 [01:29<01:32,  4.29it/s]

Iter 385.0, Minibatch Loss= 3.731674, Training Accuracy= 0.51562








 49%|███████████████████████████████████████████████████████████████████████████████████▍                                                                                     | 386/782 [01:29<01:32,  4.26it/s]

Iter 386.0, Minibatch Loss= 4.635987, Training Accuracy= 0.59375








 49%|███████████████████████████████████████████████████████████████████████████████████▋                                                                                     | 387/782 [01:30<01:32,  4.28it/s]

Iter 387.0, Minibatch Loss= 3.874439, Training Accuracy= 0.51562








 50%|███████████████████████████████████████████████████████████████████████████████████▊                                                                                     | 388/782 [01:30<01:32,  4.27it/s]

Iter 388.0, Minibatch Loss= 4.633815, Training Accuracy= 0.59375








 50%|████████████████████████████████████████████████████████████████████████████████████                                                                                     | 389/782 [01:30<01:32,  4.26it/s]

Iter 389.0, Minibatch Loss= 3.229119, Training Accuracy= 0.57031








 50%|████████████████████████████████████████████████████████████████████████████████████▎                                                                                    | 390/782 [01:30<01:34,  4.17it/s]

Iter 390.0, Minibatch Loss= 3.745481, Training Accuracy= 0.63281








 50%|████████████████████████████████████████████████████████████████████████████████████▌                                                                                    | 391/782 [01:31<01:35,  4.10it/s]

Iter 391.0, Minibatch Loss= 2.894199, Training Accuracy= 0.57812








 50%|████████████████████████████████████████████████████████████████████████████████████▋                                                                                    | 392/782 [01:31<01:37,  3.99it/s]

Iter 392.0, Minibatch Loss= 3.447760, Training Accuracy= 0.61719








 50%|████████████████████████████████████████████████████████████████████████████████████▉                                                                                    | 393/782 [01:31<01:38,  3.93it/s]

Iter 393.0, Minibatch Loss= 2.328640, Training Accuracy= 0.62500








 50%|█████████████████████████████████████████████████████████████████████████████████████▏                                                                                   | 394/782 [01:31<01:39,  3.89it/s]

Iter 394.0, Minibatch Loss= 2.649514, Training Accuracy= 0.70312








 51%|█████████████████████████████████████████████████████████████████████████████████████▎                                                                                   | 395/782 [01:32<01:39,  3.89it/s]

Iter 395.0, Minibatch Loss= 2.137162, Training Accuracy= 0.65625








 51%|█████████████████████████████████████████████████████████████████████████████████████▌                                                                                   | 396/782 [01:32<01:36,  3.99it/s]

Iter 396.0, Minibatch Loss= 2.397592, Training Accuracy= 0.70312








 51%|█████████████████████████████████████████████████████████████████████████████████████▊                                                                                   | 397/782 [01:32<01:34,  4.05it/s]

Iter 397.0, Minibatch Loss= 1.986460, Training Accuracy= 0.64844








 51%|██████████████████████████████████████████████████████████████████████████████████████                                                                                   | 398/782 [01:32<01:33,  4.11it/s]

Iter 398.0, Minibatch Loss= 2.242339, Training Accuracy= 0.68750








 51%|██████████████████████████████████████████████████████████████████████████████████████▏                                                                                  | 399/782 [01:32<01:32,  4.15it/s]

Iter 399.0, Minibatch Loss= 1.871014, Training Accuracy= 0.67969








 51%|██████████████████████████████████████████████████████████████████████████████████████▍                                                                                  | 400/782 [01:33<01:31,  4.18it/s]

Iter 400.0, Minibatch Loss= 2.083048, Training Accuracy= 0.68750








 51%|██████████████████████████████████████████████████████████████████████████████████████▋                                                                                  | 401/782 [01:33<01:30,  4.20it/s]

Iter 401.0, Minibatch Loss= 1.720912, Training Accuracy= 0.69531








 51%|██████████████████████████████████████████████████████████████████████████████████████▉                                                                                  | 402/782 [01:33<01:31,  4.17it/s]

Iter 402.0, Minibatch Loss= 1.848529, Training Accuracy= 0.70312








 52%|███████████████████████████████████████████████████████████████████████████████████████                                                                                  | 403/782 [01:33<01:30,  4.20it/s]

Iter 403.0, Minibatch Loss= 1.572466, Training Accuracy= 0.71094








 52%|███████████████████████████████████████████████████████████████████████████████████████▎                                                                                 | 404/782 [01:34<01:29,  4.22it/s]

Iter 404.0, Minibatch Loss= 1.637744, Training Accuracy= 0.72656








 52%|███████████████████████████████████████████████████████████████████████████████████████▌                                                                                 | 405/782 [01:34<01:29,  4.23it/s]

Iter 405.0, Minibatch Loss= 1.409864, Training Accuracy= 0.75000








 52%|███████████████████████████████████████████████████████████████████████████████████████▋                                                                                 | 406/782 [01:34<01:29,  4.20it/s]

Iter 406.0, Minibatch Loss= 1.431089, Training Accuracy= 0.74219








 52%|███████████████████████████████████████████████████████████████████████████████████████▉                                                                                 | 407/782 [01:34<01:28,  4.22it/s]

Iter 407.0, Minibatch Loss= 1.252570, Training Accuracy= 0.78125








 52%|████████████████████████████████████████████████████████████████████████████████████████▏                                                                                | 408/782 [01:35<01:28,  4.23it/s]

Iter 408.0, Minibatch Loss= 1.266850, Training Accuracy= 0.77344








 52%|████████████████████████████████████████████████████████████████████████████████████████▍                                                                                | 409/782 [01:35<01:28,  4.23it/s]

Iter 409.0, Minibatch Loss= 1.145859, Training Accuracy= 0.78906








 52%|████████████████████████████████████████████████████████████████████████████████████████▌                                                                                | 410/782 [01:35<01:28,  4.21it/s]

Iter 410.0, Minibatch Loss= 1.215497, Training Accuracy= 0.78125








 53%|████████████████████████████████████████████████████████████████████████████████████████▊                                                                                | 411/782 [01:35<01:28,  4.21it/s]

Iter 411.0, Minibatch Loss= 1.043824, Training Accuracy= 0.80469








 53%|█████████████████████████████████████████████████████████████████████████████████████████                                                                                | 412/782 [01:36<01:27,  4.23it/s]

Iter 412.0, Minibatch Loss= 1.152122, Training Accuracy= 0.78906








 53%|█████████████████████████████████████████████████████████████████████████████████████████▎                                                                               | 413/782 [01:36<01:28,  4.17it/s]

Iter 413.0, Minibatch Loss= 0.827593, Training Accuracy= 0.83594








 53%|█████████████████████████████████████████████████████████████████████████████████████████▍                                                                               | 414/782 [01:36<01:27,  4.19it/s]

Iter 414.0, Minibatch Loss= 0.885974, Training Accuracy= 0.79688








 53%|█████████████████████████████████████████████████████████████████████████████████████████▋                                                                               | 415/782 [01:36<01:27,  4.19it/s]

Iter 415.0, Minibatch Loss= 0.635289, Training Accuracy= 0.85938








 53%|█████████████████████████████████████████████████████████████████████████████████████████▉                                                                               | 416/782 [01:37<01:35,  3.81it/s]

Iter 416.0, Minibatch Loss= 0.727793, Training Accuracy= 0.80469








 53%|██████████████████████████████████████████████████████████████████████████████████████████                                                                               | 417/782 [01:37<01:42,  3.55it/s]

Iter 417.0, Minibatch Loss= 0.495209, Training Accuracy= 0.85938








 53%|██████████████████████████████████████████████████████████████████████████████████████████▎                                                                              | 418/782 [01:37<01:46,  3.41it/s]

Iter 418.0, Minibatch Loss= 0.599153, Training Accuracy= 0.82031








 54%|██████████████████████████████████████████████████████████████████████████████████████████▌                                                                              | 419/782 [01:38<01:47,  3.39it/s]

Iter 419.0, Minibatch Loss= 0.401858, Training Accuracy= 0.89062








 54%|██████████████████████████████████████████████████████████████████████████████████████████▊                                                                              | 420/782 [01:38<01:40,  3.59it/s]

Iter 420.0, Minibatch Loss= 0.481887, Training Accuracy= 0.85938








 54%|██████████████████████████████████████████████████████████████████████████████████████████▉                                                                              | 421/782 [01:38<01:35,  3.77it/s]

Iter 421.0, Minibatch Loss= 0.337284, Training Accuracy= 0.89062








 54%|███████████████████████████████████████████████████████████████████████████████████████████▏                                                                             | 422/782 [01:38<01:32,  3.90it/s]

Iter 422.0, Minibatch Loss= 0.401535, Training Accuracy= 0.86719








 54%|███████████████████████████████████████████████████████████████████████████████████████████▍                                                                             | 423/782 [01:39<01:30,  3.99it/s]

Iter 423.0, Minibatch Loss= 0.304520, Training Accuracy= 0.91406








 54%|███████████████████████████████████████████████████████████████████████████████████████████▋                                                                             | 424/782 [01:39<01:28,  4.05it/s]

Iter 424.0, Minibatch Loss= 0.373979, Training Accuracy= 0.88281








 54%|███████████████████████████████████████████████████████████████████████████████████████████▊                                                                             | 425/782 [01:39<01:27,  4.10it/s]

Iter 425.0, Minibatch Loss= 0.335281, Training Accuracy= 0.90625








 54%|████████████████████████████████████████████████████████████████████████████████████████████                                                                             | 426/782 [01:39<01:26,  4.13it/s]

Iter 426.0, Minibatch Loss= 0.427374, Training Accuracy= 0.85938








 55%|████████████████████████████████████████████████████████████████████████████████████████████▎                                                                            | 427/782 [01:39<01:25,  4.18it/s]

Iter 427.0, Minibatch Loss= 0.513444, Training Accuracy= 0.85938








 55%|████████████████████████████████████████████████████████████████████████████████████████████▍                                                                            | 428/782 [01:40<01:24,  4.19it/s]

Iter 428.0, Minibatch Loss= 0.847123, Training Accuracy= 0.76562








 55%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                                            | 429/782 [01:40<01:23,  4.20it/s]

Iter 429.0, Minibatch Loss= 1.545371, Training Accuracy= 0.65625








 55%|████████████████████████████████████████████████████████████████████████████████████████████▉                                                                            | 430/782 [01:40<01:23,  4.22it/s]

Iter 430.0, Minibatch Loss= 2.444869, Training Accuracy= 0.62500








 55%|█████████████████████████████████████████████████████████████████████████████████████████████▏                                                                           | 431/782 [01:40<01:22,  4.25it/s]

Iter 431.0, Minibatch Loss= 2.146330, Training Accuracy= 0.61719








 55%|█████████████████████████████████████████████████████████████████████████████████████████████▎                                                                           | 432/782 [01:41<01:22,  4.22it/s]

Iter 432.0, Minibatch Loss= 2.446983, Training Accuracy= 0.64062








 55%|█████████████████████████████████████████████████████████████████████████████████████████████▌                                                                           | 433/782 [01:41<01:24,  4.12it/s]

Iter 433.0, Minibatch Loss= 1.810030, Training Accuracy= 0.65625








 55%|█████████████████████████████████████████████████████████████████████████████████████████████▊                                                                           | 434/782 [01:41<01:23,  4.15it/s]

Iter 434.0, Minibatch Loss= 1.740888, Training Accuracy= 0.69531








 56%|██████████████████████████████████████████████████████████████████████████████████████████████                                                                           | 435/782 [01:41<01:22,  4.20it/s]

Iter 435.0, Minibatch Loss= 1.274865, Training Accuracy= 0.71094








 56%|██████████████████████████████████████████████████████████████████████████████████████████████▏                                                                          | 436/782 [01:42<01:22,  4.17it/s]

Iter 436.0, Minibatch Loss= 1.026409, Training Accuracy= 0.77344








 56%|██████████████████████████████████████████████████████████████████████████████████████████████▍                                                                          | 437/782 [01:42<01:22,  4.20it/s]

Iter 437.0, Minibatch Loss= 0.707201, Training Accuracy= 0.85156








 56%|██████████████████████████████████████████████████████████████████████████████████████████████▋                                                                          | 438/782 [01:42<01:21,  4.23it/s]

Iter 438.0, Minibatch Loss= 0.427774, Training Accuracy= 0.87500








 56%|██████████████████████████████████████████████████████████████████████████████████████████████▊                                                                          | 439/782 [01:42<01:21,  4.22it/s]

Iter 439.0, Minibatch Loss= 0.243387, Training Accuracy= 0.93750








 56%|███████████████████████████████████████████████████████████████████████████████████████████████                                                                          | 440/782 [01:43<01:20,  4.23it/s]

Iter 440.0, Minibatch Loss= 0.156378, Training Accuracy= 0.95312








 56%|███████████████████████████████████████████████████████████████████████████████████████████████▎                                                                         | 441/782 [01:43<01:20,  4.24it/s]

Iter 441.0, Minibatch Loss= 0.121572, Training Accuracy= 0.96875








 57%|███████████████████████████████████████████████████████████████████████████████████████████████▌                                                                         | 442/782 [01:43<01:19,  4.26it/s]

Iter 442.0, Minibatch Loss= 0.104743, Training Accuracy= 0.96875








 57%|███████████████████████████████████████████████████████████████████████████████████████████████▋                                                                         | 443/782 [01:43<01:19,  4.26it/s]

Iter 443.0, Minibatch Loss= 0.092710, Training Accuracy= 0.96875








 57%|███████████████████████████████████████████████████████████████████████████████████████████████▉                                                                         | 444/782 [01:43<01:19,  4.27it/s]

Iter 444.0, Minibatch Loss= 0.083575, Training Accuracy= 0.97656








 57%|████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                        | 445/782 [01:44<01:19,  4.24it/s]

Iter 445.0, Minibatch Loss= 0.076295, Training Accuracy= 0.97656








 57%|████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                        | 446/782 [01:44<01:19,  4.24it/s]

Iter 446.0, Minibatch Loss= 0.070272, Training Accuracy= 0.98438








 57%|████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                        | 447/782 [01:44<01:18,  4.24it/s]

Iter 447.0, Minibatch Loss= 0.065151, Training Accuracy= 0.99219








 57%|████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                        | 448/782 [01:44<01:18,  4.25it/s]

Iter 448.0, Minibatch Loss= 0.060728, Training Accuracy= 0.99219








 57%|█████████████████████████████████████████████████████████████████████████████████████████████████                                                                        | 449/782 [01:45<01:18,  4.25it/s]

Iter 449.0, Minibatch Loss= 0.056875, Training Accuracy= 0.99219








 58%|█████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                       | 450/782 [01:45<01:17,  4.26it/s]

Iter 450.0, Minibatch Loss= 0.053511, Training Accuracy= 0.99219








 58%|█████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                       | 451/782 [01:45<01:17,  4.26it/s]

Iter 451.0, Minibatch Loss= 0.050576, Training Accuracy= 0.99219








 58%|█████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                       | 452/782 [01:45<01:17,  4.27it/s]

Iter 452.0, Minibatch Loss= 0.048016, Training Accuracy= 0.99219








 58%|█████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                       | 453/782 [01:46<01:16,  4.30it/s]

Iter 453.0, Minibatch Loss= 0.045784, Training Accuracy= 0.99219








 58%|██████████████████████████████████████████████████████████████████████████████████████████████████                                                                       | 454/782 [01:46<01:17,  4.24it/s]

Iter 454.0, Minibatch Loss= 0.043831, Training Accuracy= 0.99219








 58%|██████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                      | 455/782 [01:46<01:16,  4.25it/s]

Iter 455.0, Minibatch Loss= 0.042114, Training Accuracy= 0.99219








 58%|██████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                      | 456/782 [01:46<01:16,  4.28it/s]

Iter 456.0, Minibatch Loss= 0.040596, Training Accuracy= 1.00000








 58%|██████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                      | 457/782 [01:47<01:15,  4.30it/s]

Iter 457.0, Minibatch Loss= 0.039244, Training Accuracy= 1.00000








 59%|██████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                      | 458/782 [01:47<01:15,  4.27it/s]

Iter 458.0, Minibatch Loss= 0.038030, Training Accuracy= 1.00000








 59%|███████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                     | 459/782 [01:47<01:15,  4.30it/s]

Iter 459.0, Minibatch Loss= 0.036933, Training Accuracy= 1.00000








 59%|███████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                     | 460/782 [01:47<01:14,  4.29it/s]

Iter 460.0, Minibatch Loss= 0.035934, Training Accuracy= 1.00000








 59%|███████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                     | 461/782 [01:47<01:15,  4.28it/s]

Iter 461.0, Minibatch Loss= 0.035020, Training Accuracy= 1.00000








 59%|███████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                     | 462/782 [01:48<01:15,  4.22it/s]

Iter 462.0, Minibatch Loss= 0.034177, Training Accuracy= 1.00000








 59%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                                     | 463/782 [01:48<01:15,  4.25it/s]

Iter 463.0, Minibatch Loss= 0.033398, Training Accuracy= 1.00000








 59%|████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                    | 464/782 [01:48<01:15,  4.21it/s]

Iter 464.0, Minibatch Loss= 0.032674, Training Accuracy= 1.00000








 59%|████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                    | 465/782 [01:48<01:14,  4.24it/s]

Iter 465.0, Minibatch Loss= 0.031998, Training Accuracy= 1.00000








 60%|████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                    | 466/782 [01:49<01:14,  4.27it/s]

Iter 466.0, Minibatch Loss= 0.031365, Training Accuracy= 1.00000








 60%|████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                    | 467/782 [01:49<01:13,  4.28it/s]

Iter 467.0, Minibatch Loss= 0.030770, Training Accuracy= 1.00000








 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                   | 468/782 [01:49<01:13,  4.25it/s]

Iter 468.0, Minibatch Loss= 0.030210, Training Accuracy= 1.00000








 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                   | 469/782 [01:49<01:13,  4.28it/s]

Iter 469.0, Minibatch Loss= 0.029680, Training Accuracy= 1.00000








 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                   | 470/782 [01:50<01:12,  4.29it/s]

Iter 470.0, Minibatch Loss= 0.029179, Training Accuracy= 1.00000








 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                   | 471/782 [01:50<01:12,  4.27it/s]

Iter 471.0, Minibatch Loss= 0.028703, Training Accuracy= 1.00000








 60%|██████████████████████████████████████████████████████████████████████████████████████████████████████                                                                   | 472/782 [01:50<01:13,  4.24it/s]

Iter 472.0, Minibatch Loss= 0.028251, Training Accuracy= 1.00000








 60%|██████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                  | 473/782 [01:50<01:13,  4.21it/s]

Iter 473.0, Minibatch Loss= 0.027820, Training Accuracy= 1.00000








 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                  | 474/782 [01:51<01:12,  4.23it/s]

Iter 474.0, Minibatch Loss= 0.027409, Training Accuracy= 1.00000








 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                  | 475/782 [01:51<01:12,  4.22it/s]

Iter 475.0, Minibatch Loss= 0.027016, Training Accuracy= 1.00000








 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                  | 476/782 [01:51<01:12,  4.19it/s]

Iter 476.0, Minibatch Loss= 0.026640, Training Accuracy= 1.00000








 61%|███████████████████████████████████████████████████████████████████████████████████████████████████████                                                                  | 477/782 [01:51<01:12,  4.23it/s]

Iter 477.0, Minibatch Loss= 0.026280, Training Accuracy= 1.00000








 61%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                 | 478/782 [01:51<01:11,  4.23it/s]

Iter 478.0, Minibatch Loss= 0.025934, Training Accuracy= 1.00000








 61%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                 | 479/782 [01:52<01:11,  4.23it/s]

Iter 479.0, Minibatch Loss= 0.025602, Training Accuracy= 1.00000








 61%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                 | 480/782 [01:52<01:11,  4.21it/s]

Iter 480.0, Minibatch Loss= 0.025282, Training Accuracy= 1.00000








 62%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                 | 481/782 [01:52<01:11,  4.22it/s]

Iter 481.0, Minibatch Loss= 0.024975, Training Accuracy= 1.00000








 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                | 482/782 [01:52<01:11,  4.20it/s]

Iter 482.0, Minibatch Loss= 0.024678, Training Accuracy= 1.00000








 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                | 483/782 [01:53<01:11,  4.18it/s]

Iter 483.0, Minibatch Loss= 0.024393, Training Accuracy= 1.00000








 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                | 484/782 [01:53<01:11,  4.17it/s]

Iter 484.0, Minibatch Loss= 0.024117, Training Accuracy= 1.00000








 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                | 485/782 [01:53<01:11,  4.18it/s]

Iter 485.0, Minibatch Loss= 0.023850, Training Accuracy= 1.00000








 62%|█████████████████████████████████████████████████████████████████████████████████████████████████████████                                                                | 486/782 [01:53<01:10,  4.21it/s]

Iter 486.0, Minibatch Loss= 0.023592, Training Accuracy= 1.00000








 62%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                               | 487/782 [01:54<01:09,  4.21it/s]

Iter 487.0, Minibatch Loss= 0.023343, Training Accuracy= 1.00000








 62%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                               | 488/782 [01:54<01:09,  4.23it/s]

Iter 488.0, Minibatch Loss= 0.023101, Training Accuracy= 1.00000








 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                               | 489/782 [01:54<01:09,  4.24it/s]

Iter 489.0, Minibatch Loss= 0.022867, Training Accuracy= 1.00000








 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                               | 490/782 [01:54<01:08,  4.25it/s]

Iter 490.0, Minibatch Loss= 0.022640, Training Accuracy= 1.00000








 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████                                                               | 491/782 [01:55<01:08,  4.25it/s]

Iter 491.0, Minibatch Loss= 0.022420, Training Accuracy= 1.00000








 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                              | 492/782 [01:55<01:08,  4.25it/s]

Iter 492.0, Minibatch Loss= 0.022207, Training Accuracy= 1.00000








 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                              | 493/782 [01:55<01:07,  4.28it/s]

Iter 493.0, Minibatch Loss= 0.021999, Training Accuracy= 1.00000








 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                              | 494/782 [01:55<01:07,  4.27it/s]

Iter 494.0, Minibatch Loss= 0.021797, Training Accuracy= 1.00000








 63%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                              | 495/782 [01:55<01:07,  4.27it/s]

Iter 495.0, Minibatch Loss= 0.021601, Training Accuracy= 1.00000








 63%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                             | 496/782 [01:56<01:07,  4.25it/s]

Iter 496.0, Minibatch Loss= 0.021411, Training Accuracy= 1.00000








 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                             | 497/782 [01:56<01:08,  4.17it/s]

Iter 497.0, Minibatch Loss= 0.021225, Training Accuracy= 1.00000








 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                             | 498/782 [01:56<01:07,  4.19it/s]

Iter 498.0, Minibatch Loss= 0.021045, Training Accuracy= 1.00000








 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                             | 499/782 [01:56<01:07,  4.21it/s]

Iter 499.0, Minibatch Loss= 0.020869, Training Accuracy= 1.00000








 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                             | 500/782 [01:57<01:06,  4.22it/s]

Iter 500.0, Minibatch Loss= 5.548438, Training Accuracy= 0.49219








 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                            | 501/782 [01:57<01:06,  4.24it/s]

Iter 501.0, Minibatch Loss= 4.855735, Training Accuracy= 0.46875








 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                            | 502/782 [01:57<01:07,  4.18it/s]

Iter 502.0, Minibatch Loss= 5.271035, Training Accuracy= 0.55469








 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                            | 503/782 [01:57<01:06,  4.22it/s]

Iter 503.0, Minibatch Loss= 5.783693, Training Accuracy= 0.35938








 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                            | 504/782 [01:58<01:06,  4.18it/s]

Iter 504.0, Minibatch Loss= 7.297442, Training Accuracy= 0.59375








 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                           | 505/782 [01:58<01:06,  4.14it/s]

Iter 505.0, Minibatch Loss= 4.218310, Training Accuracy= 0.50781








 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                           | 506/782 [01:58<01:06,  4.16it/s]

Iter 506.0, Minibatch Loss= 4.078430, Training Accuracy= 0.60938








 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                           | 507/782 [01:58<01:05,  4.22it/s]

Iter 507.0, Minibatch Loss= 4.278056, Training Accuracy= 0.43750








 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                           | 508/782 [01:59<01:05,  4.21it/s]

Iter 508.0, Minibatch Loss= 6.306643, Training Accuracy= 0.57812








 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                           | 509/782 [01:59<01:04,  4.24it/s]

Iter 509.0, Minibatch Loss= 3.732310, Training Accuracy= 0.50000








 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                          | 510/782 [01:59<01:03,  4.27it/s]

Iter 510.0, Minibatch Loss= 4.238408, Training Accuracy= 0.60938








 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                          | 511/782 [01:59<01:03,  4.27it/s]

Iter 511.0, Minibatch Loss= 4.212682, Training Accuracy= 0.47656








 65%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                          | 512/782 [02:00<01:03,  4.28it/s]

Iter 512.0, Minibatch Loss= 6.591431, Training Accuracy= 0.60938








 66%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                          | 513/782 [02:00<01:02,  4.27it/s]

Iter 513.0, Minibatch Loss= 3.164288, Training Accuracy= 0.55469








 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                          | 514/782 [02:00<01:02,  4.27it/s]

Iter 514.0, Minibatch Loss= 2.927019, Training Accuracy= 0.64844








 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                         | 515/782 [02:00<01:04,  4.16it/s]

Iter 515.0, Minibatch Loss= 2.843847, Training Accuracy= 0.57031








 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                         | 516/782 [02:01<01:05,  4.08it/s]

Iter 516.0, Minibatch Loss= 5.292466, Training Accuracy= 0.61719








 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                         | 517/782 [02:01<01:06,  4.01it/s]

Iter 517.0, Minibatch Loss= 2.722857, Training Accuracy= 0.62500








 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                         | 518/782 [02:01<01:07,  3.92it/s]

Iter 518.0, Minibatch Loss= 3.417510, Training Accuracy= 0.63281








 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                        | 519/782 [02:01<01:07,  3.91it/s]

Iter 519.0, Minibatch Loss= 3.329648, Training Accuracy= 0.54688








 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                        | 520/782 [02:02<01:06,  3.92it/s]

Iter 520.0, Minibatch Loss= 5.651085, Training Accuracy= 0.63281








 67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                        | 521/782 [02:02<01:04,  4.02it/s]

Iter 521.0, Minibatch Loss= 2.289662, Training Accuracy= 0.61719








 67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                        | 522/782 [02:02<01:03,  4.09it/s]

Iter 522.0, Minibatch Loss= 1.863273, Training Accuracy= 0.69531








 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                        | 523/782 [02:02<01:02,  4.12it/s]

Iter 523.0, Minibatch Loss= 1.613855, Training Accuracy= 0.71094








 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                       | 524/782 [02:02<01:01,  4.17it/s]

Iter 524.0, Minibatch Loss= 2.934932, Training Accuracy= 0.68750








 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                       | 525/782 [02:03<01:01,  4.19it/s]

Iter 525.0, Minibatch Loss= 2.724541, Training Accuracy= 0.58594








 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                       | 526/782 [02:03<01:00,  4.22it/s]

Iter 526.0, Minibatch Loss= 5.333507, Training Accuracy= 0.64062








 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                       | 527/782 [02:03<01:00,  4.24it/s]

Iter 527.0, Minibatch Loss= 1.955163, Training Accuracy= 0.69531








 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                       | 528/782 [02:03<00:59,  4.26it/s]

Iter 528.0, Minibatch Loss= 1.786728, Training Accuracy= 0.72656








 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                      | 529/782 [02:04<00:59,  4.24it/s]

Iter 529.0, Minibatch Loss= 1.444565, Training Accuracy= 0.75000








 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                      | 530/782 [02:04<01:00,  4.18it/s]

Iter 530.0, Minibatch Loss= 2.651377, Training Accuracy= 0.72656








 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                      | 531/782 [02:04<00:59,  4.19it/s]

Iter 531.0, Minibatch Loss= 2.291955, Training Accuracy= 0.60938








 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                      | 532/782 [02:04<01:03,  3.92it/s]

Iter 532.0, Minibatch Loss= 4.780702, Training Accuracy= 0.65625








 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                     | 533/782 [02:05<01:03,  3.93it/s]

Iter 533.0, Minibatch Loss= 1.654329, Training Accuracy= 0.73438








 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                     | 534/782 [02:05<01:02,  3.97it/s]

Iter 534.0, Minibatch Loss= 1.581501, Training Accuracy= 0.77344








 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                     | 535/782 [02:05<01:01,  4.05it/s]

Iter 535.0, Minibatch Loss= 1.343507, Training Accuracy= 0.75781








 69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                     | 536/782 [02:05<00:59,  4.13it/s]

Iter 536.0, Minibatch Loss= 2.488157, Training Accuracy= 0.75000








 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                     | 537/782 [02:06<00:58,  4.17it/s]

Iter 537.0, Minibatch Loss= 1.753662, Training Accuracy= 0.70312








 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                    | 538/782 [02:06<00:59,  4.08it/s]

Iter 538.0, Minibatch Loss= 3.419066, Training Accuracy= 0.68750








 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                    | 539/782 [02:06<00:58,  4.13it/s]

Iter 539.0, Minibatch Loss= 1.517438, Training Accuracy= 0.73438








 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                    | 540/782 [02:06<00:58,  4.17it/s]

Iter 540.0, Minibatch Loss= 1.795926, Training Accuracy= 0.78125








 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                    | 541/782 [02:07<00:57,  4.17it/s]

Iter 541.0, Minibatch Loss= 1.664532, Training Accuracy= 0.67188








 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                   | 542/782 [02:07<00:57,  4.21it/s]

Iter 542.0, Minibatch Loss= 3.479451, Training Accuracy= 0.69531








 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                   | 543/782 [02:07<00:56,  4.21it/s]

Iter 543.0, Minibatch Loss= 1.271919, Training Accuracy= 0.77344








 70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                   | 544/782 [02:07<00:56,  4.21it/s]

Iter 544.0, Minibatch Loss= 1.248955, Training Accuracy= 0.84375








 70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                   | 545/782 [02:08<00:56,  4.23it/s]

Iter 545.0, Minibatch Loss= 1.115819, Training Accuracy= 0.76562








 70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                   | 546/782 [02:08<00:55,  4.25it/s]

Iter 546.0, Minibatch Loss= 2.152968, Training Accuracy= 0.77344








 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                  | 547/782 [02:08<00:55,  4.24it/s]

Iter 547.0, Minibatch Loss= 1.305021, Training Accuracy= 0.75781








 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                  | 548/782 [02:08<00:55,  4.22it/s]

Iter 548.0, Minibatch Loss= 2.170556, Training Accuracy= 0.75781








 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                  | 549/782 [02:08<00:55,  4.22it/s]

Iter 549.0, Minibatch Loss= 1.319907, Training Accuracy= 0.77344








 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                  | 550/782 [02:09<00:55,  4.22it/s]

Iter 550.0, Minibatch Loss= 2.061164, Training Accuracy= 0.75000








 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                  | 551/782 [02:09<00:54,  4.24it/s]

Iter 551.0, Minibatch Loss= 1.193979, Training Accuracy= 0.79688








 71%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                 | 552/782 [02:09<00:54,  4.23it/s]

Iter 552.0, Minibatch Loss= 1.681506, Training Accuracy= 0.80469








 71%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                 | 553/782 [02:09<00:53,  4.26it/s]

Iter 553.0, Minibatch Loss= 1.003632, Training Accuracy= 0.82031








 71%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                 | 554/782 [02:10<00:53,  4.24it/s]

Iter 554.0, Minibatch Loss= 1.442209, Training Accuracy= 0.82812








 71%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                 | 555/782 [02:10<00:53,  4.25it/s]

Iter 555.0, Minibatch Loss= 0.820152, Training Accuracy= 0.85938








 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                | 556/782 [02:10<00:53,  4.23it/s]

Iter 556.0, Minibatch Loss= 1.082796, Training Accuracy= 0.86719








 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                | 557/782 [02:10<00:52,  4.26it/s]

Iter 557.0, Minibatch Loss= 0.667008, Training Accuracy= 0.89062








 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                | 558/782 [02:11<00:53,  4.18it/s]

Iter 558.0, Minibatch Loss= 0.865527, Training Accuracy= 0.86719








 71%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                | 559/782 [02:11<00:54,  4.07it/s]

Iter 559.0, Minibatch Loss= 0.624724, Training Accuracy= 0.88281








 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                | 560/782 [02:11<00:53,  4.11it/s]

Iter 560.0, Minibatch Loss= 0.956705, Training Accuracy= 0.86719








 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                               | 561/782 [02:11<00:53,  4.13it/s]

Iter 561.0, Minibatch Loss= 0.684016, Training Accuracy= 0.85156








 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                               | 562/782 [02:12<00:53,  4.13it/s]

Iter 562.0, Minibatch Loss= 1.231511, Training Accuracy= 0.82812








 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                               | 563/782 [02:12<00:52,  4.18it/s]

Iter 563.0, Minibatch Loss= 0.869149, Training Accuracy= 0.81250








 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                               | 564/782 [02:12<00:51,  4.21it/s]

Iter 564.0, Minibatch Loss= 1.687665, Training Accuracy= 0.77344








 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                               | 565/782 [02:12<00:51,  4.22it/s]

Iter 565.0, Minibatch Loss= 1.155813, Training Accuracy= 0.76562








 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                              | 566/782 [02:13<00:50,  4.24it/s]

Iter 566.0, Minibatch Loss= 1.988229, Training Accuracy= 0.72656








 73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                              | 567/782 [02:13<00:50,  4.25it/s]

Iter 567.0, Minibatch Loss= 1.122236, Training Accuracy= 0.77344








 73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                              | 568/782 [02:13<00:50,  4.22it/s]

Iter 568.0, Minibatch Loss= 1.405502, Training Accuracy= 0.79688








 73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                              | 569/782 [02:13<00:51,  4.17it/s]

Iter 569.0, Minibatch Loss= 0.721941, Training Accuracy= 0.85938








 73%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                             | 570/782 [02:13<00:51,  4.15it/s]

Iter 570.0, Minibatch Loss= 0.763241, Training Accuracy= 0.87500








 73%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                             | 571/782 [02:14<00:50,  4.17it/s]

Iter 571.0, Minibatch Loss= 0.348649, Training Accuracy= 0.92188








 73%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                             | 572/782 [02:14<00:49,  4.22it/s]

Iter 572.0, Minibatch Loss= 0.318611, Training Accuracy= 0.92188








 73%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                             | 573/782 [02:14<00:49,  4.23it/s]

Iter 573.0, Minibatch Loss= 0.220887, Training Accuracy= 0.92188








 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                             | 574/782 [02:14<00:48,  4.26it/s]

Iter 574.0, Minibatch Loss= 0.222074, Training Accuracy= 0.94531








 74%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                            | 575/782 [02:15<00:48,  4.26it/s]

Iter 575.0, Minibatch Loss= 0.217925, Training Accuracy= 0.91406








 74%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                            | 576/782 [02:15<00:48,  4.27it/s]

Iter 576.0, Minibatch Loss= 0.391060, Training Accuracy= 0.91406








 74%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                            | 577/782 [02:15<00:48,  4.24it/s]

Iter 577.0, Minibatch Loss= 0.320542, Training Accuracy= 0.90625








 74%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                            | 578/782 [02:15<00:48,  4.25it/s]

Iter 578.0, Minibatch Loss= 0.662930, Training Accuracy= 0.87500








 74%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                           | 579/782 [02:16<00:47,  4.25it/s]

Iter 579.0, Minibatch Loss= 0.481318, Training Accuracy= 0.85938








 74%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                           | 580/782 [02:16<00:48,  4.18it/s]

Iter 580.0, Minibatch Loss= 1.075084, Training Accuracy= 0.82812








 74%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                           | 581/782 [02:16<00:47,  4.22it/s]

Iter 581.0, Minibatch Loss= 0.856705, Training Accuracy= 0.78125








 74%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                           | 582/782 [02:16<00:47,  4.23it/s]

Iter 582.0, Minibatch Loss= 1.991366, Training Accuracy= 0.71094








 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                           | 583/782 [02:17<00:46,  4.24it/s]

Iter 583.0, Minibatch Loss= 1.118387, Training Accuracy= 0.75781








 75%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                          | 584/782 [02:17<00:46,  4.24it/s]

Iter 584.0, Minibatch Loss= 1.597283, Training Accuracy= 0.75000








 75%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                          | 585/782 [02:17<00:46,  4.27it/s]

Iter 585.0, Minibatch Loss= 0.832994, Training Accuracy= 0.80469








 75%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                          | 586/782 [02:17<00:46,  4.24it/s]

Iter 586.0, Minibatch Loss= 0.959891, Training Accuracy= 0.85938








 75%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                          | 587/782 [02:17<00:45,  4.26it/s]

Iter 587.0, Minibatch Loss= 0.461849, Training Accuracy= 0.91406








 75%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                          | 588/782 [02:18<00:45,  4.24it/s]

Iter 588.0, Minibatch Loss= 0.355195, Training Accuracy= 0.91406








 75%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                         | 589/782 [02:18<00:45,  4.24it/s]

Iter 589.0, Minibatch Loss= 0.198052, Training Accuracy= 0.94531








 75%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                         | 590/782 [02:18<00:45,  4.23it/s]

Iter 590.0, Minibatch Loss= 0.138497, Training Accuracy= 0.93750








 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                         | 591/782 [02:18<00:45,  4.23it/s]

Iter 591.0, Minibatch Loss= 0.102476, Training Accuracy= 0.96875








 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                         | 592/782 [02:19<00:44,  4.22it/s]

Iter 592.0, Minibatch Loss= 0.108669, Training Accuracy= 0.94531








 76%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                        | 593/782 [02:19<00:44,  4.23it/s]

Iter 593.0, Minibatch Loss= 0.136664, Training Accuracy= 0.93750








 76%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                        | 594/782 [02:19<00:44,  4.23it/s]

Iter 594.0, Minibatch Loss= 0.230817, Training Accuracy= 0.92188








 76%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                        | 595/782 [02:19<00:44,  4.23it/s]

Iter 595.0, Minibatch Loss= 0.223546, Training Accuracy= 0.91406








 76%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                        | 596/782 [02:20<00:43,  4.26it/s]

Iter 596.0, Minibatch Loss= 0.374834, Training Accuracy= 0.89062








 76%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                        | 597/782 [02:20<00:43,  4.27it/s]

Iter 597.0, Minibatch Loss= 0.282307, Training Accuracy= 0.89844








 76%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                       | 598/782 [02:20<00:43,  4.27it/s]

Iter 598.0, Minibatch Loss= 0.431893, Training Accuracy= 0.88281








 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                       | 599/782 [02:20<00:42,  4.27it/s]

Iter 599.0, Minibatch Loss= 0.298499, Training Accuracy= 0.89844








 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                       | 600/782 [02:21<00:42,  4.28it/s]

Iter 600.0, Minibatch Loss= 0.411905, Training Accuracy= 0.89062








 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                       | 601/782 [02:21<00:43,  4.16it/s]

Iter 601.0, Minibatch Loss= 0.257894, Training Accuracy= 0.91406








 77%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                       | 602/782 [02:21<00:43,  4.13it/s]

Iter 602.0, Minibatch Loss= 0.294745, Training Accuracy= 0.92188








 77%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                      | 603/782 [02:21<00:42,  4.17it/s]

Iter 603.0, Minibatch Loss= 0.145135, Training Accuracy= 0.95312








 77%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                      | 604/782 [02:22<00:42,  4.18it/s]

Iter 604.0, Minibatch Loss= 0.104772, Training Accuracy= 0.96094








 77%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                      | 605/782 [02:22<00:42,  4.18it/s]

Iter 605.0, Minibatch Loss= 0.059225, Training Accuracy= 0.98438








 77%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                      | 606/782 [02:22<00:41,  4.20it/s]

Iter 606.0, Minibatch Loss= 0.038532, Training Accuracy= 0.99219








 78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                     | 607/782 [02:22<00:41,  4.20it/s]

Iter 607.0, Minibatch Loss= 0.031486, Training Accuracy= 0.99219








 78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                     | 608/782 [02:22<00:41,  4.23it/s]

Iter 608.0, Minibatch Loss= 0.027898, Training Accuracy= 1.00000








 78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                     | 609/782 [02:23<00:40,  4.22it/s]

Iter 609.0, Minibatch Loss= 0.026185, Training Accuracy= 1.00000








 78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                     | 610/782 [02:23<00:40,  4.24it/s]

Iter 610.0, Minibatch Loss= 0.025106, Training Accuracy= 1.00000








 78%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                     | 611/782 [02:23<00:40,  4.21it/s]

Iter 611.0, Minibatch Loss= 0.024317, Training Accuracy= 1.00000








 78%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                    | 612/782 [02:23<00:40,  4.20it/s]

Iter 612.0, Minibatch Loss= 0.023677, Training Accuracy= 1.00000








 78%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                    | 613/782 [02:24<00:40,  4.15it/s]

Iter 613.0, Minibatch Loss= 0.023126, Training Accuracy= 1.00000








 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                    | 614/782 [02:24<00:40,  4.18it/s]

Iter 614.0, Minibatch Loss= 0.022639, Training Accuracy= 1.00000








 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                    | 615/782 [02:24<00:39,  4.20it/s]

Iter 615.0, Minibatch Loss= 0.022203, Training Accuracy= 1.00000








 79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                   | 616/782 [02:24<00:39,  4.22it/s]

Iter 616.0, Minibatch Loss= 0.021808, Training Accuracy= 1.00000








 79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                   | 617/782 [02:25<00:39,  4.23it/s]

Iter 617.0, Minibatch Loss= 0.021446, Training Accuracy= 1.00000








 79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                   | 618/782 [02:25<00:38,  4.25it/s]

Iter 618.0, Minibatch Loss= 0.021112, Training Accuracy= 1.00000








 79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                   | 619/782 [02:25<00:38,  4.24it/s]

Iter 619.0, Minibatch Loss= 0.020802, Training Accuracy= 1.00000








 79%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                   | 620/782 [02:25<00:38,  4.24it/s]

Iter 620.0, Minibatch Loss= 0.020512, Training Accuracy= 1.00000








 79%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                  | 621/782 [02:26<00:37,  4.27it/s]

Iter 621.0, Minibatch Loss= 0.020241, Training Accuracy= 1.00000








 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                  | 622/782 [02:26<00:37,  4.22it/s]

Iter 622.0, Minibatch Loss= 0.019985, Training Accuracy= 1.00000








 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                  | 623/782 [02:26<00:38,  4.18it/s]

Iter 623.0, Minibatch Loss= 0.019743, Training Accuracy= 1.00000








 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                  | 624/782 [02:26<00:37,  4.22it/s]

Iter 624.0, Minibatch Loss= 0.019514, Training Accuracy= 1.00000








 80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                  | 625/782 [02:27<00:37,  4.23it/s]

Iter 625.0, Minibatch Loss= 5.136465, Training Accuracy= 0.38281








 80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                 | 626/782 [02:27<00:36,  4.23it/s]

Iter 626.0, Minibatch Loss= 6.137387, Training Accuracy= 0.49219








 80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                 | 627/782 [02:27<00:36,  4.24it/s]

Iter 627.0, Minibatch Loss= 7.912133, Training Accuracy= 0.32812








 80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                 | 628/782 [02:27<00:36,  4.18it/s]

Iter 628.0, Minibatch Loss= 8.802916, Training Accuracy= 0.50781








 80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                 | 629/782 [02:27<00:36,  4.21it/s]

Iter 629.0, Minibatch Loss= 5.698365, Training Accuracy= 0.42188








 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 630/782 [02:28<00:36,  4.22it/s]

Iter 630.0, Minibatch Loss= 5.827830, Training Accuracy= 0.55469








 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                | 631/782 [02:28<00:35,  4.22it/s]

Iter 631.0, Minibatch Loss= 6.905226, Training Accuracy= 0.37500








 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                | 632/782 [02:28<00:35,  4.21it/s]

Iter 632.0, Minibatch Loss= 8.619787, Training Accuracy= 0.50781








 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                | 633/782 [02:28<00:35,  4.23it/s]

Iter 633.0, Minibatch Loss= 4.746466, Training Accuracy= 0.43750








 81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                | 634/782 [02:29<00:34,  4.23it/s]

Iter 634.0, Minibatch Loss= 5.014321, Training Accuracy= 0.55469








 81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                               | 635/782 [02:29<00:34,  4.26it/s]

Iter 635.0, Minibatch Loss= 6.150053, Training Accuracy= 0.46875








 81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                               | 636/782 [02:29<00:34,  4.22it/s]

Iter 636.0, Minibatch Loss= 7.631648, Training Accuracy= 0.51562








 81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                               | 637/782 [02:29<00:34,  4.25it/s]

Iter 637.0, Minibatch Loss= 3.978216, Training Accuracy= 0.54688








 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                               | 638/782 [02:30<00:33,  4.28it/s]

Iter 638.0, Minibatch Loss= 4.487925, Training Accuracy= 0.57812








 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                               | 639/782 [02:30<00:33,  4.26it/s]

Iter 639.0, Minibatch Loss= 5.238982, Training Accuracy= 0.51562








 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                              | 640/782 [02:30<00:33,  4.21it/s]

Iter 640.0, Minibatch Loss= 6.365002, Training Accuracy= 0.53906








 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                              | 641/782 [02:30<00:34,  4.11it/s]

Iter 641.0, Minibatch Loss= 3.630881, Training Accuracy= 0.60156








 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                              | 642/782 [02:31<00:34,  4.04it/s]

Iter 642.0, Minibatch Loss= 4.212224, Training Accuracy= 0.59375








 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                              | 643/782 [02:31<00:35,  3.89it/s]

Iter 643.0, Minibatch Loss= 4.285505, Training Accuracy= 0.57031








 82%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                             | 644/782 [02:31<00:35,  3.87it/s]

Iter 644.0, Minibatch Loss= 5.109743, Training Accuracy= 0.55469








 82%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                             | 645/782 [02:31<00:35,  3.88it/s]

Iter 645.0, Minibatch Loss= 3.582194, Training Accuracy= 0.61719








 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                             | 646/782 [02:32<00:34,  3.91it/s]

Iter 646.0, Minibatch Loss= 4.112529, Training Accuracy= 0.60156








 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                             | 647/782 [02:32<00:33,  4.02it/s]

Iter 647.0, Minibatch Loss= 3.665364, Training Accuracy= 0.60938








 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                             | 648/782 [02:32<00:32,  4.11it/s]

Iter 648.0, Minibatch Loss= 4.348995, Training Accuracy= 0.61719








 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                            | 649/782 [02:32<00:32,  4.15it/s]

Iter 649.0, Minibatch Loss= 3.213104, Training Accuracy= 0.63281








 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                            | 650/782 [02:33<00:31,  4.20it/s]

Iter 650.0, Minibatch Loss= 3.742382, Training Accuracy= 0.63281








 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                            | 651/782 [02:33<00:31,  4.22it/s]

Iter 651.0, Minibatch Loss= 3.167498, Training Accuracy= 0.63281








 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                            | 652/782 [02:33<00:30,  4.25it/s]

Iter 652.0, Minibatch Loss= 3.846622, Training Accuracy= 0.62500








 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                            | 653/782 [02:33<00:30,  4.26it/s]

Iter 653.0, Minibatch Loss= 2.928254, Training Accuracy= 0.64062








 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                           | 654/782 [02:33<00:30,  4.25it/s]

Iter 654.0, Minibatch Loss= 3.522630, Training Accuracy= 0.64062








 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                           | 655/782 [02:34<00:30,  4.21it/s]

Iter 655.0, Minibatch Loss= 2.783168, Training Accuracy= 0.64062








 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                           | 656/782 [02:34<00:30,  4.19it/s]

Iter 656.0, Minibatch Loss= 3.423156, Training Accuracy= 0.64844








 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                           | 657/782 [02:34<00:29,  4.21it/s]

Iter 657.0, Minibatch Loss= 2.597162, Training Accuracy= 0.66406








 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                          | 658/782 [02:34<00:29,  4.21it/s]

Iter 658.0, Minibatch Loss= 3.209221, Training Accuracy= 0.67188








 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                          | 659/782 [02:35<00:29,  4.22it/s]

Iter 659.0, Minibatch Loss= 2.424675, Training Accuracy= 0.67969








 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                          | 660/782 [02:35<00:28,  4.22it/s]

Iter 660.0, Minibatch Loss= 2.997852, Training Accuracy= 0.67969








 85%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                          | 661/782 [02:35<00:28,  4.21it/s]

Iter 661.0, Minibatch Loss= 2.240935, Training Accuracy= 0.70312








 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                          | 662/782 [02:35<00:28,  4.23it/s]

Iter 662.0, Minibatch Loss= 2.740524, Training Accuracy= 0.69531








 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                         | 663/782 [02:36<00:28,  4.22it/s]

Iter 663.0, Minibatch Loss= 2.034532, Training Accuracy= 0.71094








 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                         | 664/782 [02:36<00:28,  4.14it/s]

Iter 664.0, Minibatch Loss= 2.417478, Training Accuracy= 0.75000








 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                         | 665/782 [02:36<00:28,  4.15it/s]

Iter 665.0, Minibatch Loss= 1.798929, Training Accuracy= 0.75000








 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                         | 666/782 [02:36<00:27,  4.16it/s]

Iter 666.0, Minibatch Loss= 2.036346, Training Accuracy= 0.75000








 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                        | 667/782 [02:37<00:27,  4.13it/s]

Iter 667.0, Minibatch Loss= 1.567791, Training Accuracy= 0.77344








 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                        | 668/782 [02:37<00:27,  4.16it/s]

Iter 668.0, Minibatch Loss= 1.708305, Training Accuracy= 0.76562








 86%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                        | 669/782 [02:37<00:26,  4.19it/s]

Iter 669.0, Minibatch Loss= 1.386661, Training Accuracy= 0.77344








 86%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                        | 670/782 [02:37<00:26,  4.20it/s]

Iter 670.0, Minibatch Loss= 1.513972, Training Accuracy= 0.78906








 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                        | 671/782 [02:38<00:26,  4.20it/s]

Iter 671.0, Minibatch Loss= 1.294079, Training Accuracy= 0.77344








 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                       | 672/782 [02:38<00:26,  4.21it/s]

Iter 672.0, Minibatch Loss= 1.490299, Training Accuracy= 0.78906








 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                       | 673/782 [02:38<00:25,  4.23it/s]

Iter 673.0, Minibatch Loss= 1.349499, Training Accuracy= 0.78125








 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                       | 674/782 [02:38<00:25,  4.22it/s]

Iter 674.0, Minibatch Loss= 1.733170, Training Accuracy= 0.76562








 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                       | 675/782 [02:38<00:25,  4.24it/s]

Iter 675.0, Minibatch Loss= 1.653922, Training Accuracy= 0.71875








 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                       | 676/782 [02:39<00:24,  4.24it/s]

Iter 676.0, Minibatch Loss= 2.375621, Training Accuracy= 0.66406








 87%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                      | 677/782 [02:39<00:24,  4.24it/s]

Iter 677.0, Minibatch Loss= 2.149247, Training Accuracy= 0.63281








 87%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                      | 678/782 [02:39<00:24,  4.24it/s]

Iter 678.0, Minibatch Loss= 2.918476, Training Accuracy= 0.63281








 87%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                      | 679/782 [02:39<00:24,  4.26it/s]

Iter 679.0, Minibatch Loss= 2.215190, Training Accuracy= 0.62500








 87%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                      | 680/782 [02:40<00:23,  4.26it/s]

Iter 680.0, Minibatch Loss= 2.594418, Training Accuracy= 0.64844








 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                     | 681/782 [02:40<00:23,  4.27it/s]

Iter 681.0, Minibatch Loss= 1.832508, Training Accuracy= 0.70312








 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                     | 682/782 [02:40<00:23,  4.26it/s]

Iter 682.0, Minibatch Loss= 2.025554, Training Accuracy= 0.73438








 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                     | 683/782 [02:40<00:23,  4.27it/s]

Iter 683.0, Minibatch Loss= 1.176900, Training Accuracy= 0.80469








 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                     | 684/782 [02:41<00:23,  4.25it/s]

Iter 684.0, Minibatch Loss= 0.976104, Training Accuracy= 0.85938








 88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                     | 685/782 [02:41<00:23,  4.19it/s]

Iter 685.0, Minibatch Loss= 0.518704, Training Accuracy= 0.84375








 88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                    | 686/782 [02:41<00:22,  4.23it/s]

Iter 686.0, Minibatch Loss= 0.433419, Training Accuracy= 0.91406








 88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                    | 687/782 [02:41<00:22,  4.23it/s]

Iter 687.0, Minibatch Loss= 0.354320, Training Accuracy= 0.89062








 88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                    | 688/782 [02:42<00:22,  4.22it/s]

Iter 688.0, Minibatch Loss= 0.315163, Training Accuracy= 0.91406








 88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                    | 689/782 [02:42<00:22,  4.20it/s]

Iter 689.0, Minibatch Loss= 0.281108, Training Accuracy= 0.90625








 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                    | 690/782 [02:42<00:21,  4.23it/s]

Iter 690.0, Minibatch Loss= 0.258705, Training Accuracy= 0.92188








 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                   | 691/782 [02:42<00:21,  4.23it/s]

Iter 691.0, Minibatch Loss= 0.241210, Training Accuracy= 0.92188








 88%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                   | 692/782 [02:42<00:21,  4.24it/s]

Iter 692.0, Minibatch Loss= 0.242285, Training Accuracy= 0.92188








 89%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                   | 693/782 [02:43<00:21,  4.21it/s]

Iter 693.0, Minibatch Loss= 0.244823, Training Accuracy= 0.91406








 89%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                   | 694/782 [02:43<00:20,  4.23it/s]

Iter 694.0, Minibatch Loss= 0.286316, Training Accuracy= 0.90625








 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                  | 695/782 [02:43<00:20,  4.23it/s]

Iter 695.0, Minibatch Loss= 0.263379, Training Accuracy= 0.91406








 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                  | 696/782 [02:43<00:20,  4.25it/s]

Iter 696.0, Minibatch Loss= 0.326271, Training Accuracy= 0.89844








 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                  | 697/782 [02:44<00:20,  4.24it/s]

Iter 697.0, Minibatch Loss= 0.254670, Training Accuracy= 0.92188








 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                  | 698/782 [02:44<00:20,  4.20it/s]

Iter 698.0, Minibatch Loss= 0.310020, Training Accuracy= 0.89844








 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                  | 699/782 [02:44<00:20,  4.13it/s]

Iter 699.0, Minibatch Loss= 0.240815, Training Accuracy= 0.92969








 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                 | 700/782 [02:44<00:19,  4.15it/s]

Iter 700.0, Minibatch Loss= 0.285343, Training Accuracy= 0.90625








 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                 | 701/782 [02:45<00:19,  4.16it/s]

Iter 701.0, Minibatch Loss= 0.225550, Training Accuracy= 0.92969








 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                 | 702/782 [02:45<00:19,  4.05it/s]

Iter 702.0, Minibatch Loss= 0.259212, Training Accuracy= 0.90625








 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 703/782 [02:45<00:19,  4.04it/s]

Iter 703.0, Minibatch Loss= 0.208332, Training Accuracy= 0.93750








 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                | 704/782 [02:45<00:19,  4.03it/s]

Iter 704.0, Minibatch Loss= 0.229353, Training Accuracy= 0.91406








 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                | 705/782 [02:46<00:18,  4.06it/s]

Iter 705.0, Minibatch Loss= 0.185438, Training Accuracy= 0.95312








 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 706/782 [02:46<00:19,  3.91it/s]

Iter 706.0, Minibatch Loss= 0.190323, Training Accuracy= 0.92969








 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                | 707/782 [02:46<00:19,  3.89it/s]

Iter 707.0, Minibatch Loss= 0.153237, Training Accuracy= 0.96875








 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                | 708/782 [02:46<00:18,  3.97it/s]

Iter 708.0, Minibatch Loss= 0.141684, Training Accuracy= 0.94531








 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏               | 709/782 [02:47<00:18,  4.02it/s]

Iter 709.0, Minibatch Loss= 0.114651, Training Accuracy= 0.98438








 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍               | 710/782 [02:47<00:17,  4.05it/s]

Iter 710.0, Minibatch Loss= 0.097271, Training Accuracy= 0.95312








 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋               | 711/782 [02:47<00:17,  4.12it/s]

Iter 711.0, Minibatch Loss= 0.082666, Training Accuracy= 0.98438








 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊               | 712/782 [02:47<00:16,  4.16it/s]

Iter 712.0, Minibatch Loss= 0.071590, Training Accuracy= 0.96094








 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████               | 713/782 [02:48<00:16,  4.16it/s]

Iter 713.0, Minibatch Loss= 0.064702, Training Accuracy= 0.98438








 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎              | 714/782 [02:48<00:16,  4.19it/s]

Iter 714.0, Minibatch Loss= 0.059086, Training Accuracy= 0.98438








 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌              | 715/782 [02:48<00:15,  4.19it/s]

Iter 715.0, Minibatch Loss= 0.055455, Training Accuracy= 0.98438








 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋              | 716/782 [02:48<00:15,  4.14it/s]

Iter 716.0, Minibatch Loss= 0.052215, Training Accuracy= 0.99219








 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉              | 717/782 [02:49<00:15,  4.15it/s]

Iter 717.0, Minibatch Loss= 0.050014, Training Accuracy= 0.98438








 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏             | 718/782 [02:49<00:15,  4.16it/s]

Iter 718.0, Minibatch Loss= 0.047815, Training Accuracy= 0.99219








 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍             | 719/782 [02:49<00:15,  4.18it/s]

Iter 719.0, Minibatch Loss= 0.046174, Training Accuracy= 0.99219








 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌             | 720/782 [02:49<00:14,  4.19it/s]

Iter 720.0, Minibatch Loss= 0.044387, Training Accuracy= 0.99219








 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊             | 721/782 [02:50<00:14,  4.21it/s]

Iter 721.0, Minibatch Loss= 0.042852, Training Accuracy= 0.99219








 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████             | 722/782 [02:50<00:14,  4.21it/s]

Iter 722.0, Minibatch Loss= 0.041206, Training Accuracy= 0.99219








 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏            | 723/782 [02:50<00:14,  4.21it/s]

Iter 723.0, Minibatch Loss= 0.039663, Training Accuracy= 0.99219








 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍            | 724/782 [02:50<00:13,  4.20it/s]

Iter 724.0, Minibatch Loss= 0.038145, Training Accuracy= 1.00000








 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋            | 725/782 [02:50<00:13,  4.22it/s]

Iter 725.0, Minibatch Loss= 0.036719, Training Accuracy= 1.00000








 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉            | 726/782 [02:51<00:13,  4.22it/s]

Iter 726.0, Minibatch Loss= 0.035442, Training Accuracy= 1.00000








 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████            | 727/782 [02:51<00:13,  4.15it/s]

Iter 727.0, Minibatch Loss= 0.034295, Training Accuracy= 1.00000








 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎           | 728/782 [02:51<00:13,  4.13it/s]

Iter 728.0, Minibatch Loss= 0.033328, Training Accuracy= 1.00000








 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌           | 729/782 [02:51<00:12,  4.17it/s]

Iter 729.0, Minibatch Loss= 0.032490, Training Accuracy= 1.00000








 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊           | 730/782 [02:52<00:12,  4.17it/s]

Iter 730.0, Minibatch Loss= 0.031788, Training Accuracy= 1.00000








 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉           | 731/782 [02:52<00:12,  4.19it/s]

Iter 731.0, Minibatch Loss= 0.031174, Training Accuracy= 1.00000








 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏          | 732/782 [02:52<00:11,  4.19it/s]

Iter 732.0, Minibatch Loss= 0.030636, Training Accuracy= 1.00000








 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍          | 733/782 [02:52<00:11,  4.21it/s]

Iter 733.0, Minibatch Loss= 0.030146, Training Accuracy= 1.00000








 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋          | 734/782 [02:53<00:11,  4.20it/s]

Iter 734.0, Minibatch Loss= 0.029697, Training Accuracy= 1.00000








 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊          | 735/782 [02:53<00:11,  4.22it/s]

Iter 735.0, Minibatch Loss= 0.029274, Training Accuracy= 1.00000








 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████          | 736/782 [02:53<00:10,  4.20it/s]

Iter 736.0, Minibatch Loss= 0.028874, Training Accuracy= 1.00000








 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 737/782 [02:53<00:10,  4.22it/s]

Iter 737.0, Minibatch Loss= 0.028493, Training Accuracy= 1.00000








 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍         | 738/782 [02:54<00:10,  4.23it/s]

Iter 738.0, Minibatch Loss= 0.028129, Training Accuracy= 1.00000








 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋         | 739/782 [02:54<00:10,  4.21it/s]

Iter 739.0, Minibatch Loss= 0.027779, Training Accuracy= 1.00000








 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉         | 740/782 [02:54<00:09,  4.21it/s]

Iter 740.0, Minibatch Loss= 0.027443, Training Accuracy= 1.00000








 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏        | 741/782 [02:54<00:09,  4.15it/s]

Iter 741.0, Minibatch Loss= 0.027119, Training Accuracy= 1.00000








 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎        | 742/782 [02:55<00:09,  4.14it/s]

Iter 742.0, Minibatch Loss= 0.026807, Training Accuracy= 1.00000








 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌        | 743/782 [02:55<00:09,  4.15it/s]

Iter 743.0, Minibatch Loss= 0.026506, Training Accuracy= 1.00000








 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊        | 744/782 [02:55<00:09,  4.18it/s]

Iter 744.0, Minibatch Loss= 0.026216, Training Accuracy= 1.00000








 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████        | 745/782 [02:55<00:08,  4.18it/s]

Iter 745.0, Minibatch Loss= 0.025935, Training Accuracy= 1.00000








 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏       | 746/782 [02:56<00:08,  4.21it/s]

Iter 746.0, Minibatch Loss= 0.025663, Training Accuracy= 1.00000








 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍       | 747/782 [02:56<00:08,  4.17it/s]

Iter 747.0, Minibatch Loss= 0.025400, Training Accuracy= 1.00000








 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 748/782 [02:56<00:08,  4.13it/s]

Iter 748.0, Minibatch Loss= 0.025145, Training Accuracy= 1.00000








 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊       | 749/782 [02:56<00:07,  4.14it/s]

Iter 749.0, Minibatch Loss= 0.024897, Training Accuracy= 1.00000








 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████       | 750/782 [02:56<00:07,  4.18it/s]

Iter 750.0, Minibatch Loss= 4.545339, Training Accuracy= 0.51562








 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎      | 751/782 [02:57<00:07,  4.19it/s]

Iter 751.0, Minibatch Loss= 3.970806, Training Accuracy= 0.57031








 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌      | 752/782 [02:57<00:07,  4.14it/s]

Iter 752.0, Minibatch Loss= 3.592585, Training Accuracy= 0.60938








 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋      | 753/782 [02:57<00:07,  4.04it/s]

Iter 753.0, Minibatch Loss= 3.486883, Training Accuracy= 0.51562








 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉      | 754/782 [02:57<00:06,  4.09it/s]

Iter 754.0, Minibatch Loss= 3.820070, Training Accuracy= 0.61719








 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 755/782 [02:58<00:06,  4.12it/s]

Iter 755.0, Minibatch Loss= 4.103872, Training Accuracy= 0.45312








 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍     | 756/782 [02:58<00:06,  4.15it/s]

Iter 756.0, Minibatch Loss= 5.943904, Training Accuracy= 0.62500








 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌     | 757/782 [02:58<00:06,  4.15it/s]

Iter 757.0, Minibatch Loss= 4.273694, Training Accuracy= 0.44531








 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 758/782 [02:58<00:05,  4.16it/s]

Iter 758.0, Minibatch Loss= 6.262072, Training Accuracy= 0.60938








 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████     | 759/782 [02:59<00:05,  4.17it/s]

Iter 759.0, Minibatch Loss= 4.019545, Training Accuracy= 0.48438








 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 760/782 [02:59<00:05,  4.20it/s]

Iter 760.0, Minibatch Loss= 5.479345, Training Accuracy= 0.66406








 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍    | 761/782 [02:59<00:05,  4.19it/s]

Iter 761.0, Minibatch Loss= 3.843079, Training Accuracy= 0.47656








 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋    | 762/782 [02:59<00:04,  4.18it/s]

Iter 762.0, Minibatch Loss= 4.647197, Training Accuracy= 0.66406








 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉    | 763/782 [03:00<00:04,  4.18it/s]

Iter 763.0, Minibatch Loss= 2.601468, Training Accuracy= 0.61719








 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████    | 764/782 [03:00<00:04,  4.19it/s]

Iter 764.0, Minibatch Loss= 3.377168, Training Accuracy= 0.70312








 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎   | 765/782 [03:00<00:04,  4.19it/s]

Iter 765.0, Minibatch Loss= 1.971981, Training Accuracy= 0.62500








 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 766/782 [03:00<00:03,  4.08it/s]

Iter 766.0, Minibatch Loss= 2.824742, Training Accuracy= 0.71094








 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊   | 767/782 [03:01<00:03,  4.04it/s]

Iter 767.0, Minibatch Loss= 2.318572, Training Accuracy= 0.57812








 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉   | 768/782 [03:01<00:03,  3.90it/s]

Iter 768.0, Minibatch Loss= 3.499223, Training Accuracy= 0.67969








 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  | 769/782 [03:01<00:03,  3.88it/s]

Iter 769.0, Minibatch Loss= 2.658383, Training Accuracy= 0.57812








 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍  | 770/782 [03:01<00:03,  3.88it/s]

Iter 770.0, Minibatch Loss= 4.099176, Training Accuracy= 0.65625








 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 771/782 [03:02<00:02,  3.88it/s]

Iter 771.0, Minibatch Loss= 2.551532, Training Accuracy= 0.60156








 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊  | 772/782 [03:02<00:02,  3.95it/s]

Iter 772.0, Minibatch Loss= 3.276560, Training Accuracy= 0.73438








 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████  | 773/782 [03:02<00:02,  4.01it/s]

Iter 773.0, Minibatch Loss= 1.604921, Training Accuracy= 0.67969








 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 774/782 [03:02<00:01,  4.08it/s]

Iter 774.0, Minibatch Loss= 1.966093, Training Accuracy= 0.76562








 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 775/782 [03:03<00:01,  4.11it/s]

Iter 775.0, Minibatch Loss= 1.141319, Training Accuracy= 0.71875








 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 776/782 [03:03<00:01,  4.12it/s]

Iter 776.0, Minibatch Loss= 1.441983, Training Accuracy= 0.80469








 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 777/782 [03:03<00:01,  4.16it/s]

Iter 777.0, Minibatch Loss= 0.964305, Training Accuracy= 0.74219








 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏| 778/782 [03:03<00:00,  4.17it/s]

Iter 778.0, Minibatch Loss= 1.239481, Training Accuracy= 0.82031








100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎| 779/782 [03:04<00:00,  4.19it/s]

Iter 779.0, Minibatch Loss= 0.906927, Training Accuracy= 0.75781








100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌| 780/782 [03:04<00:00,  4.18it/s]

Iter 780.0, Minibatch Loss= 1.253128, Training Accuracy= 0.82812








100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊| 781/782 [03:04<00:00,  4.19it/s]

Iter 781.0, Minibatch Loss= 0.942414, Training Accuracy= 0.76562








100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 782/782 [03:04<00:00,  4.19it/s]

Training took 3:6.8636579513549805


### Developing

In [188]:
# import numpy as np
# accs = [] # 128
# batches = [128, 64, 32, 1, 256]
# for batch in batches:
#     batch_size = batch
#     print("dev batch %s" % str(batch))
#     accs.append(test("data/dev.txt"))

# print(accs)
# print("Best batch size %s" % str(batches[np.argmax(accs)]))


### Testing

In [189]:
def test(file_test="data/test_labeled.txt"):
    data_feature_list, correct_values, correct_scores = split_data_into_scores()

    #hyps, evis, ys 
    data = (data_feature_list[0],
                      data_feature_list[1],
                      correct_scores)
    # predictions = []
    correct_predictions = 0
    total_predictions = 0
    for i, f1 in enumerate(data_feature_list[0]):
        hyps, evis, ys = data_feature_list[0][i], data_feature_list[1][i], correct_scores[i]
        prediction = sess.run(classification_scores, feed_dict={hyp: ([hyps] * N), evi: ([evis] * N), y: ([ys] * N)})
    #     predictions.append(prediction)
        total_predictions += 1
        if np.argmax(prediction[0])==np.argmax(ys):
            correct_predictions += 1
    #     if total_predictions % 500 == 0:
    #         print(total_predictions)
    #     print(["Positive", "Neutral", "Negative"][np.argmax(prediction[0])]+
    #       " / " + ["Positive", "Neutral", "Negative"][np.argmax(ys[i])])
    print(total_predictions)

    # acc = sess.run(accuracy)#, feed_dict={'label': correct_scores})
    acc = correct_predictions*100/total_predictions
    print("Acc: %s" % str(acc))    
# print("Acc: %s" % str(acc))
import time
start = time.time()
test()
stop = time.time()
mins = int((stop-start)/60.0)
print("Training took %s:%s" % (str(mins), str(stop - start - mins*60)))



4500
Acc: 37.84444444444444
Training took 3:48.96599268913269


In [190]:
sess.close()