In [1]:
import os

In [2]:
os.chdir('/home/xiaochen/kewen/IF_project')

In [3]:

import argparse
import os
import random
from matplotlib import pyplot as plt
from sklearn.utils import shuffle
from tqdm import tqdm
import copy

import numpy as np
import torch

from torchvision import models, transforms
from src.data_utils.MnistDataset import MnistDataset
from src.utils.utils import save_json
from src.data_utils.Cifar10Dataset import Cifar10Dataset
from src.solver.hessian_solver import hessianSolver
from src.modeling.classification_models import CnnCifar, MNIST_1, CnnMnist, MNIST_LogisticRegression, MNIST_2
from src.modeling.influence_models import Net_IF, MNIST_IF_1
from torch.autograd.functional import hessian
from torch.nn.utils import _stateless
from torch.nn import CrossEntropyLoss 
import yaml

  from .autonotebook import tqdm as notebook_tqdm


In [4]:
YAMLPath = 'src/config/MNIST/single_test/exp/MNIST_1_100each/test_id_1/fenchel.yaml'


In [5]:
%env CUDA_VISIBLE_DEVICES=2

env: CUDA_VISIBLE_DEVICES=2


In [6]:
class Struct:
    def __init__(self, **entries):
        self.__dict__.update(entries)

def get_single_from_dataset(dataset, idx):
        x, y = dataset[idx]
        x = x.unsqueeze(0)
        y = torch.LongTensor([y])
        return x, y

In [7]:
    parser = argparse.ArgumentParser()
    parser.add_argument("--YAMLPath", type=str)
    args, unknown = parser.parse_known_args()
    if args.YAMLPath:
        YAMLPath = args.YAMLPath
    with open(YAMLPath) as file:
        config = yaml.safe_load(file)
    args = Struct(**config)

In [8]:
torch.manual_seed(args.seed)
torch.cuda.manual_seed(args.seed)
np.random.seed(args.seed)
random.seed(args.seed)
torch.backends.cudnn.deterministic=True



if args.dataset_name == 'cifar10':
    Dataset = Cifar10Dataset
    trans = transforms.Compose([ 
        transforms.ToTensor(), 
        transforms.Normalize(
        (0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010))
        ])
elif args.dataset_name == 'mnist':
    Dataset = MnistDataset
    trans = transforms.Compose([ 
        transforms.ToTensor(), 
        transforms.Normalize(
        (0.1307,),(0.3081,))
        ])
else:
    raise NotImplementedError()

class_label_dict = Dataset.get_class_label_dict()
train_classes = [class_label_dict[c] for c in args.train_classes]
ImageDataset = Dataset(args.dev_original_folder, args.dev_transformed_folder, args.test_original_folder, args.test_transformed_folder, train_classes, trans, args.num_per_class)

if args.classification_model == 'MNIST_1':
    classification_model = MNIST_1(args._hidden_size_classification, args._num_class).to('cuda')
elif args.classification_model == 'MNIST_2':
    classification_model = MNIST_2(args._num_class).to('cuda')
elif args.classification_model == 'MNIST_LogisticRegression':
    classification_model = MNIST_LogisticRegression(args._num_class).to('cuda')
elif args.classification_model == 'CnnMnist':
    classification_model = CnnMnist(args._num_class).to('cuda')
else:
    raise NotImplementedError()

train_dataset, train_dataset_no_transform = ImageDataset.get_train()
dev_dataset, dev_dataset_no_transform = ImageDataset.get_dev()

x_dev, y_dev = get_single_from_dataset(
    dev_dataset, args.dev_id_num)
train_dataset_size = len(train_dataset)

ckpt_dir = os.path.join("checkpoints/fenchel", args.dataset_name, args.classification_model)
os.makedirs(ckpt_dir, exist_ok=True)
pretrain_ckpt_path = os.path.join(ckpt_dir,
f"epoch{args.max_pretrain_epoch}_lr{args.pretrain_classification_lr}_" + args._pretrain_ckpt_name )
inv_hessian_path = os.path.join(ckpt_dir, "numpy_inv_hessian_" + os.path.basename(pretrain_ckpt_path))
hessian_solver = hessianSolver(classification_model, pretrain_ckpt_path, inv_hessian_path)
hessian_solver.load_data('train', train_dataset, 32, shuffle= True)
hessian_solver.load_data('dev', dev_dataset, 32, shuffle= False)

        

number of examples with label '0': 100
number of examples with label '1': 100
number of examples with label '2': 100
number of examples with label '3': 100
number of examples with label '4': 100
number of examples with label '5': 100
number of examples with label '6': 100
number of examples with label '7': 100
number of examples with label '8': 100
number of examples with label '9': 100
loaded train_dataset with 1000 samples
loaded dev FolderDataset with 10 files in folder, 


In [9]:
hessian_solver.get_optimizer_classification(
args.classification_lr,
args.classification_momentum,
args.classification_weight_decay,
args.optimizer_classification)


In [10]:
for epoch in tqdm(range(10000)):
    hessian_solver.pretrain_epoch()
    dev_acc = hessian_solver.evaluate('dev')
#     print('Pre-train Epoch {}, dev Acc: {:.4f}'.format(
#         epoch, 100. * dev_acc))
hessian_solver.save_checkpoint_classification(pretrain_ckpt_path)

  0%|                                                                                                                   | 0/10000 [00:00<?, ?it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A
                                                                                                                                                  [A
  0%|                                                                                                                   | 0/10000 [00:00<?, ?it/s]
Training Epoch: 100%|█████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 32.16it/s][A


[20] loss: 1.034 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 522.00it/s][A
  0%|                                                                                                         | 1/10000 [00:01<2:47:28,  1.00s/it]
                                                                                                                                                  [A
  0%|                                                                                                         | 1/10000 [00:01<2:47:28,  1.00s/it]
                                                                                                                                                  [A
  0%|                                                                                                         | 1/10000 [00:01<2:47:28,  1.00s/it]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[40] loss: 0.696 
[60] loss: 0.639 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 509.14it/s][A

                                                                                                                                                  [A
  0%|                                                                                                         | 1/10000 [00:01<2:47:28,  1.00s/it]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 681.26it/s][A


[80] loss: 0.366 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 717.10it/s][A
  0%|                                                                                                           | 3/10000 [00:01<51:45,  3.22it/s]
                                                                                                                                                  [A
  0%|                                                                                                           | 3/10000 [00:01<51:45,  3.22it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[100] loss: 0.401 


                                                                                                                                                  
  0%|                                                                                                           | 3/10000 [00:01<51:45,  3.22it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 621.95it/s][A


[120] loss: 0.419 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1530.21it/s][A

                                                                                                                                                  [A
  0%|                                                                                                           | 3/10000 [00:01<51:45,  3.22it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[140] loss: 0.288 


                                                                                                                                                  
  0%|                                                                                                           | 3/10000 [00:01<51:45,  3.22it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 624.88it/s][A


[160] loss: 0.153 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 754.51it/s][A
  0%|                                                                                                           | 5/10000 [00:01<30:29,  5.46it/s]
                                                                                                                                                  [A
  0%|                                                                                                           | 5/10000 [00:01<30:29,  5.46it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 731.07it/s][A

[180] loss: 0.275 




Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 836.85it/s][A

                                                                                                                                                  [A
  0%|                                                                                                           | 5/10000 [00:01<30:29,  5.46it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[200] loss: 0.302 


                                                                                                                                                  
  0%|                                                                                                           | 5/10000 [00:01<30:29,  5.46it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 629.52it/s][A


[220] loss: 0.409 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 897.95it/s][A
  0%|                                                                                                           | 7/10000 [00:01<21:34,  7.72it/s]
                                                                                                                                                  [A
  0%|                                                                                                           | 7/10000 [00:01<21:34,  7.72it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 795.22it/s][A


[240] loss: 0.417 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1111.37it/s][A

                                                                                                                                                  [A
  0%|                                                                                                           | 7/10000 [00:01<21:34,  7.72it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[260] loss: 0.104 


                                                                                                                                                  
  0%|                                                                                                           | 7/10000 [00:01<21:34,  7.72it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 718.18it/s][A


[280] loss: 0.196 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 924.87it/s][A

                                                                                                                                                  [A
  0%|                                                                                                           | 7/10000 [00:01<21:34,  7.72it/s]
                                                                                                                                                  [A
  0%|                                                                                                           | 7/10000 [00:01<21:34,  7.72it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 593.20it/s][A


[300] loss: 0.309 
[320] loss: 0.099 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1275.25it/s][A
  0%|                                                                                                          | 10/10000 [00:01<15:31, 10.72it/s]
                                                                                                                                                  [A
  0%|                                                                                                          | 10/10000 [00:01<15:31, 10.72it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 761.85it/s][A


[340] loss: 0.085 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 890.51it/s][A

                                                                                                                                                  [A
  0%|                                                                                                          | 10/10000 [00:01<15:31, 10.72it/s]
                                                                                                                                                  [A
  0%|                                                                                                          | 10/10000 [00:01<15:31, 10.72it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[360] loss: 0.344 
[380] loss: 0.119 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 652.47it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1362.67it/s][A
  0%|▏                                                                                                         | 12/10000 [00:01<13:28, 12.35it/s]
                                                                                                                                                  [A
  0%|▏                                                                                                         | 12/10000 [00:01<13:28, 12.35it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 759.97it/s][A


[400] loss: 0.142 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1190.55it/s][A

                                                                                                                                                  [A
  0%|▏                                                                                                         | 12/10000 [00:01<13:28, 12.35it/s]
                                                                                                                                                  [A
  0%|▏                                                                                                         | 12/10000 [00:01<13:28, 12.35it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 603.81it/s][A


[420] loss: 0.137 
[440] loss: 0.136 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1233.26it/s][A
  0%|▏                                                                                                         | 14/10000 [00:01<12:22, 13.45it/s]
                                                                                                                                                  [A
  0%|▏                                                                                                         | 14/10000 [00:01<12:22, 13.45it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[460] loss: 0.131 


                                                                                                                                                  
  0%|▏                                                                                                         | 14/10000 [00:01<12:22, 13.45it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 572.12it/s][A


[480] loss: 0.128 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1088.86it/s][A

                                                                                                                                                  [A
  0%|▏                                                                                                         | 14/10000 [00:01<12:22, 13.45it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[500] loss: 0.145 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 703.19it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1248.30it/s][A
  0%|▏                                                                                                         | 16/10000 [00:01<11:38, 14.30it/s]
                                                                                                                                                  [A
  0%|▏                                                                                                         | 16/10000 [00:01<11:38, 14.30it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[520] loss: 0.129 


                                                                                                                                                  
  0%|▏                                                                                                         | 16/10000 [00:01<11:38, 14.30it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 675.30it/s][A


[540] loss: 0.152 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 963.10it/s][A

                                                                                                                                                  [A
  0%|▏                                                                                                         | 16/10000 [00:01<11:38, 14.30it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[560] loss: 0.173 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 615.34it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 733.53it/s][A
  0%|▏                                                                                                         | 18/10000 [00:02<11:03, 15.03it/s]
                                                                                                                                                  [A
  0%|▏                                                                                                         | 18/10000 [00:02<11:03, 15.03it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[580] loss: 0.218 


                                                                                                                                                  
  0%|▏                                                                                                         | 18/10000 [00:02<11:03, 15.03it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[600] loss: 0.185 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 561.35it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1245.34it/s][A

                                                                                                                                                  [A
  0%|▏                                                                                                         | 18/10000 [00:02<11:03, 15.03it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[620] loss: 0.167 


                                                                                                                                                  
  0%|▏                                                                                                         | 18/10000 [00:02<11:03, 15.03it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 654.78it/s][A


[640] loss: 0.075 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 311.01it/s][A
  0%|▏                                                                                                         | 20/10000 [00:02<10:50, 15.34it/s]
                                                                                                                                                  [A
  0%|▏                                                                                                         | 20/10000 [00:02<10:50, 15.34it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[660] loss: 0.083 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 713.00it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1122.07it/s][A

                                                                                                                                                  [A
  0%|▏                                                                                                         | 20/10000 [00:02<10:50, 15.34it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[680] loss: 0.101 


                                                                                                                                                  
  0%|▏                                                                                                         | 20/10000 [00:02<10:50, 15.34it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 610.06it/s][A


[700] loss: 0.122 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 821.93it/s][A
  0%|▏                                                                                                         | 22/10000 [00:02<10:27, 15.91it/s]
                                                                                                                                                  [A
  0%|▏                                                                                                         | 22/10000 [00:02<10:27, 15.91it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[720] loss: 0.068 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 583.02it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 675.96it/s][A

                                                                                                                                                  [A
  0%|▏                                                                                                         | 22/10000 [00:02<10:27, 15.91it/s]
                                                                                                                                                  [A

[740] loss: 0.091 



  0%|▏                                                                                                         | 22/10000 [00:02<10:27, 15.91it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 539.20it/s][A


[760] loss: 0.170 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 720.55it/s][A
  0%|▎                                                                                                         | 24/10000 [00:02<10:41, 15.55it/s]
                                                                                                                                                  [A
  0%|▎                                                                                                         | 24/10000 [00:02<10:41, 15.55it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[780] loss: 0.069 


                                                                                                                                                  
  0%|▎                                                                                                         | 24/10000 [00:02<10:41, 15.55it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 530.00it/s][A


[800] loss: 0.095 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 339.98it/s][A

                                                                                                                                                  [A
  0%|▎                                                                                                         | 24/10000 [00:02<10:41, 15.55it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 576.01it/s][A


[820] loss: 0.048 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 509.82it/s][A
  0%|▎                                                                                                         | 26/10000 [00:02<10:51, 15.32it/s]
                                                                                                                                                  [A
  0%|▎                                                                                                         | 26/10000 [00:02<10:51, 15.32it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[840] loss: 0.097 


                                                                                                                                                  
  0%|▎                                                                                                         | 26/10000 [00:02<10:51, 15.32it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 491.06it/s][A


[860] loss: 0.082 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 999.12it/s][A

                                                                                                                                                  [A
  0%|▎                                                                                                         | 26/10000 [00:02<10:51, 15.32it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 752.17it/s][A


[880] loss: 0.060 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1173.56it/s][A
  0%|▎                                                                                                         | 28/10000 [00:02<10:36, 15.66it/s]
                                                                                                                                                  [A
  0%|▎                                                                                                         | 28/10000 [00:02<10:36, 15.66it/s]
                                                                                                                                                  [A
  0%|▎                                                                                                         | 28/10000 [00:02<10:36, 15.66it/s]
Training Epoch:   0%|                                                                                       

[900] loss: 0.103 
[920] loss: 0.074 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 616.25it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 791.23it/s][A

                                                                                                                                                  [A
  0%|▎                                                                                                         | 28/10000 [00:02<10:36, 15.66it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[940] loss: 0.070 


                                                                                                                                                  
  0%|▎                                                                                                         | 28/10000 [00:02<10:36, 15.66it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 552.91it/s][A


[960] loss: 0.034 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 429.26it/s][A
  0%|▎                                                                                                         | 30/10000 [00:02<10:32, 15.75it/s]
                                                                                                                                                  [A
  0%|▎                                                                                                         | 30/10000 [00:02<10:32, 15.75it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[980] loss: 0.069 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 606.20it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 491.54it/s][A

                                                                                                                                                  [A
  0%|▎                                                                                                         | 30/10000 [00:02<10:32, 15.75it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[1000] loss: 0.081 


                                                                                                                                                  
  0%|▎                                                                                                         | 30/10000 [00:02<10:32, 15.75it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 497.78it/s][A


[1020] loss: 0.063 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 776.00it/s][A
  0%|▎                                                                                                         | 32/10000 [00:02<10:46, 15.42it/s]
                                                                                                                                                  [A
  0%|▎                                                                                                         | 32/10000 [00:02<10:46, 15.42it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[1040] loss: 0.059 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 606.61it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 667.88it/s][A

                                                                                                                                                  [A
  0%|▎                                                                                                         | 32/10000 [00:02<10:46, 15.42it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[1060] loss: 0.094 


                                                                                                                                                  
  0%|▎                                                                                                         | 32/10000 [00:03<10:46, 15.42it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 500.75it/s][A


[1080] loss: 0.066 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 449.89it/s][A
  0%|▎                                                                                                         | 34/10000 [00:03<10:54, 15.24it/s]
                                                                                                                                                  [A
  0%|▎                                                                                                         | 34/10000 [00:03<10:54, 15.24it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[1100] loss: 0.151 


                                                                                                                                                  
  0%|▎                                                                                                         | 34/10000 [00:03<10:54, 15.24it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 536.23it/s][A


[1120] loss: 0.028 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 309.41it/s][A

                                                                                                                                                  [A
  0%|▎                                                                                                         | 34/10000 [00:03<10:54, 15.24it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 625.78it/s][A


[1140] loss: 0.125 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 431.65it/s][A
  0%|▍                                                                                                         | 36/10000 [00:03<10:53, 15.25it/s]
                                                                                                                                                  [A
  0%|▍                                                                                                         | 36/10000 [00:03<10:53, 15.25it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[1160] loss: 0.066 


                                                                                                                                                  
  0%|▍                                                                                                         | 36/10000 [00:03<10:53, 15.25it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 459.62it/s][A


[1180] loss: 0.045 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 715.63it/s][A

                                                                                                                                                  [A
  0%|▍                                                                                                         | 36/10000 [00:03<10:53, 15.25it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[1200] loss: 0.110 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 563.33it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 444.74it/s][A
  0%|▍                                                                                                         | 38/10000 [00:03<11:18, 14.69it/s]
                                                                                                                                                  [A
  0%|▍                                                                                                         | 38/10000 [00:03<11:18, 14.69it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[1220] loss: 0.098 


                                                                                                                                                  
  0%|▍                                                                                                         | 38/10000 [00:03<11:18, 14.69it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 526.61it/s][A


[1240] loss: 0.062 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 741.70it/s][A

                                                                                                                                                  [A
  0%|▍                                                                                                         | 38/10000 [00:03<11:18, 14.69it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[1260] loss: 0.055 


                                                                                                                                                  
  0%|▍                                                                                                         | 38/10000 [00:03<11:18, 14.69it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 642.25it/s][A


[1280] loss: 0.062 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 383.71it/s][A
  0%|▍                                                                                                         | 40/10000 [00:03<11:06, 14.93it/s]
                                                                                                                                                  [A
  0%|▍                                                                                                         | 40/10000 [00:03<11:06, 14.93it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[1300] loss: 0.043 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 833.97it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1577.99it/s][A

                                                                                                                                                  [A
  0%|▍                                                                                                         | 40/10000 [00:03<11:06, 14.93it/s]
                                                                                                                                                  [A
  0%|▍                                                                                                         | 40/10000 [00:03<11:06, 14.93it/s]
Training Epoch:   0%|                                                                                      

[1320] loss: 0.062 
[1340] loss: 0.088 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 774.79it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1521.33it/s][A

                                                                                                                                                  [A
  0%|▍                                                                                                         | 40/10000 [00:03<11:06, 14.93it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[1360] loss: 0.066 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 810.49it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2130.17it/s][A
  0%|▍                                                                                                         | 43/10000 [00:03<09:43, 17.06it/s]
                                                                                                                                                  [A
  0%|▍                                                                                                         | 43/10000 [00:03<09:43, 17.06it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[1380] loss: 0.069 


                                                                                                                                                  
  0%|▍                                                                                                         | 43/10000 [00:03<09:43, 17.06it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 798.61it/s][A


[1400] loss: 0.095 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1492.63it/s][A

                                                                                                                                                  [A
  0%|▍                                                                                                         | 43/10000 [00:03<09:43, 17.06it/s]
                                                                                                                                                  [A
                                                                                                                                                  

[1420] loss: 0.046 


  0%|▍                                                                                                         | 43/10000 [00:03<09:43, 17.06it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 721.14it/s][A


[1440] loss: 0.140 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1075.46it/s][A

                                                                                                                                                  [A
  0%|▍                                                                                                         | 43/10000 [00:03<09:43, 17.06it/s]

[1460] loss: 0.066 



Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 871.46it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1949.93it/s][A
  0%|▍                                                                                                         | 46/10000 [00:03<09:03, 18.30it/s]
                                                                                                                                                  [A
  0%|▍                                                                                                         | 46/10000 [00:03<09:03, 18.30it/s]
                                                                                                                                                  [A

[1480] loss: 0.075 



  0%|▍                                                                                                         | 46/10000 [00:03<09:03, 18.30it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 780.92it/s][A


[1500] loss: 0.058 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1167.35it/s][A

                                                                                                                                                  [A
  0%|▍                                                                                                         | 46/10000 [00:03<09:03, 18.30it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[1520] loss: 0.079 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 831.41it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2147.62it/s][A

                                                                                                                                                  [A
  0%|▍                                                                                                         | 46/10000 [00:03<09:03, 18.30it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[1540] loss: 0.066 


                                                                                                                                                  
  0%|▍                                                                                                         | 46/10000 [00:03<09:03, 18.30it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 717.77it/s][A


[1560] loss: 0.112 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 702.33it/s][A
  0%|▌                                                                                                         | 49/10000 [00:03<08:44, 18.99it/s]
                                                                                                                                                  [A
  0%|▌                                                                                                         | 49/10000 [00:03<08:44, 18.99it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[1580] loss: 0.052 


                                                                                                                                                  
  0%|▌                                                                                                         | 49/10000 [00:03<08:44, 18.99it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 645.15it/s][A


[1600] loss: 0.036 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1080.45it/s][A

                                                                                                                                                  [A
  0%|▌                                                                                                         | 49/10000 [00:03<08:44, 18.99it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[1620] loss: 0.072 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 806.40it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 977.69it/s][A
  1%|▌                                                                                                         | 51/10000 [00:03<08:44, 18.97it/s]
                                                                                                                                                  [A
  1%|▌                                                                                                         | 51/10000 [00:03<08:44, 18.97it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[1640] loss: 0.060 


                                                                                                                                                  
  1%|▌                                                                                                         | 51/10000 [00:04<08:44, 18.97it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 690.21it/s][A

[1660] loss: 0.055 




Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1402.31it/s][A

                                                                                                                                                  [A
  1%|▌                                                                                                         | 51/10000 [00:04<08:44, 18.97it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 779.91it/s][A


[1680] loss: 0.070 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1992.54it/s][A
  1%|▌                                                                                                         | 53/10000 [00:04<08:43, 18.99it/s]
                                                                                                                                                  [A
  1%|▌                                                                                                         | 53/10000 [00:04<08:43, 18.99it/s]
                                                                                                                                                  [A


[1700] loss: 0.063 


  1%|▌                                                                                                         | 53/10000 [00:04<08:43, 18.99it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 634.63it/s][A


[1720] loss: 0.059 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1387.46it/s][A

                                                                                                                                                  [A
  1%|▌                                                                                                         | 53/10000 [00:04<08:43, 18.99it/s]
                                                                                                                                                  [A
  1%|▌                                                                                                         | 53/10000 [00:04<08:43, 18.99it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 654.44it/s][A


[1740] loss: 0.052 
[1760] loss: 0.026 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1978.45it/s][A
  1%|▌                                                                                                         | 55/10000 [00:04<08:59, 18.42it/s]
                                                                                                                                                  [A
  1%|▌                                                                                                         | 55/10000 [00:04<08:59, 18.42it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 746.60it/s][A


[1780] loss: 0.057 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1353.00it/s][A

                                                                                                                                                  [A
  1%|▌                                                                                                         | 55/10000 [00:04<08:59, 18.42it/s]
                                                                                                                                                  [A
  1%|▌                                                                                                         | 55/10000 [00:04<08:59, 18.42it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[1800] loss: 0.140 
[1820] loss: 0.069 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 736.96it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1659.80it/s][A
  1%|▌                                                                                                         | 57/10000 [00:04<08:49, 18.78it/s]
                                                                                                                                                  [A
  1%|▌                                                                                                         | 57/10000 [00:04<08:49, 18.78it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[1840] loss: 0.071 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 875.51it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 742.09it/s][A

                                                                                                                                                  [A
  1%|▌                                                                                                         | 57/10000 [00:04<08:49, 18.78it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[1860] loss: 0.073 


                                                                                                                                                  
  1%|▌                                                                                                         | 57/10000 [00:04<08:49, 18.78it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 670.82it/s][A


[1880] loss: 0.102 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1345.62it/s][A
  1%|▋                                                                                                         | 59/10000 [00:04<08:44, 18.95it/s]
                                                                                                                                                  [A
  1%|▋                                                                                                         | 59/10000 [00:04<08:44, 18.95it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[1900] loss: 0.064 


                                                                                                                                                  
  1%|▋                                                                                                         | 59/10000 [00:04<08:44, 18.95it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 705.89it/s][A


[1920] loss: 0.021 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2307.10it/s][A

                                                                                                                                                  [A
  1%|▋                                                                                                         | 59/10000 [00:04<08:44, 18.95it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 726.11it/s][A


[1940] loss: 0.062 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 730.08it/s][A
  1%|▋                                                                                                         | 61/10000 [00:04<08:42, 19.03it/s]
                                                                                                                                                  [A
  1%|▋                                                                                                         | 61/10000 [00:04<08:42, 19.03it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[1960] loss: 0.056 


                                                                                                                                                  
  1%|▋                                                                                                         | 61/10000 [00:04<08:42, 19.03it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 521.59it/s][A


[1980] loss: 0.062 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 812.06it/s][A

                                                                                                                                                  [A
  1%|▋                                                                                                         | 61/10000 [00:04<08:42, 19.03it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[2000] loss: 0.048 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 627.20it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 777.01it/s][A
  1%|▋                                                                                                         | 63/10000 [00:04<09:18, 17.79it/s]
                                                                                                                                                  [A
  1%|▋                                                                                                         | 63/10000 [00:04<09:18, 17.79it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[2020] loss: 0.048 


                                                                                                                                                  
  1%|▋                                                                                                         | 63/10000 [00:04<09:18, 17.79it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 560.05it/s][A


[2040] loss: 0.053 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 970.23it/s][A

                                                                                                                                                  [A
  1%|▋                                                                                                         | 63/10000 [00:04<09:18, 17.79it/s]
                                                                                                                                                  [A

[2060] loss: 0.048 



  1%|▋                                                                                                         | 63/10000 [00:04<09:18, 17.79it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 549.29it/s][A


[2080] loss: 0.080 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 463.66it/s][A
  1%|▋                                                                                                         | 65/10000 [00:04<09:48, 16.87it/s]
                                                                                                                                                  [A
  1%|▋                                                                                                         | 65/10000 [00:04<09:48, 16.87it/s]

[2100] loss: 0.054 



Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 608.27it/s][A

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 989.92it/s][A

                                                                                                                                                  [A
  1%|▋                                                                                                         | 65/10000 [00:04<09:48, 16.87it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[2120] loss: 0.093 


                                                                                                                                                  
  1%|▋                                                                                                         | 65/10000 [00:04<09:48, 16.87it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 484.52it/s][A


[2140] loss: 0.082 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 737.27it/s][A
  1%|▋                                                                                                         | 67/10000 [00:04<10:19, 16.02it/s]
                                                                                                                                                  [A
  1%|▋                                                                                                         | 67/10000 [00:04<10:19, 16.02it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 657.81it/s][A

[2160] loss: 0.068 




Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 525.47it/s][A

                                                                                                                                                  [A
  1%|▋                                                                                                         | 67/10000 [00:04<10:19, 16.02it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[2180] loss: 0.056 


                                                                                                                                                  
  1%|▋                                                                                                         | 67/10000 [00:05<10:19, 16.02it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[2200] loss: 0.072 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 388.69it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 940.43it/s][A
  1%|▋                                                                                                         | 69/10000 [00:05<11:07, 14.87it/s]
                                                                                                                                                  [A
  1%|▋                                                                                                         | 69/10000 [00:05<11:07, 14.87it/s]


[2220] loss: 0.081 


                                                                                                                                                  [A
  1%|▋                                                                                                         | 69/10000 [00:05<11:07, 14.87it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 496.90it/s][A


[2240] loss: 0.093 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 392.69it/s][A

                                                                                                                                                  [A
  1%|▋                                                                                                         | 69/10000 [00:05<11:07, 14.87it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[2260] loss: 0.061 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 583.78it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 977.69it/s][A
  1%|▊                                                                                                         | 71/10000 [00:05<11:11, 14.79it/s]
                                                                                                                                                  [A
  1%|▊                                                                                                         | 71/10000 [00:05<11:11, 14.79it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[2280] loss: 0.071 


                                                                                                                                                  
  1%|▊                                                                                                         | 71/10000 [00:05<11:11, 14.79it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 508.42it/s][A


[2300] loss: 0.065 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 796.49it/s][A

                                                                                                                                                  [A
  1%|▊                                                                                                         | 71/10000 [00:05<11:11, 14.79it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 607.81it/s][A

[2320] loss: 0.078 




Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 968.21it/s][A
  1%|▊                                                                                                         | 73/10000 [00:05<11:09, 14.84it/s]
                                                                                                                                                  [A
  1%|▊                                                                                                         | 73/10000 [00:05<11:09, 14.84it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[2340] loss: 0.075 


                                                                                                                                                  
  1%|▊                                                                                                         | 73/10000 [00:05<11:09, 14.84it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 557.42it/s][A


[2360] loss: 0.054 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 440.95it/s][A

                                                                                                                                                  [A
  1%|▊                                                                                                         | 73/10000 [00:05<11:09, 14.84it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[2380] loss: 0.086 


                                                                                                                                                  
  1%|▊                                                                                                         | 73/10000 [00:05<11:09, 14.84it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 558.30it/s][A


[2400] loss: 0.096 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 749.65it/s][A
  1%|▊                                                                                                         | 75/10000 [00:05<11:08, 14.84it/s]
                                                                                                                                                  [A
  1%|▊                                                                                                         | 75/10000 [00:05<11:08, 14.84it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 624.78it/s][A


[2420] loss: 0.056 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1010.43it/s][A

                                                                                                                                                  [A
  1%|▊                                                                                                         | 75/10000 [00:05<11:08, 14.84it/s]

[2440] loss: 0.065 



                                                                                                                                                  [A
  1%|▊                                                                                                         | 75/10000 [00:05<11:08, 14.84it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 541.51it/s][A


[2460] loss: 0.068 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 637.24it/s][A
  1%|▊                                                                                                         | 77/10000 [00:05<11:03, 14.96it/s]
                                                                                                                                                  [A
  1%|▊                                                                                                         | 77/10000 [00:05<11:03, 14.96it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 603.58it/s][A


[2480] loss: 0.081 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 971.35it/s][A

                                                                                                                                                  [A
  1%|▊                                                                                                         | 77/10000 [00:05<11:03, 14.96it/s]
                                                                                                                                                  [A
[A                                                                                                                                               

[2500] loss: 0.039 
[2520] loss: 0.062 


  1%|▊                                                                                                         | 77/10000 [00:05<11:03, 14.96it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 644.24it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1430.04it/s][A
  1%|▊                                                                                                         | 79/10000 [00:05<10:43, 15.42it/s]
                                                                                                                                                  [A
  1%|▊                                                                                                         | 79/10000 [00:05<10:43, 15.42it/s]
Training Epoch:   0%|                                                                                       

[2540] loss: 0.086 


                                                                                                                                                  
  1%|▊                                                                                                         | 79/10000 [00:05<10:43, 15.42it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 703.26it/s][A


[2560] loss: 0.012 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 255.63it/s][A

                                                                                                                                                  [A
  1%|▊                                                                                                         | 79/10000 [00:05<10:43, 15.42it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 804.71it/s][A


[2580] loss: 0.089 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 834.02it/s][A
  1%|▊                                                                                                         | 81/10000 [00:05<10:04, 16.41it/s]
                                                                                                                                                  [A
  1%|▊                                                                                                         | 81/10000 [00:05<10:04, 16.41it/s]
                                                                                                                                                  [A
  1%|▊                                                                                                         | 81/10000 [00:05<10:04, 16.41it/s]
Training Epoch:   0%|                                                                                       

[2600] loss: 0.042 
[2620] loss: 0.067 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 627.47it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1053.85it/s][A

                                                                                                                                                  [A
  1%|▊                                                                                                         | 81/10000 [00:05<10:04, 16.41it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 833.99it/s][A


[2640] loss: 0.068 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1527.42it/s][A
  1%|▉                                                                                                         | 83/10000 [00:05<09:44, 16.97it/s]
                                                                                                                                                  [A
  1%|▉                                                                                                         | 83/10000 [00:05<09:44, 16.97it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[2660] loss: 0.054 


                                                                                                                                                  
  1%|▉                                                                                                         | 83/10000 [00:05<09:44, 16.97it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 682.81it/s][A


[2680] loss: 0.049 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1185.84it/s][A

                                                                                                                                                  [A
  1%|▉                                                                                                         | 83/10000 [00:06<09:44, 16.97it/s]
                                                                                                                                                  [A
  1%|▉                                                                                                         | 83/10000 [00:06<09:44, 16.97it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 647.58it/s][A

[2700] loss: 0.049 
[2720] loss: 0.021 




Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1738.21it/s][A
  1%|▉                                                                                                         | 85/10000 [00:06<09:39, 17.11it/s]
                                                                                                                                                  [A
  1%|▉                                                                                                         | 85/10000 [00:06<09:39, 17.11it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 887.18it/s][A


[2740] loss: 0.065 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 642.81it/s][A

                                                                                                                                                  [A
  1%|▉                                                                                                         | 85/10000 [00:06<09:39, 17.11it/s]
                                                                                                                                                  [A
  1%|▉                                                                                                         | 85/10000 [00:06<09:39, 17.11it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 670.90it/s][A


[2760] loss: 0.028 
[2780] loss: 0.081 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1088.58it/s][A
  1%|▉                                                                                                         | 87/10000 [00:06<09:16, 17.81it/s]
                                                                                                                                                  [A
  1%|▉                                                                                                         | 87/10000 [00:06<09:16, 17.81it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[2800] loss: 0.051 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 763.21it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1569.14it/s][A

                                                                                                                                                  [A
[A                                                                                                                                               

[2820] loss: 0.073 


  1%|▉                                                                                                         | 87/10000 [00:06<09:16, 17.81it/s]
                                                                                                                                                  [A
  1%|▉                                                                                                         | 87/10000 [00:06<09:16, 17.81it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 570.85it/s][A


[2840] loss: 0.085 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 748.18it/s][A
  1%|▉                                                                                                         | 89/10000 [00:06<09:19, 17.70it/s]
                                                                                                                                                  [A
  1%|▉                                                                                                         | 89/10000 [00:06<09:19, 17.70it/s]
                                                                                                                                                  [A
                                                                                                                                                  

[2860] loss: 0.071 


  1%|▉                                                                                                         | 89/10000 [00:06<09:19, 17.70it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 701.55it/s][A


[2880] loss: 0.062 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 745.12it/s][A

                                                                                                                                                  [A
  1%|▉                                                                                                         | 89/10000 [00:06<09:19, 17.70it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 820.82it/s][A


[2900] loss: 0.036 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2247.75it/s][A

                                                                                                                                                  [A
  1%|▉                                                                                                         | 89/10000 [00:06<09:19, 17.70it/s]
                                                                                                                                                  [A
  1%|▉                                                                                                         | 89/10000 [00:06<09:19, 17.70it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 758.88it/s][A


[2920] loss: 0.063 
[2940] loss: 0.077 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1261.44it/s][A
  1%|▉                                                                                                         | 92/10000 [00:06<08:50, 18.69it/s]
                                                                                                                                                  [A
  1%|▉                                                                                                         | 92/10000 [00:06<08:50, 18.69it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[2960] loss: 0.059 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 756.21it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 945.09it/s][A

                                                                                                                                                  [A
  1%|▉                                                                                                         | 92/10000 [00:06<08:50, 18.69it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[2980] loss: 0.040 


                                                                                                                                                  
  1%|▉                                                                                                         | 92/10000 [00:06<08:50, 18.69it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[3000] loss: 0.050 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 580.48it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1307.04it/s][A
  1%|▉                                                                                                         | 94/10000 [00:06<09:01, 18.30it/s]
                                                                                                                                                  [A
  1%|▉                                                                                                         | 94/10000 [00:06<09:01, 18.30it/s]
                                                                                                                                                  [A

[3020] loss: 0.038 



  1%|▉                                                                                                         | 94/10000 [00:06<09:01, 18.30it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 663.52it/s][A


[3040] loss: 0.047 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 276.58it/s][A

                                                                                                                                                  [A
  1%|▉                                                                                                         | 94/10000 [00:06<09:01, 18.30it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 714.77it/s][A


[3060] loss: 0.052 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2047.00it/s][A
  1%|█                                                                                                         | 96/10000 [00:06<09:04, 18.19it/s]
                                                                                                                                                  [A
  1%|█                                                                                                         | 96/10000 [00:06<09:04, 18.19it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[3080] loss: 0.053 


                                                                                                                                                  
  1%|█                                                                                                         | 96/10000 [00:06<09:04, 18.19it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 662.10it/s][A


[3100] loss: 0.092 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1363.11it/s][A

                                                                                                                                                  [A
  1%|█                                                                                                         | 96/10000 [00:06<09:04, 18.19it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 745.02it/s][A


[3120] loss: 0.060 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 642.81it/s][A
  1%|█                                                                                                         | 98/10000 [00:06<09:02, 18.24it/s]
                                                                                                                                                  [A
  1%|█                                                                                                         | 98/10000 [00:06<09:02, 18.24it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[3140] loss: 0.040 


                                                                                                                                                  
  1%|█                                                                                                         | 98/10000 [00:06<09:02, 18.24it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 626.57it/s][A


[3160] loss: 0.077 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 784.42it/s][A

                                                                                                                                                  [A
  1%|█                                                                                                         | 98/10000 [00:06<09:02, 18.24it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[3180] loss: 0.031 


                                                                                                                                                  
  1%|█                                                                                                         | 98/10000 [00:06<09:02, 18.24it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 628.15it/s][A


[3200] loss: 0.032 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1288.97it/s][A
  1%|█                                                                                                        | 100/10000 [00:06<09:16, 17.78it/s]
                                                                                                                                                  [A
  1%|█                                                                                                        | 100/10000 [00:06<09:16, 17.78it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 741.28it/s][A


[3220] loss: 0.061 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 713.20it/s][A

                                                                                                                                                  [A
  1%|█                                                                                                        | 100/10000 [00:06<09:16, 17.78it/s]
                                                                                                                                                  [A
  1%|█                                                                                                        | 100/10000 [00:06<09:16, 17.78it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[3240] loss: 0.041 
[3260] loss: 0.077 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 701.76it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 815.54it/s][A
  1%|█                                                                                                        | 102/10000 [00:06<09:05, 18.13it/s]
                                                                                                                                                  [A
  1%|█                                                                                                        | 102/10000 [00:06<09:05, 18.13it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 736.04it/s][A


[3280] loss: 0.055 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 843.75it/s][A

                                                                                                                                                  [A
  1%|█                                                                                                        | 102/10000 [00:07<09:05, 18.13it/s]
                                                                                                                                                  [A


[3300] loss: 0.056 


  1%|█                                                                                                        | 102/10000 [00:07<09:05, 18.13it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 667.44it/s][A


[3320] loss: 0.046 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1343.04it/s][A
  1%|█                                                                                                        | 104/10000 [00:07<09:01, 18.26it/s]
                                                                                                                                                  [A
  1%|█                                                                                                        | 104/10000 [00:07<09:01, 18.26it/s]
                                                                                                                                                  [A
  1%|█                                                                                                        | 104/10000 [00:07<09:01, 18.26it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[3340] loss: 0.037 
[3360] loss: 0.046 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2242.94it/s][A

                                                                                                                                                  [A
  1%|█                                                                                                        | 104/10000 [00:07<09:01, 18.26it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 683.65it/s][A


[3380] loss: 0.068 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 711.14it/s][A
  1%|█                                                                                                        | 106/10000 [00:07<08:52, 18.59it/s]
                                                                                                                                                  [A
  1%|█                                                                                                        | 106/10000 [00:07<08:52, 18.59it/s]
                                                                                                                                                  [A
  1%|█                                                                                                        | 106/10000 [00:07<08:52, 18.59it/s]
Training Epoch:   0%|                                                                                       

[3400] loss: 0.066 
[3420] loss: 0.088 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 568.07it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 830.06it/s][A

                                                                                                                                                  [A
  1%|█                                                                                                        | 106/10000 [00:07<08:52, 18.59it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[3440] loss: 0.059 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 607.59it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1198.72it/s][A
  1%|█▏                                                                                                       | 108/10000 [00:07<09:18, 17.71it/s]
                                                                                                                                                  [A
  1%|█▏                                                                                                       | 108/10000 [00:07<09:18, 17.71it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[3460] loss: 0.064 


                                                                                                                                                  
  1%|█▏                                                                                                       | 108/10000 [00:07<09:18, 17.71it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 504.82it/s][A


[3480] loss: 0.076 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 497.43it/s][A

                                                                                                                                                  [A
  1%|█▏                                                                                                       | 108/10000 [00:07<09:18, 17.71it/s]
                                                                                                                                                  [A
  1%|█▏                                                                                                       | 108/10000 [00:07<09:18, 17.71it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 561.63it/s][A


[3500] loss: 0.063 
[3520] loss: 0.126 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 832.04it/s][A
  1%|█▏                                                                                                       | 110/10000 [00:07<09:52, 16.68it/s]
                                                                                                                                                  [A
  1%|█▏                                                                                                       | 110/10000 [00:07<09:52, 16.68it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[3540] loss: 0.049 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 671.12it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 817.92it/s][A

                                                                                                                                                  [A
  1%|█▏                                                                                                       | 110/10000 [00:07<09:52, 16.68it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[3560] loss: 0.068 


                                                                                                                                                  
  1%|█▏                                                                                                       | 110/10000 [00:07<09:52, 16.68it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[3580] loss: 0.057 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 552.68it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 984.58it/s][A
  1%|█▏                                                                                                       | 112/10000 [00:07<09:59, 16.50it/s]
                                                                                                                                                  [A
  1%|█▏                                                                                                       | 112/10000 [00:07<09:59, 16.50it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[3600] loss: 0.040 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 689.59it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 888.81it/s][A

                                                                                                                                                  [A
  1%|█▏                                                                                                       | 112/10000 [00:07<09:59, 16.50it/s]
                                                                                                                                                  [A
  1%|█▏                                                                                                       | 112/10000 [00:07<09:59, 16.50it/s]
Training Epoch:   0%|                                                                                      

[3620] loss: 0.068 
[3640] loss: 0.079 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 510.13it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 988.29it/s][A
  1%|█▏                                                                                                       | 114/10000 [00:07<10:05, 16.32it/s]
                                                                                                                                                  [A
  1%|█▏                                                                                                       | 114/10000 [00:07<10:05, 16.32it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[3660] loss: 0.060 


                                                                                                                                                  
  1%|█▏                                                                                                       | 114/10000 [00:07<10:05, 16.32it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 491.75it/s][A


[3680] loss: 0.034 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 414.46it/s][A

                                                                                                                                                  [A
  1%|█▏                                                                                                       | 114/10000 [00:07<10:05, 16.32it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 601.37it/s][A


[3700] loss: 0.056 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 668.31it/s][A
  1%|█▏                                                                                                       | 116/10000 [00:07<10:28, 15.72it/s]
                                                                                                                                                  [A
  1%|█▏                                                                                                       | 116/10000 [00:07<10:28, 15.72it/s]
                                                                                                                                                  [A
  1%|█▏                                                                                                       | 116/10000 [00:07<10:28, 15.72it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[3720] loss: 0.039 
[3740] loss: 0.054 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 527.19it/s][A

                                                                                                                                                  [A
  1%|█▏                                                                                                       | 116/10000 [00:07<10:28, 15.72it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[3760] loss: 0.058 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 526.83it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1037.68it/s][A
  1%|█▏                                                                                                       | 118/10000 [00:07<10:57, 15.03it/s]
                                                                                                                                                  [A
  1%|█▏                                                                                                       | 118/10000 [00:07<10:57, 15.03it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[3780] loss: 0.040 


                                                                                                                                                  
  1%|█▏                                                                                                       | 118/10000 [00:08<10:57, 15.03it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 479.36it/s][A


[3800] loss: 0.046 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 584.82it/s][A

                                                                                                                                                  [A
  1%|█▏                                                                                                       | 118/10000 [00:08<10:57, 15.03it/s]
                                                                                                                                                  [A
  1%|█▏                                                                                                       | 118/10000 [00:08<10:57, 15.03it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 473.48it/s][A


[3820] loss: 0.058 
[3840] loss: 0.079 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 705.52it/s][A
  1%|█▎                                                                                                       | 120/10000 [00:08<11:30, 14.30it/s]
                                                                                                                                                  [A
  1%|█▎                                                                                                       | 120/10000 [00:08<11:30, 14.30it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 602.79it/s][A


[3860] loss: 0.063 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 816.81it/s][A

                                                                                                                                                  [A
  1%|█▎                                                                                                       | 120/10000 [00:08<11:30, 14.30it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[3880] loss: 0.058 


                                                                                                                                                  
  1%|█▎                                                                                                       | 120/10000 [00:08<11:30, 14.30it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 467.01it/s][A


[3900] loss: 0.068 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 681.34it/s][A
  1%|█▎                                                                                                       | 122/10000 [00:08<11:37, 14.17it/s]
                                                                                                                                                  [A
  1%|█▎                                                                                                       | 122/10000 [00:08<11:37, 14.17it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 562.99it/s][A


[3920] loss: 0.042 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 901.61it/s][A

                                                                                                                                                  [A
  1%|█▎                                                                                                       | 122/10000 [00:08<11:37, 14.17it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[3940] loss: 0.048 


                                                                                                                                                  
  1%|█▎                                                                                                       | 122/10000 [00:08<11:37, 14.17it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 556.80it/s][A


[3960] loss: 0.063 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1542.59it/s][A
  1%|█▎                                                                                                       | 124/10000 [00:08<11:31, 14.29it/s]
                                                                                                                                                  [A
  1%|█▎                                                                                                       | 124/10000 [00:08<11:31, 14.29it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[3980] loss: 0.051 


                                                                                                                                                  
  1%|█▎                                                                                                       | 124/10000 [00:08<11:31, 14.29it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 581.19it/s][A


[4000] loss: 0.105 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1187.85it/s][A

                                                                                                                                                  [A
  1%|█▎                                                                                                       | 124/10000 [00:08<11:31, 14.29it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[4020] loss: 0.055 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 760.31it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1019.77it/s][A
  1%|█▎                                                                                                       | 126/10000 [00:08<10:54, 15.09it/s]
                                                                                                                                                  [A
  1%|█▎                                                                                                       | 126/10000 [00:08<10:54, 15.09it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[4040] loss: 0.058 


                                                                                                                                                  
  1%|█▎                                                                                                       | 126/10000 [00:08<10:54, 15.09it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 551.19it/s][A


[4060] loss: 0.065 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 886.56it/s][A

                                                                                                                                                  [A
  1%|█▎                                                                                                       | 126/10000 [00:08<10:54, 15.09it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[4080] loss: 0.036 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 672.86it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1081.01it/s][A
  1%|█▎                                                                                                       | 128/10000 [00:08<10:43, 15.34it/s]
                                                                                                                                                  [A
  1%|█▎                                                                                                       | 128/10000 [00:08<10:43, 15.34it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[4100] loss: 0.044 


                                                                                                                                                  
  1%|█▎                                                                                                       | 128/10000 [00:08<10:43, 15.34it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[4120] loss: 0.063 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 629.72it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1337.90it/s][A

                                                                                                                                                  [A
  1%|█▎                                                                                                       | 128/10000 [00:08<10:43, 15.34it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[4140] loss: 0.063 


                                                                                                                                                  
  1%|█▎                                                                                                       | 128/10000 [00:08<10:43, 15.34it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 611.10it/s][A


[4160] loss: 0.022 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1442.83it/s][A
  1%|█▎                                                                                                       | 130/10000 [00:08<10:29, 15.68it/s]
                                                                                                                                                  [A
  1%|█▎                                                                                                       | 130/10000 [00:08<10:29, 15.68it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 739.67it/s][A


[4180] loss: 0.064 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1302.98it/s][A

                                                                                                                                                  [A
  1%|█▎                                                                                                       | 130/10000 [00:08<10:29, 15.68it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[4200] loss: 0.051 


                                                                                                                                                  
  1%|█▎                                                                                                       | 130/10000 [00:08<10:29, 15.68it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 573.76it/s][A


[4220] loss: 0.088 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1307.04it/s][A
  1%|█▍                                                                                                       | 132/10000 [00:08<10:24, 15.81it/s]
                                                                                                                                                  [A
  1%|█▍                                                                                                       | 132/10000 [00:08<10:24, 15.81it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[4240] loss: 0.033 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 691.59it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 969.78it/s][A

                                                                                                                                                  [A
  1%|█▍                                                                                                       | 132/10000 [00:08<10:24, 15.81it/s]
                                                                                                                                                  [A
  1%|█▍                                                                                                       | 132/10000 [00:08<10:24, 15.81it/s]
Training Epoch:   0%|                                                                                      

[4260] loss: 0.054 
[4280] loss: 0.063 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 636.02it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1109.02it/s][A
  1%|█▍                                                                                                       | 134/10000 [00:09<10:13, 16.08it/s]
                                                                                                                                                  [A
  1%|█▍                                                                                                       | 134/10000 [00:09<10:13, 16.08it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[4300] loss: 0.042 


                                                                                                                                                  
  1%|█▍                                                                                                       | 134/10000 [00:09<10:13, 16.08it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 580.83it/s][A


[4320] loss: 0.052 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 746.98it/s][A

                                                                                                                                                  [A
  1%|█▍                                                                                                       | 134/10000 [00:09<10:13, 16.08it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[4340] loss: 0.065 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 715.87it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1809.45it/s][A
  1%|█▍                                                                                                       | 136/10000 [00:09<10:02, 16.38it/s]
                                                                                                                                                  [A
  1%|█▍                                                                                                       | 136/10000 [00:09<10:02, 16.38it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[4360] loss: 0.062 


                                                                                                                                                  
  1%|█▍                                                                                                       | 136/10000 [00:09<10:02, 16.38it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 588.16it/s][A


[4380] loss: 0.065 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1318.96it/s][A

                                                                                                                                                  [A
  1%|█▍                                                                                                       | 136/10000 [00:09<10:02, 16.38it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[4400] loss: 0.073 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 704.72it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2091.92it/s][A
  1%|█▍                                                                                                       | 138/10000 [00:09<09:55, 16.55it/s]
                                                                                                                                                  [A
  1%|█▍                                                                                                       | 138/10000 [00:09<09:55, 16.55it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[4420] loss: 0.042 


                                                                                                                                                  
  1%|█▍                                                                                                       | 138/10000 [00:09<09:55, 16.55it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 634.47it/s][A


[4440] loss: 0.048 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 632.34it/s][A

                                                                                                                                                  [A
  1%|█▍                                                                                                       | 138/10000 [00:09<09:55, 16.55it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[4460] loss: 0.046 


                                                                                                                                                  
  1%|█▍                                                                                                       | 138/10000 [00:09<09:55, 16.55it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 585.71it/s][A


[4480] loss: 0.076 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1156.09it/s][A
  1%|█▍                                                                                                       | 140/10000 [00:09<10:00, 16.41it/s]
                                                                                                                                                  [A
  1%|█▍                                                                                                       | 140/10000 [00:09<10:00, 16.41it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 771.88it/s][A


[4500] loss: 0.041 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 765.80it/s][A

                                                                                                                                                  [A
  1%|█▍                                                                                                       | 140/10000 [00:09<10:00, 16.41it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[4520] loss: 0.048 


                                                                                                                                                  
  1%|█▍                                                                                                       | 140/10000 [00:09<10:00, 16.41it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 591.58it/s][A


[4540] loss: 0.077 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 878.57it/s][A
  1%|█▍                                                                                                       | 142/10000 [00:09<09:47, 16.77it/s]
                                                                                                                                                  [A
  1%|█▍                                                                                                       | 142/10000 [00:09<09:47, 16.77it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[4560] loss: 0.063 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 576.57it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 905.51it/s][A

                                                                                                                                                  [A
  1%|█▍                                                                                                       | 142/10000 [00:09<09:47, 16.77it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[4580] loss: 0.024 


                                                                                                                                                  
  1%|█▍                                                                                                       | 142/10000 [00:09<09:47, 16.77it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 449.19it/s][A


[4600] loss: 0.093 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1536.38it/s][A
  1%|█▌                                                                                                       | 144/10000 [00:09<10:28, 15.69it/s]
                                                                                                                                                  [A
  1%|█▌                                                                                                       | 144/10000 [00:09<10:28, 15.69it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[4620] loss: 0.048 


                                                                                                                                                  
  1%|█▌                                                                                                       | 144/10000 [00:09<10:28, 15.69it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 448.23it/s][A


[4640] loss: 0.074 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 298.34it/s][A

                                                                                                                                                  [A
  1%|█▌                                                                                                       | 144/10000 [00:09<10:28, 15.69it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[4660] loss: 0.048 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 574.67it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 716.36it/s][A
  1%|█▌                                                                                                       | 146/10000 [00:09<11:08, 14.74it/s]
                                                                                                                                                  [A
  1%|█▌                                                                                                       | 146/10000 [00:09<11:08, 14.74it/s]
                                                                                                                                                  [A
  1%|█▌                                                                                                     

[4680] loss: 0.035 
[4700] loss: 0.046 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 458.69it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 813.16it/s][A

                                                                                                                                                  [A
  1%|█▌                                                                                                       | 146/10000 [00:09<11:08, 14.74it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[4720] loss: 0.069 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 570.07it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 591.83it/s][A
  1%|█▌                                                                                                       | 148/10000 [00:09<11:30, 14.27it/s]
                                                                                                                                                  [A
  1%|█▌                                                                                                       | 148/10000 [00:09<11:30, 14.27it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[4740] loss: 0.035 


                                                                                                                                                  
  1%|█▌                                                                                                       | 148/10000 [00:09<11:30, 14.27it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 471.31it/s][A


[4760] loss: 0.089 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 894.69it/s][A

                                                                                                                                                  [A
  1%|█▌                                                                                                       | 148/10000 [00:10<11:30, 14.27it/s]
                                                                                                                                                  [A
  1%|█▌                                                                                                       | 148/10000 [00:10<11:30, 14.27it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 487.72it/s][A


[4780] loss: 0.092 
[4800] loss: 0.078 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 706.71it/s][A
  2%|█▌                                                                                                       | 150/10000 [00:10<11:51, 13.84it/s]
                                                                                                                                                  [A
  2%|█▌                                                                                                       | 150/10000 [00:10<11:51, 13.84it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[4820] loss: 0.037 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 529.54it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 847.33it/s][A

                                                                                                                                                  [A
  2%|█▌                                                                                                       | 150/10000 [00:10<11:51, 13.84it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[4840] loss: 0.055 


                                                                                                                                                  
  2%|█▌                                                                                                       | 150/10000 [00:10<11:51, 13.84it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 470.45it/s][A


[4860] loss: 0.039 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 497.66it/s][A
  2%|█▌                                                                                                       | 152/10000 [00:10<11:58, 13.70it/s]
                                                                                                                                                  [A
  2%|█▌                                                                                                       | 152/10000 [00:10<11:58, 13.70it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 577.81it/s][A


[4880] loss: 0.052 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 444.26it/s][A

                                                                                                                                                  [A
  2%|█▌                                                                                                       | 152/10000 [00:10<11:58, 13.70it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[4900] loss: 0.050 


                                                                                                                                                  
  2%|█▌                                                                                                       | 152/10000 [00:10<11:58, 13.70it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 508.65it/s][A


[4920] loss: 0.032 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 523.18it/s][A
  2%|█▌                                                                                                       | 154/10000 [00:10<11:51, 13.83it/s]
                                                                                                                                                  [A
  2%|█▌                                                                                                       | 154/10000 [00:10<11:51, 13.83it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[4940] loss: 0.053 


                                                                                                                                                  
  2%|█▌                                                                                                       | 154/10000 [00:10<11:51, 13.83it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 513.88it/s][A


[4960] loss: 0.086 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 555.54it/s][A

                                                                                                                                                  [A
  2%|█▌                                                                                                       | 154/10000 [00:10<11:51, 13.83it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 608.64it/s][A


[4980] loss: 0.059 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1165.73it/s][A
  2%|█▋                                                                                                       | 156/10000 [00:10<11:35, 14.16it/s]
                                                                                                                                                  [A
  2%|█▋                                                                                                       | 156/10000 [00:10<11:35, 14.16it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[5000] loss: 0.059 


                                                                                                                                                  
  2%|█▋                                                                                                       | 156/10000 [00:10<11:35, 14.16it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 468.31it/s][A


[5020] loss: 0.044 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 732.12it/s][A

                                                                                                                                                  [A
  2%|█▋                                                                                                       | 156/10000 [00:10<11:35, 14.16it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 745.24it/s][A


[5040] loss: 0.048 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 567.33it/s][A
  2%|█▋                                                                                                       | 158/10000 [00:10<11:22, 14.43it/s]
                                                                                                                                                  [A
  2%|█▋                                                                                                       | 158/10000 [00:10<11:22, 14.43it/s]
                                                                                                                                                  [A
                                                                                                                                                  

[5060] loss: 0.067 


  2%|█▋                                                                                                       | 158/10000 [00:10<11:22, 14.43it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 636.95it/s][A


[5080] loss: 0.032 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1399.50it/s][A

                                                                                                                                                  [A
  2%|█▋                                                                                                       | 158/10000 [00:10<11:22, 14.43it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[5100] loss: 0.021 


                                                                                                                                                  
  2%|█▋                                                                                                       | 158/10000 [00:10<11:22, 14.43it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 640.65it/s][A


[5120] loss: 0.066 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1116.40it/s][A
  2%|█▋                                                                                                       | 160/10000 [00:10<10:51, 15.10it/s]
                                                                                                                                                  [A
  2%|█▋                                                                                                       | 160/10000 [00:10<10:51, 15.10it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 719.04it/s][A


[5140] loss: 0.044 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 605.06it/s][A

                                                                                                                                                  [A
  2%|█▋                                                                                                       | 160/10000 [00:10<10:51, 15.10it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[5160] loss: 0.052 


                                                                                                                                                  
  2%|█▋                                                                                                       | 160/10000 [00:10<10:51, 15.10it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 559.10it/s][A


[5180] loss: 0.089 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 490.16it/s][A
  2%|█▋                                                                                                       | 162/10000 [00:10<10:36, 15.44it/s]
                                                                                                                                                  [A
  2%|█▋                                                                                                       | 162/10000 [00:10<10:36, 15.44it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[5200] loss: 0.046 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 787.75it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 562.47it/s][A

                                                                                                                                                  [A
  2%|█▋                                                                                                       | 162/10000 [00:10<10:36, 15.44it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[5220] loss: 0.026 


                                                                                                                                                  
  2%|█▋                                                                                                       | 162/10000 [00:10<10:36, 15.44it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[5240] loss: 0.050 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 595.26it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1275.25it/s][A
  2%|█▋                                                                                                       | 164/10000 [00:11<10:15, 15.98it/s]
                                                                                                                                                  [A
  2%|█▋                                                                                                       | 164/10000 [00:11<10:15, 15.98it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[5260] loss: 0.056 


                                                                                                                                                  
  2%|█▋                                                                                                       | 164/10000 [00:11<10:15, 15.98it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 659.50it/s][A


[5280] loss: 0.037 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1054.64it/s][A

                                                                                                                                                  [A
  2%|█▋                                                                                                       | 164/10000 [00:11<10:15, 15.98it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 853.89it/s][A


[5300] loss: 0.073 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1728.90it/s][A
  2%|█▋                                                                                                       | 166/10000 [00:11<09:40, 16.94it/s]
                                                                                                                                                  [A
  2%|█▋                                                                                                       | 166/10000 [00:11<09:40, 16.94it/s]
                                                                                                                                                  [A
  2%|█▋                                                                                                       | 166/10000 [00:11<09:40, 16.94it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[5320] loss: 0.077 
[5340] loss: 0.045 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 835.52it/s][A

                                                                                                                                                  [A
  2%|█▋                                                                                                       | 166/10000 [00:11<09:40, 16.94it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[5360] loss: 0.050 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 830.39it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1327.31it/s][A

                                                                                                                                                  [A
  2%|█▋                                                                                                       | 166/10000 [00:11<09:40, 16.94it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[5380] loss: 0.061 


                                                                                                                                                  
  2%|█▋                                                                                                       | 166/10000 [00:11<09:40, 16.94it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 666.88it/s][A


[5400] loss: 0.082 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 687.14it/s][A
  2%|█▊                                                                                                       | 169/10000 [00:11<09:09, 17.89it/s]
                                                                                                                                                  [A
  2%|█▊                                                                                                       | 169/10000 [00:11<09:09, 17.89it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[5420] loss: 0.096 


                                                                                                                                                  
  2%|█▊                                                                                                       | 169/10000 [00:11<09:09, 17.89it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 625.58it/s][A


[5440] loss: 0.006 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1024.00it/s][A

                                                                                                                                                  [A
  2%|█▊                                                                                                       | 169/10000 [00:11<09:09, 17.89it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 769.22it/s][A


[5460] loss: 0.058 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 739.74it/s][A
  2%|█▊                                                                                                       | 171/10000 [00:11<09:11, 17.83it/s]
                                                                                                                                                  [A
  2%|█▊                                                                                                       | 171/10000 [00:11<09:11, 17.83it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[5480] loss: 0.078 


                                                                                                                                                  
  2%|█▊                                                                                                       | 171/10000 [00:11<09:11, 17.83it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 562.72it/s][A


[5500] loss: 0.050 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1275.64it/s][A

                                                                                                                                                  [A
  2%|█▊                                                                                                       | 171/10000 [00:11<09:11, 17.83it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[5520] loss: 0.070 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 691.11it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 769.46it/s][A
  2%|█▊                                                                                                       | 173/10000 [00:11<09:26, 17.36it/s]
                                                                                                                                                  [A
  2%|█▊                                                                                                       | 173/10000 [00:11<09:26, 17.36it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[5540] loss: 0.031 


                                                                                                                                                  
  2%|█▊                                                                                                       | 173/10000 [00:11<09:26, 17.36it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[5560] loss: 0.044 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 599.59it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1314.01it/s][A

                                                                                                                                                  [A
  2%|█▊                                                                                                       | 173/10000 [00:11<09:26, 17.36it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[5580] loss: 0.077 


                                                                                                                                                  
  2%|█▊                                                                                                       | 173/10000 [00:11<09:26, 17.36it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 566.41it/s][A


[5600] loss: 0.159 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 586.78it/s][A
  2%|█▊                                                                                                       | 175/10000 [00:11<09:45, 16.78it/s]
                                                                                                                                                  [A
  2%|█▊                                                                                                       | 175/10000 [00:11<09:45, 16.78it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[5620] loss: 0.088 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 657.27it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 847.85it/s][A

                                                                                                                                                  [A
  2%|█▊                                                                                                       | 175/10000 [00:11<09:45, 16.78it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[5640] loss: 0.041 


                                                                                                                                                  
  2%|█▊                                                                                                       | 175/10000 [00:11<09:45, 16.78it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 467.42it/s][A


[5660] loss: 0.061 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 765.38it/s][A
  2%|█▊                                                                                                       | 177/10000 [00:11<10:15, 15.96it/s]
                                                                                                                                                  [A
  2%|█▊                                                                                                       | 177/10000 [00:11<10:15, 15.96it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[5680] loss: 0.032 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 544.39it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 838.53it/s][A

                                                                                                                                                  [A
  2%|█▊                                                                                                       | 177/10000 [00:11<10:15, 15.96it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[5700] loss: 0.041 


                                                                                                                                                  
  2%|█▊                                                                                                       | 177/10000 [00:11<10:15, 15.96it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[5720] loss: 0.058 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 451.10it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 597.73it/s][A
  2%|█▉                                                                                                       | 179/10000 [00:11<10:57, 14.95it/s]
                                                                                                                                                  [A
  2%|█▉                                                                                                       | 179/10000 [00:11<10:57, 14.95it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[5740] loss: 0.051 


                                                                                                                                                  
  2%|█▉                                                                                                       | 179/10000 [00:11<10:57, 14.95it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 526.08it/s][A


[5760] loss: 0.077 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 807.53it/s][A

                                                                                                                                                  [A
  2%|█▉                                                                                                       | 179/10000 [00:12<10:57, 14.95it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 576.58it/s][A


[5780] loss: 0.039 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 751.40it/s][A
  2%|█▉                                                                                                       | 181/10000 [00:12<11:00, 14.87it/s]
                                                                                                                                                  [A
  2%|█▉                                                                                                       | 181/10000 [00:12<11:00, 14.87it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[5800] loss: 0.056 


                                                                                                                                                  
  2%|█▉                                                                                                       | 181/10000 [00:12<11:00, 14.87it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 451.94it/s][A


[5820] loss: 0.064 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 438.73it/s][A

                                                                                                                                                  [A
  2%|█▉                                                                                                       | 181/10000 [00:12<11:00, 14.87it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[5840] loss: 0.056 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 550.74it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 638.31it/s][A
  2%|█▉                                                                                                       | 183/10000 [00:12<11:22, 14.38it/s]
                                                                                                                                                  [A
  2%|█▉                                                                                                       | 183/10000 [00:12<11:22, 14.38it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[5860] loss: 0.076 


                                                                                                                                                  
  2%|█▉                                                                                                       | 183/10000 [00:12<11:22, 14.38it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[5880] loss: 0.061 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 444.09it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 625.83it/s][A

                                                                                                                                                  [A
  2%|█▉                                                                                                       | 183/10000 [00:12<11:22, 14.38it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[5900] loss: 0.052 


                                                                                                                                                  
  2%|█▉                                                                                                       | 183/10000 [00:12<11:22, 14.38it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 515.49it/s][A


[5920] loss: 0.036 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 337.98it/s][A
  2%|█▉                                                                                                       | 185/10000 [00:12<11:44, 13.93it/s]
                                                                                                                                                  [A
  2%|█▉                                                                                                       | 185/10000 [00:12<11:44, 13.93it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[5940] loss: 0.068 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 515.32it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 757.78it/s][A

                                                                                                                                                  [A
  2%|█▉                                                                                                       | 185/10000 [00:12<11:44, 13.93it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[5960] loss: 0.053 


                                                                                                                                                  
  2%|█▉                                                                                                       | 185/10000 [00:12<11:44, 13.93it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 466.09it/s][A


[5980] loss: 0.089 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 982.27it/s][A
  2%|█▉                                                                                                       | 187/10000 [00:12<11:55, 13.72it/s]
                                                                                                                                                  [A
  2%|█▉                                                                                                       | 187/10000 [00:12<11:55, 13.72it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[6000] loss: 0.094 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 535.46it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 794.07it/s][A

                                                                                                                                                  [A
  2%|█▉                                                                                                       | 187/10000 [00:12<11:55, 13.72it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[6020] loss: 0.093 


                                                                                                                                                  
  2%|█▉                                                                                                       | 187/10000 [00:12<11:55, 13.72it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 483.40it/s][A


[6040] loss: 0.032 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 794.07it/s][A
  2%|█▉                                                                                                       | 189/10000 [00:12<11:59, 13.63it/s]
                                                                                                                                                  [A
  2%|█▉                                                                                                       | 189/10000 [00:12<11:59, 13.63it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[6060] loss: 0.065 


                                                                                                                                                  
  2%|█▉                                                                                                       | 189/10000 [00:12<11:59, 13.63it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 495.63it/s][A


[6080] loss: 0.072 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 835.35it/s][A

                                                                                                                                                  [A
  2%|█▉                                                                                                       | 189/10000 [00:12<11:59, 13.63it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[6100] loss: 0.073 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 513.88it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 592.50it/s][A
  2%|██                                                                                                       | 191/10000 [00:12<11:58, 13.65it/s]
                                                                                                                                                  [A
  2%|██                                                                                                       | 191/10000 [00:12<11:58, 13.65it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[6120] loss: 0.056 


                                                                                                                                                  
  2%|██                                                                                                       | 191/10000 [00:12<11:58, 13.65it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[6140] loss: 0.050 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 376.33it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1690.57it/s][A

                                                                                                                                                  [A
  2%|██                                                                                                       | 191/10000 [00:12<11:58, 13.65it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 487.94it/s][A

[6160] loss: 0.050 




Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1407.96it/s][A
  2%|██                                                                                                       | 193/10000 [00:12<12:34, 12.99it/s]
                                                                                                                                                  [A
  2%|██                                                                                                       | 193/10000 [00:12<12:34, 12.99it/s]
                                                                                                                                                  [A
  2%|██                                                                                                       | 193/10000 [00:13<12:34, 12.99it/s]
Training Epoch: 100%|██████████████████████████████████████████████████████████████████████████████████████

[6180] loss: 0.035 
[6200] loss: 0.072 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1514.19it/s][A

                                                                                                                                                  [A
  2%|██                                                                                                       | 193/10000 [00:13<12:34, 12.99it/s]
                                                                                                                                                  [A
  2%|██                                                                                                       | 193/10000 [00:13<12:34, 12.99it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 693.40it/s][A


[6220] loss: 0.068 
[6240] loss: 0.019 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2424.45it/s][A
  2%|██                                                                                                       | 195/10000 [00:13<11:22, 14.38it/s]
                                                                                                                                                  [A
  2%|██                                                                                                       | 195/10000 [00:13<11:22, 14.38it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 853.27it/s][A


[6260] loss: 0.063 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1775.74it/s][A

                                                                                                                                                  [A
  2%|██                                                                                                       | 195/10000 [00:13<11:22, 14.38it/s]
                                                                                                                                                  [A
  2%|██                                                                                                       | 195/10000 [00:13<11:22, 14.38it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 713.42it/s][A


[6280] loss: 0.094 
[6300] loss: 0.050 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1585.75it/s][A

                                                                                                                                                  [A
  2%|██                                                                                                       | 195/10000 [00:13<11:22, 14.38it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 912.62it/s][A


[6320] loss: 0.045 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2376.38it/s][A
  2%|██                                                                                                       | 198/10000 [00:13<09:46, 16.71it/s]
                                                                                                                                                  [A
  2%|██                                                                                                       | 198/10000 [00:13<09:46, 16.71it/s]
                                                                                                                                                  [A
  2%|██                                                                                                       | 198/10000 [00:13<09:46, 16.71it/s]
Training Epoch:   0%|                                                                                       

[6340] loss: 0.043 
[6360] loss: 0.057 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 807.97it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1548.86it/s][A

                                                                                                                                                  [A
  2%|██                                                                                                       | 198/10000 [00:13<09:46, 16.71it/s]
                                                                                                                                                  [A
  2%|██                                                                                                       | 198/10000 [00:13<09:46, 16.71it/s]

[6380] loss: 0.057 
[6400] loss: 0.037 



Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 687.58it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1553.45it/s][A
  2%|██                                                                                                       | 200/10000 [00:13<09:20, 17.47it/s]
                                                                                                                                                  [A
  2%|██                                                                                                       | 200/10000 [00:13<09:20, 17.47it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 801.41it/s][A


[6420] loss: 0.049 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1178.84it/s][A

                                                                                                                                                  [A
  2%|██                                                                                                       | 200/10000 [00:13<09:20, 17.47it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[6440] loss: 0.050 


                                                                                                                                                  
  2%|██                                                                                                       | 200/10000 [00:13<09:20, 17.47it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 688.35it/s][A


[6460] loss: 0.047 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 974.51it/s][A
  2%|██                                                                                                       | 202/10000 [00:13<09:01, 18.10it/s]
                                                                                                                                                  [A
  2%|██                                                                                                       | 202/10000 [00:13<09:01, 18.10it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 943.99it/s][A


[6480] loss: 0.058 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 969.33it/s][A

                                                                                                                                                  [A
  2%|██                                                                                                       | 202/10000 [00:13<09:01, 18.10it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[6500] loss: 0.067 


                                                                                                                                                  
  2%|██                                                                                                       | 202/10000 [00:13<09:01, 18.10it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 829.06it/s][A


[6520] loss: 0.075 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 976.78it/s][A

                                                                                                                                                  [A
  2%|██                                                                                                       | 202/10000 [00:13<09:01, 18.10it/s]
                                                                                                                                                  [A
  2%|██                                                                                                       | 202/10000 [00:13<09:01, 18.10it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 832.57it/s][A


[6540] loss: 0.067 
[6560] loss: 0.093 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 276.69it/s][A
  2%|██▏                                                                                                      | 205/10000 [00:13<08:21, 19.54it/s]
                                                                                                                                                  [A
  2%|██▏                                                                                                      | 205/10000 [00:13<08:21, 19.54it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[6580] loss: 0.068 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 811.88it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 697.66it/s][A

                                                                                                                                                  [A
  2%|██▏                                                                                                      | 205/10000 [00:13<08:21, 19.54it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[6600] loss: 0.085 


                                                                                                                                                  
  2%|██▏                                                                                                      | 205/10000 [00:13<08:21, 19.54it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 631.60it/s][A


[6620] loss: 0.095 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1195.98it/s][A
  2%|██▏                                                                                                      | 207/10000 [00:13<08:25, 19.39it/s]
                                                                                                                                                  [A
  2%|██▏                                                                                                      | 207/10000 [00:13<08:25, 19.39it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[6640] loss: 0.064 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 810.52it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1448.81it/s][A

                                                                                                                                                  [A
  2%|██▏                                                                                                      | 207/10000 [00:13<08:25, 19.39it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[6660] loss: 0.033 


                                                                                                                                                  
  2%|██▏                                                                                                      | 207/10000 [00:13<08:25, 19.39it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 622.55it/s][A


[6680] loss: 0.052 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 758.88it/s][A
  2%|██▏                                                                                                      | 209/10000 [00:13<08:30, 19.19it/s]
                                                                                                                                                  [A
  2%|██▏                                                                                                      | 209/10000 [00:13<08:30, 19.19it/s]
                                                                                                                                                  [A


[6700] loss: 0.042 


  2%|██▏                                                                                                      | 209/10000 [00:13<08:30, 19.19it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 580.15it/s][A


[6720] loss: 0.016 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 500.10it/s][A

                                                                                                                                                  [A
  2%|██▏                                                                                                      | 209/10000 [00:13<08:30, 19.19it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 884.15it/s][A


[6740] loss: 0.042 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 350.20it/s][A
  2%|██▏                                                                                                      | 211/10000 [00:13<08:56, 18.25it/s]
                                                                                                                                                  [A
  2%|██▏                                                                                                      | 211/10000 [00:13<08:56, 18.25it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[6760] loss: 0.069 


                                                                                                                                                  
  2%|██▏                                                                                                      | 211/10000 [00:13<08:56, 18.25it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[6780] loss: 0.072 



Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 299.97it/s][A

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 604.11it/s][A

                                                                                                                                                  [A
  2%|██▏                                                                                                      | 211/10000 [00:14<08:56, 18.25it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[6800] loss: 0.069 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 503.99it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 756.41it/s][A
  2%|██▏                                                                                                      | 213/10000 [00:14<11:02, 14.77it/s]
                                                                                                                                                  [A
  2%|██▏                                                                                                      | 213/10000 [00:14<11:02, 14.77it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[6820] loss: 0.070 


                                                                                                                                                  
  2%|██▏                                                                                                      | 213/10000 [00:14<11:02, 14.77it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[6840] loss: 0.043 



Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 304.73it/s][A

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 590.25it/s][A

                                                                                                                                                  [A
  2%|██▏                                                                                                      | 213/10000 [00:14<11:02, 14.77it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[6860] loss: 0.062 


                                                                                                                                                  
  2%|██▏                                                                                                      | 213/10000 [00:14<11:02, 14.77it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 482.83it/s][A


[6880] loss: 0.037 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 359.84it/s][A
  2%|██▎                                                                                                      | 215/10000 [00:14<12:23, 13.17it/s]
                                                                                                                                                  [A
  2%|██▎                                                                                                      | 215/10000 [00:14<12:23, 13.17it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 599.27it/s][A


[6900] loss: 0.049 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 465.36it/s][A

                                                                                                                                                  [A
  2%|██▎                                                                                                      | 215/10000 [00:14<12:23, 13.17it/s]
                                                                                                                                                  [A
  2%|██▎                                                                                                      | 215/10000 [00:14<12:23, 13.17it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 462.88it/s][A


[6920] loss: 0.041 
[6940] loss: 0.062 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 576.38it/s][A
  2%|██▎                                                                                                      | 217/10000 [00:14<12:08, 13.44it/s]
                                                                                                                                                  [A
  2%|██▎                                                                                                      | 217/10000 [00:14<12:08, 13.44it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[6960] loss: 0.075 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 557.58it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 846.82it/s][A

                                                                                                                                                  [A
  2%|██▎                                                                                                      | 217/10000 [00:14<12:08, 13.44it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[6980] loss: 0.045 


                                                                                                                                                  
  2%|██▎                                                                                                      | 217/10000 [00:14<12:08, 13.44it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 484.54it/s][A


[7000] loss: 0.043 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 494.55it/s][A
  2%|██▎                                                                                                      | 219/10000 [00:14<12:00, 13.57it/s]
                                                                                                                                                  [A
  2%|██▎                                                                                                      | 219/10000 [00:14<12:00, 13.57it/s]
                                                                                                                                                  [A
  2%|██▎                                                                                                      | 219/10000 [00:14<12:00, 13.57it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[7020] loss: 0.047 
[7040] loss: 0.038 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 293.88it/s][A

                                                                                                                                                  [A
  2%|██▎                                                                                                      | 219/10000 [00:14<12:00, 13.57it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 567.09it/s][A


[7060] loss: 0.055 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 534.78it/s][A
  2%|██▎                                                                                                      | 221/10000 [00:14<11:55, 13.66it/s]
                                                                                                                                                  [A
  2%|██▎                                                                                                      | 221/10000 [00:14<11:55, 13.66it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[7080] loss: 0.072 


                                                                                                                                                  
  2%|██▎                                                                                                      | 221/10000 [00:14<11:55, 13.66it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 435.57it/s][A


[7100] loss: 0.088 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 906.48it/s][A

                                                                                                                                                  [A
  2%|██▎                                                                                                      | 221/10000 [00:14<11:55, 13.66it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 553.17it/s][A


[7120] loss: 0.058 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 548.20it/s][A
  2%|██▎                                                                                                      | 223/10000 [00:14<12:04, 13.49it/s]
                                                                                                                                                  [A
  2%|██▎                                                                                                      | 223/10000 [00:14<12:04, 13.49it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[7140] loss: 0.059 


                                                                                                                                                  
  2%|██▎                                                                                                      | 223/10000 [00:14<12:04, 13.49it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 508.40it/s][A


[7160] loss: 0.056 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 820.16it/s][A

                                                                                                                                                  [A
  2%|██▎                                                                                                      | 223/10000 [00:14<12:04, 13.49it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[7180] loss: 0.048 


                                                                                                                                                  
  2%|██▎                                                                                                      | 223/10000 [00:14<12:04, 13.49it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 512.27it/s][A


[7200] loss: 0.023 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 795.58it/s][A
  2%|██▎                                                                                                      | 225/10000 [00:15<12:01, 13.56it/s]
                                                                                                                                                  [A
  2%|██▎                                                                                                      | 225/10000 [00:15<12:01, 13.56it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 586.56it/s][A


[7220] loss: 0.063 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 789.29it/s][A

                                                                                                                                                  [A
  2%|██▎                                                                                                      | 225/10000 [00:15<12:01, 13.56it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[7240] loss: 0.072 


                                                                                                                                                  
  2%|██▎                                                                                                      | 225/10000 [00:15<12:01, 13.56it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 675.91it/s][A


[7260] loss: 0.043 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 656.90it/s][A
  2%|██▍                                                                                                      | 227/10000 [00:15<11:21, 14.33it/s]
                                                                                                                                                  [A
  2%|██▍                                                                                                      | 227/10000 [00:15<11:21, 14.33it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[7280] loss: 0.066 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 723.74it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2126.93it/s][A

                                                                                                                                                  [A
  2%|██▍                                                                                                      | 227/10000 [00:15<11:21, 14.33it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[7300] loss: 0.050 


                                                                                                                                                  
  2%|██▍                                                                                                      | 227/10000 [00:15<11:21, 14.33it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 596.17it/s][A


[7320] loss: 0.056 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 666.71it/s][A
  2%|██▍                                                                                                      | 229/10000 [00:15<10:43, 15.19it/s]
                                                                                                                                                  [A
  2%|██▍                                                                                                      | 229/10000 [00:15<10:43, 15.19it/s]
                                                                                                                                                  [A

[7340] loss: 0.053 



  2%|██▍                                                                                                      | 229/10000 [00:15<10:43, 15.19it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 664.58it/s][A


[7360] loss: 0.097 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1475.31it/s][A

                                                                                                                                                  [A
  2%|██▍                                                                                                      | 229/10000 [00:15<10:43, 15.19it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 738.75it/s][A


[7380] loss: 0.046 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 685.12it/s][A
  2%|██▍                                                                                                      | 231/10000 [00:15<10:12, 15.95it/s]
                                                                                                                                                  [A
  2%|██▍                                                                                                      | 231/10000 [00:15<10:12, 15.95it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[7400] loss: 0.037 


                                                                                                                                                  
  2%|██▍                                                                                                      | 231/10000 [00:15<10:12, 15.95it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 631.93it/s][A


[7420] loss: 0.107 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1417.47it/s][A

                                                                                                                                                  [A
  2%|██▍                                                                                                      | 231/10000 [00:15<10:12, 15.95it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 748.49it/s][A


[7440] loss: 0.029 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 586.12it/s][A
  2%|██▍                                                                                                      | 233/10000 [00:15<09:53, 16.47it/s]
                                                                                                                                                  [A
  2%|██▍                                                                                                      | 233/10000 [00:15<09:53, 16.47it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[7460] loss: 0.083 


                                                                                                                                                  
  2%|██▍                                                                                                      | 233/10000 [00:15<09:53, 16.47it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 619.49it/s][A


[7480] loss: 0.059 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1866.62it/s][A

                                                                                                                                                  [A
  2%|██▍                                                                                                      | 233/10000 [00:15<09:53, 16.47it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[7500] loss: 0.062 


                                                                                                                                                  
  2%|██▍                                                                                                      | 233/10000 [00:15<09:53, 16.47it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 577.65it/s][A


[7520] loss: 0.095 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 524.48it/s][A
  2%|██▍                                                                                                      | 235/10000 [00:15<10:00, 16.27it/s]
                                                                                                                                                  [A
  2%|██▍                                                                                                      | 235/10000 [00:15<10:00, 16.27it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[7540] loss: 0.056 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 621.77it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1745.44it/s][A

                                                                                                                                                  [A
  2%|██▍                                                                                                      | 235/10000 [00:15<10:00, 16.27it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[7560] loss: 0.034 


                                                                                                                                                  
  2%|██▍                                                                                                      | 235/10000 [00:15<10:00, 16.27it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[7580] loss: 0.067 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 611.24it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1436.90it/s][A
  2%|██▍                                                                                                      | 237/10000 [00:15<09:56, 16.37it/s]
                                                                                                                                                  [A
  2%|██▍                                                                                                      | 237/10000 [00:15<09:56, 16.37it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[7600] loss: 0.062 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 671.55it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 796.79it/s][A

                                                                                                                                                  [A
  2%|██▍                                                                                                      | 237/10000 [00:15<09:56, 16.37it/s]
                                                                                                                                                  [A
  2%|██▍                                                                                                      | 237/10000 [00:15<09:56, 16.37it/s]
Training Epoch:   0%|                                                                                      

[7620] loss: 0.048 
[7640] loss: 0.083 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 526.25it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1294.14it/s][A
  2%|██▌                                                                                                      | 239/10000 [00:15<10:02, 16.19it/s]
                                                                                                                                                  [A
  2%|██▌                                                                                                      | 239/10000 [00:15<10:02, 16.19it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[7660] loss: 0.054 


                                                                                                                                                  
  2%|██▌                                                                                                      | 239/10000 [00:15<10:02, 16.19it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 602.06it/s][A


[7680] loss: 0.053 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1850.97it/s][A

                                                                                                                                                  [A
  2%|██▌                                                                                                      | 239/10000 [00:15<10:02, 16.19it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[7700] loss: 0.067 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 887.80it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1973.79it/s][A
  2%|██▌                                                                                                      | 241/10000 [00:15<09:34, 16.99it/s]
                                                                                                                                                  [A
  2%|██▌                                                                                                      | 241/10000 [00:15<09:34, 16.99it/s]
                                                                                                                                                  [A
  2%|██▌                                                                                                    

[7720] loss: 0.044 
[7740] loss: 0.078 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 774.98it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1723.92it/s][A

                                                                                                                                                  [A
  2%|██▌                                                                                                      | 241/10000 [00:16<09:34, 16.99it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 978.96it/s][A


[7760] loss: 0.079 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1775.74it/s][A

                                                                                                                                                  [A
  2%|██▌                                                                                                      | 241/10000 [00:16<09:34, 16.99it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[7780] loss: 0.052 


                                                                                                                                                  
  2%|██▌                                                                                                      | 241/10000 [00:16<09:34, 16.99it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 859.97it/s][A


[7800] loss: 0.064 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 877.29it/s][A
  2%|██▌                                                                                                      | 244/10000 [00:16<08:50, 18.39it/s]
                                                                                                                                                  [A
  2%|██▌                                                                                                      | 244/10000 [00:16<08:50, 18.39it/s]
                                                                                                                                                  [A
  2%|██▌                                                                                                      | 244/10000 [00:16<08:50, 18.39it/s]

[7820] loss: 0.053 
[7840] loss: 0.053 



Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 796.70it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1716.16it/s][A

                                                                                                                                                  [A
  2%|██▌                                                                                                      | 244/10000 [00:16<08:50, 18.39it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 869.16it/s][A


[7860] loss: 0.046 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 752.34it/s][A

                                                                                                                                                  [A
  2%|██▌                                                                                                      | 244/10000 [00:16<08:50, 18.39it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[7880] loss: 0.044 


                                                                                                                                                  
  2%|██▌                                                                                                      | 244/10000 [00:16<08:50, 18.39it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 609.09it/s][A


[7900] loss: 0.065 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 952.60it/s][A
  2%|██▌                                                                                                      | 247/10000 [00:16<08:40, 18.73it/s]
                                                                                                                                                  [A
  2%|██▌                                                                                                      | 247/10000 [00:16<08:40, 18.73it/s]

[7920] loss: 0.065 



Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 626.75it/s][A

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 878.39it/s][A

                                                                                                                                                  [A
  2%|██▌                                                                                                      | 247/10000 [00:16<08:40, 18.73it/s]
                                                                                                                                                  [A
  2%|██▌                                                                                                      | 247/10000 [00:16<08:40, 18.73it/s]
Training Epoch:   0%|                                                                                  

[7940] loss: 0.047 
[7960] loss: 0.038 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 564.85it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 907.86it/s][A
  2%|██▌                                                                                                      | 249/10000 [00:16<09:10, 17.73it/s]
                                                                                                                                                  [A
  2%|██▌                                                                                                      | 249/10000 [00:16<09:10, 17.73it/s]
                                                                                                                                                  [A

[7980] loss: 0.082 



  2%|██▌                                                                                                      | 249/10000 [00:16<09:10, 17.73it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 568.53it/s][A


[8000] loss: 0.040 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 988.76it/s][A

                                                                                                                                                  [A
  2%|██▌                                                                                                      | 249/10000 [00:16<09:10, 17.73it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[8020] loss: 0.056 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 641.73it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 917.79it/s][A
  3%|██▋                                                                                                      | 251/10000 [00:16<09:22, 17.32it/s]
                                                                                                                                                  [A
  3%|██▋                                                                                                      | 251/10000 [00:16<09:22, 17.32it/s]
                                                                                                                                                  [A
  3%|██▋                                                                                                    

[8040] loss: 0.057 
[8060] loss: 0.044 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 441.88it/s][A

                                                                                                                                                  [A
  3%|██▋                                                                                                      | 251/10000 [00:16<09:22, 17.32it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 570.44it/s][A

[8080] loss: 0.062 




Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 700.92it/s][A
  3%|██▋                                                                                                      | 253/10000 [00:16<09:58, 16.28it/s]
                                                                                                                                                  [A
  3%|██▋                                                                                                      | 253/10000 [00:16<09:58, 16.28it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[8100] loss: 0.053 


                                                                                                                                                  
  3%|██▋                                                                                                      | 253/10000 [00:16<09:58, 16.28it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 505.22it/s][A


[8120] loss: 0.080 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 551.01it/s][A

                                                                                                                                                  [A
  3%|██▋                                                                                                      | 253/10000 [00:16<09:58, 16.28it/s]
                                                                                                                                                  [A
  3%|██▋                                                                                                      | 253/10000 [00:16<09:58, 16.28it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 506.97it/s][A


[8140] loss: 0.037 
[8160] loss: 0.016 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 686.58it/s][A
  3%|██▋                                                                                                      | 255/10000 [00:16<10:31, 15.43it/s]
                                                                                                                                                  [A
  3%|██▋                                                                                                      | 255/10000 [00:16<10:31, 15.43it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 561.14it/s][A


[8180] loss: 0.066 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 512.13it/s][A

                                                                                                                                                  [A
  3%|██▋                                                                                                      | 255/10000 [00:16<10:31, 15.43it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[8200] loss: 0.055 


                                                                                                                                                  
  3%|██▋                                                                                                      | 255/10000 [00:16<10:31, 15.43it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 440.07it/s][A


[8220] loss: 0.049 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 991.56it/s][A
  3%|██▋                                                                                                      | 257/10000 [00:16<10:58, 14.80it/s]
                                                                                                                                                  [A
  3%|██▋                                                                                                      | 257/10000 [00:16<10:58, 14.80it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 607.13it/s][A


[8240] loss: 0.054 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 889.00it/s][A

                                                                                                                                                  [A
  3%|██▋                                                                                                      | 257/10000 [00:16<10:58, 14.80it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[8260] loss: 0.085 


                                                                                                                                                  
  3%|██▋                                                                                                      | 257/10000 [00:17<10:58, 14.80it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 536.74it/s][A


[8280] loss: 0.069 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 592.58it/s][A
  3%|██▋                                                                                                      | 259/10000 [00:17<10:44, 15.12it/s]
                                                                                                                                                  [A
  3%|██▋                                                                                                      | 259/10000 [00:17<10:44, 15.12it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[8300] loss: 0.058 


                                                                                                                                                  
  3%|██▋                                                                                                      | 259/10000 [00:17<10:44, 15.12it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 509.02it/s][A


[8320] loss: 0.054 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 314.34it/s][A

                                                                                                                                                  [A
  3%|██▋                                                                                                      | 259/10000 [00:17<10:44, 15.12it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[8340] loss: 0.060 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 705.43it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 919.20it/s][A
  3%|██▋                                                                                                      | 261/10000 [00:17<10:34, 15.36it/s]
                                                                                                                                                  [A
  3%|██▋                                                                                                      | 261/10000 [00:17<10:34, 15.36it/s]


[8360] loss: 0.056 


                                                                                                                                                  [A
  3%|██▋                                                                                                      | 261/10000 [00:17<10:34, 15.36it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[8380] loss: 0.056 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 595.09it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1008.00it/s][A

                                                                                                                                                  [A
  3%|██▋                                                                                                      | 261/10000 [00:17<10:34, 15.36it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[8400] loss: 0.056 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 623.96it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1286.60it/s][A
  3%|██▊                                                                                                      | 263/10000 [00:17<10:21, 15.67it/s]
                                                                                                                                                  [A
  3%|██▊                                                                                                      | 263/10000 [00:17<10:21, 15.67it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[8420] loss: 0.047 


                                                                                                                                                  
  3%|██▊                                                                                                      | 263/10000 [00:17<10:21, 15.67it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[8440] loss: 0.065 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 556.92it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1305.42it/s][A

                                                                                                                                                  [A
  3%|██▊                                                                                                      | 263/10000 [00:17<10:21, 15.67it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[8460] loss: 0.075 


                                                                                                                                                  
  3%|██▊                                                                                                      | 263/10000 [00:17<10:21, 15.67it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 656.08it/s][A


[8480] loss: 0.051 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1350.39it/s][A
  3%|██▊                                                                                                      | 265/10000 [00:17<10:14, 15.85it/s]
                                                                                                                                                  [A
  3%|██▊                                                                                                      | 265/10000 [00:17<10:14, 15.85it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 755.31it/s][A


[8500] loss: 0.046 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1880.01it/s][A

                                                                                                                                                  [A
  3%|██▊                                                                                                      | 265/10000 [00:17<10:14, 15.85it/s]
                                                                                                                                                  [A
  3%|██▊                                                                                                      | 265/10000 [00:17<10:14, 15.85it/s]


[8520] loss: 0.064 
[8540] loss: 0.048 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 719.81it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1056.23it/s][A
  3%|██▊                                                                                                      | 267/10000 [00:17<09:39, 16.79it/s]
                                                                                                                                                  [A
  3%|██▊                                                                                                      | 267/10000 [00:17<09:39, 16.79it/s]


[8560] loss: 0.073 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 751.37it/s][A

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 692.59it/s][A

                                                                                                                                                  [A
  3%|██▊                                                                                                      | 267/10000 [00:17<09:39, 16.79it/s]
                                                                                                                                                  [A
  3%|██▊                                                                                                      | 267/10000 [00:17<09:39, 16.79it/s]

[8580] loss: 0.037 
[8600] loss: 0.069 



Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 665.51it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1151.96it/s][A
  3%|██▊                                                                                                      | 269/10000 [00:17<09:25, 17.19it/s]
                                                                                                                                                  [A
  3%|██▊                                                                                                      | 269/10000 [00:17<09:25, 17.19it/s]
                                                                                                                                                  [A
  3%|██▊                                                                                                

[8620] loss: 0.067 
[8640] loss: 0.056 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1098.27it/s][A

                                                                                                                                                  [A
  3%|██▊                                                                                                      | 269/10000 [00:17<09:25, 17.19it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 873.05it/s][A


[8660] loss: 0.044 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 643.59it/s][A
  3%|██▊                                                                                                      | 271/10000 [00:17<09:04, 17.85it/s]
                                                                                                                                                  [A
  3%|██▊                                                                                                      | 271/10000 [00:17<09:04, 17.85it/s]
                                                                                                                                                  [A
  3%|██▊                                                                                                      | 271/10000 [00:17<09:04, 17.85it/s]
Training Epoch:   0%|                                                                                       

[8680] loss: 0.050 
[8700] loss: 0.086 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 602.00it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1030.29it/s][A

                                                                                                                                                  [A
  3%|██▊                                                                                                      | 271/10000 [00:17<09:04, 17.85it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 792.04it/s][A


[8720] loss: 0.092 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 537.73it/s][A
  3%|██▊                                                                                                      | 273/10000 [00:17<09:07, 17.77it/s]
                                                                                                                                                  [A
  3%|██▊                                                                                                      | 273/10000 [00:17<09:07, 17.77it/s]
                                                                                                                                                  [A
  3%|██▊                                                                                                      | 273/10000 [00:17<09:07, 17.77it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[8740] loss: 0.059 
[8760] loss: 0.052 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1729.61it/s][A

                                                                                                                                                  [A
  3%|██▊                                                                                                      | 273/10000 [00:17<09:07, 17.77it/s]
                                                                                                                                                  [A
  3%|██▊                                                                                                      | 273/10000 [00:17<09:07, 17.77it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[8780] loss: 0.070 
[8800] loss: 0.047 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 747.75it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1095.12it/s][A
  3%|██▉                                                                                                      | 275/10000 [00:17<09:05, 17.84it/s]
                                                                                                                                                  [A
  3%|██▉                                                                                                      | 275/10000 [00:17<09:05, 17.84it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 711.48it/s][A


[8820] loss: 0.026 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 937.48it/s][A

                                                                                                                                                  [A
  3%|██▉                                                                                                      | 275/10000 [00:18<09:05, 17.84it/s]
                                                                                                                                                  [A
  3%|██▉                                                                                                      | 275/10000 [00:18<09:05, 17.84it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[8840] loss: 0.052 
[8860] loss: 0.044 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 555.19it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1148.50it/s][A
  3%|██▉                                                                                                      | 277/10000 [00:18<09:14, 17.54it/s]
                                                                                                                                                  [A
  3%|██▉                                                                                                      | 277/10000 [00:18<09:14, 17.54it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 801.21it/s][A


[8880] loss: 0.041 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 683.33it/s][A

                                                                                                                                                  [A
  3%|██▉                                                                                                      | 277/10000 [00:18<09:14, 17.54it/s]
                                                                                                                                                  [A
  3%|██▉                                                                                                      | 277/10000 [00:18<09:14, 17.54it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 595.08it/s][A


[8900] loss: 0.064 
[8920] loss: 0.058 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 709.94it/s][A
  3%|██▉                                                                                                      | 279/10000 [00:18<09:10, 17.66it/s]
                                                                                                                                                  [A
  3%|██▉                                                                                                      | 279/10000 [00:18<09:10, 17.66it/s]
                                                                                                                                                  [A

[8940] loss: 0.045 



  3%|██▉                                                                                                      | 279/10000 [00:18<09:10, 17.66it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 643.76it/s][A


[8960] loss: 0.034 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 419.26it/s][A

                                                                                                                                                  [A
  3%|██▉                                                                                                      | 279/10000 [00:18<09:10, 17.66it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 751.32it/s][A


[8980] loss: 0.065 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 645.58it/s][A
  3%|██▉                                                                                                      | 281/10000 [00:18<09:05, 17.83it/s]
                                                                                                                                                  [A
  3%|██▉                                                                                                      | 281/10000 [00:18<09:05, 17.83it/s]
                                                                                                                                                  [A
[A                                                                                                                                               

[9000] loss: 0.075 


  3%|██▉                                                                                                      | 281/10000 [00:18<09:05, 17.83it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 715.73it/s][A


[9020] loss: 0.107 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 806.60it/s][A

                                                                                                                                                  [A
  3%|██▉                                                                                                      | 281/10000 [00:18<09:05, 17.83it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 808.84it/s][A


[9040] loss: 0.059 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 996.98it/s][A
  3%|██▉                                                                                                      | 283/10000 [00:18<08:50, 18.32it/s]
                                                                                                                                                  [A
  3%|██▉                                                                                                      | 283/10000 [00:18<08:50, 18.32it/s]
                                                                                                                                                  [A

[9060] loss: 0.041 



  3%|██▉                                                                                                      | 283/10000 [00:18<08:50, 18.32it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 623.20it/s][A


[9080] loss: 0.087 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1031.30it/s][A

                                                                                                                                                  [A
  3%|██▉                                                                                                      | 283/10000 [00:18<08:50, 18.32it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[9100] loss: 0.075 


                                                                                                                                                  
  3%|██▉                                                                                                      | 283/10000 [00:18<08:50, 18.32it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 536.78it/s][A


[9120] loss: 0.052 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 294.77it/s][A
  3%|██▉                                                                                                      | 285/10000 [00:18<09:27, 17.13it/s]
                                                                                                                                                  [A
  3%|██▉                                                                                                      | 285/10000 [00:18<09:27, 17.13it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[9140] loss: 0.051 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 619.35it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 531.60it/s][A

                                                                                                                                                  [A
  3%|██▉                                                                                                      | 285/10000 [00:18<09:27, 17.13it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[9160] loss: 0.055 


                                                                                                                                                  
  3%|██▉                                                                                                      | 285/10000 [00:18<09:27, 17.13it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 466.67it/s][A


[9180] loss: 0.086 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 589.67it/s][A
  3%|███                                                                                                      | 287/10000 [00:18<10:02, 16.13it/s]
                                                                                                                                                  [A
  3%|███                                                                                                      | 287/10000 [00:18<10:02, 16.13it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[9200] loss: 0.086 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 649.58it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1007.04it/s][A

                                                                                                                                                  [A
  3%|███                                                                                                      | 287/10000 [00:18<10:02, 16.13it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[9220] loss: 0.036 


                                                                                                                                                  
  3%|███                                                                                                      | 287/10000 [00:18<10:02, 16.13it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 557.63it/s][A


[9240] loss: 0.048 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 456.90it/s][A
  3%|███                                                                                                      | 289/10000 [00:18<09:59, 16.19it/s]
                                                                                                                                                  [A
  3%|███                                                                                                      | 289/10000 [00:18<09:59, 16.19it/s]
                                                                                                                                                  [A
  3%|███                                                                                                      | 289/10000 [00:18<09:59, 16.19it/s]


[9260] loss: 0.059 
[9280] loss: 0.080 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 555.26it/s][A

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 339.34it/s][A

                                                                                                                                                  [A
  3%|███                                                                                                      | 289/10000 [00:18<09:59, 16.19it/s]


[9300] loss: 0.047 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 580.24it/s][A

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 605.41it/s][A
  3%|███                                                                                                      | 291/10000 [00:18<10:11, 15.87it/s]
                                                                                                                                                  [A
  3%|███                                                                                                      | 291/10000 [00:18<10:11, 15.87it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[9320] loss: 0.060 


                                                                                                                                                  
  3%|███                                                                                                      | 291/10000 [00:18<10:11, 15.87it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 518.43it/s][A


[9340] loss: 0.055 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 576.46it/s][A

                                                                                                                                                  [A
  3%|███                                                                                                      | 291/10000 [00:19<10:11, 15.87it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 676.73it/s][A


[9360] loss: 0.062 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 572.68it/s][A
  3%|███                                                                                                      | 293/10000 [00:19<10:10, 15.89it/s]
                                                                                                                                                  [A
  3%|███                                                                                                      | 293/10000 [00:19<10:10, 15.89it/s]
                                                                                                                                                  [A
  3%|███                                                                                                      | 293/10000 [00:19<10:10, 15.89it/s]
Training Epoch:   0%|                                                                                       

[9380] loss: 0.078 
[9400] loss: 0.063 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 576.77it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1249.79it/s][A

                                                                                                                                                  [A
  3%|███                                                                                                      | 293/10000 [00:19<10:10, 15.89it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[9420] loss: 0.040 


                                                                                                                                                  
  3%|███                                                                                                      | 293/10000 [00:19<10:10, 15.89it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 559.06it/s][A


[9440] loss: 0.086 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 328.94it/s][A
  3%|███                                                                                                      | 295/10000 [00:19<10:17, 15.72it/s]
                                                                                                                                                  [A
  3%|███                                                                                                      | 295/10000 [00:19<10:17, 15.72it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[9460] loss: 0.082 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 601.29it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 536.91it/s][A

                                                                                                                                                  [A
  3%|███                                                                                                      | 295/10000 [00:19<10:17, 15.72it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[9480] loss: 0.076 


                                                                                                                                                  
  3%|███                                                                                                      | 295/10000 [00:19<10:17, 15.72it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 536.47it/s][A


[9500] loss: 0.076 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 838.19it/s][A
  3%|███                                                                                                      | 297/10000 [00:19<10:19, 15.66it/s]
                                                                                                                                                  [A
  3%|███                                                                                                      | 297/10000 [00:19<10:19, 15.66it/s]


[9520] loss: 0.049 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 628.10it/s][A

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 610.44it/s][A

                                                                                                                                                  [A
  3%|███                                                                                                      | 297/10000 [00:19<10:19, 15.66it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[9540] loss: 0.070 


                                                                                                                                                  
  3%|███                                                                                                      | 297/10000 [00:19<10:19, 15.66it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 507.60it/s][A


[9560] loss: 0.104 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 520.51it/s][A
  3%|███▏                                                                                                     | 299/10000 [00:19<10:26, 15.47it/s]
                                                                                                                                                  [A
  3%|███▏                                                                                                     | 299/10000 [00:19<10:26, 15.47it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[9580] loss: 0.062 


                                                                                                                                                  
  3%|███▏                                                                                                     | 299/10000 [00:19<10:26, 15.47it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 553.91it/s][A


[9600] loss: 0.018 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 709.58it/s][A

                                                                                                                                                  [A
  3%|███▏                                                                                                     | 299/10000 [00:19<10:26, 15.47it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 584.13it/s][A


[9620] loss: 0.064 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 581.33it/s][A
  3%|███▏                                                                                                     | 301/10000 [00:19<10:27, 15.45it/s]
                                                                                                                                                  [A
  3%|███▏                                                                                                     | 301/10000 [00:19<10:27, 15.45it/s]
                                                                                                                                                  [A
  3%|███▏                                                                                                     | 301/10000 [00:19<10:27, 15.45it/s]


[9640] loss: 0.048 
[9660] loss: 0.046 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 621.30it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1559.22it/s][A

                                                                                                                                                  [A
  3%|███▏                                                                                                     | 301/10000 [00:19<10:27, 15.45it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[9680] loss: 0.059 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 802.66it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2181.13it/s][A
  3%|███▏                                                                                                     | 303/10000 [00:19<09:55, 16.28it/s]
                                                                                                                                                  [A
  3%|███▏                                                                                                     | 303/10000 [00:19<09:55, 16.28it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[9700] loss: 0.047 


                                                                                                                                                  
  3%|███▏                                                                                                     | 303/10000 [00:19<09:55, 16.28it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 621.30it/s][A


[9720] loss: 0.052 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1420.35it/s][A

                                                                                                                                                  [A
  3%|███▏                                                                                                     | 303/10000 [00:19<09:55, 16.28it/s]
                                                                                                                                                  [A
  3%|███▏                                                                                                     | 303/10000 [00:19<09:55, 16.28it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 668.59it/s][A


[9740] loss: 0.057 
[9760] loss: 0.028 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1380.16it/s][A
  3%|███▏                                                                                                     | 305/10000 [00:19<09:46, 16.54it/s]
                                                                                                                                                  [A
  3%|███▏                                                                                                     | 305/10000 [00:19<09:46, 16.54it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 915.94it/s][A


[9780] loss: 0.063 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1629.49it/s][A

                                                                                                                                                  [A
  3%|███▏                                                                                                     | 305/10000 [00:19<09:46, 16.54it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[9800] loss: 0.042 


                                                                                                                                                  
  3%|███▏                                                                                                     | 305/10000 [00:19<09:46, 16.54it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 643.42it/s][A


[9820] loss: 0.039 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1059.44it/s][A
  3%|███▏                                                                                                     | 307/10000 [00:19<09:18, 17.35it/s]
                                                                                                                                                  [A
  3%|███▏                                                                                                     | 307/10000 [00:19<09:18, 17.35it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 760.43it/s][A


[9840] loss: 0.061 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1242.76it/s][A

                                                                                                                                                  [A
  3%|███▏                                                                                                     | 307/10000 [00:19<09:18, 17.35it/s]
                                                                                                                                                  [A
  3%|███▏                                                                                                     | 307/10000 [00:19<09:18, 17.35it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 661.07it/s][A


[9860] loss: 0.033 
[9880] loss: 0.091 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1376.08it/s][A
  3%|███▏                                                                                                     | 309/10000 [00:20<09:11, 17.56it/s]
                                                                                                                                                  [A
  3%|███▏                                                                                                     | 309/10000 [00:20<09:11, 17.56it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[9900] loss: 0.046 


                                                                                                                                                  
  3%|███▏                                                                                                     | 309/10000 [00:20<09:11, 17.56it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 664.47it/s][A


[9920] loss: 0.037 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1473.24it/s][A

                                                                                                                                                  [A
  3%|███▏                                                                                                     | 309/10000 [00:20<09:11, 17.56it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 813.73it/s][A


[9940] loss: 0.069 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1368.01it/s][A
  3%|███▎                                                                                                     | 311/10000 [00:20<09:01, 17.91it/s]
                                                                                                                                                  [A
  3%|███▎                                                                                                     | 311/10000 [00:20<09:01, 17.91it/s]
                                                                                                                                                  [A


[9960] loss: 0.062 


  3%|███▎                                                                                                     | 311/10000 [00:20<09:01, 17.91it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 583.45it/s][A


[9980] loss: 0.057 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1305.82it/s][A

                                                                                                                                                  [A
  3%|███▎                                                                                                     | 311/10000 [00:20<09:01, 17.91it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 802.11it/s][A


[10000] loss: 0.049 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1926.64it/s][A
  3%|███▎                                                                                                     | 313/10000 [00:20<09:02, 17.84it/s]
                                                                                                                                                  [A
  3%|███▎                                                                                                     | 313/10000 [00:20<09:02, 17.84it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[10020] loss: 0.069 


                                                                                                                                                  
  3%|███▎                                                                                                     | 313/10000 [00:20<09:02, 17.84it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 560.90it/s][A


[10040] loss: 0.049 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 465.05it/s][A

                                                                                                                                                  [A
  3%|███▎                                                                                                     | 313/10000 [00:20<09:02, 17.84it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[10060] loss: 0.051 


                                                                                                                                                  
  3%|███▎                                                                                                     | 313/10000 [00:20<09:02, 17.84it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 632.64it/s][A


[10080] loss: 0.024 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1119.97it/s][A
  3%|███▎                                                                                                     | 315/10000 [00:20<09:24, 17.17it/s]
                                                                                                                                                  [A
  3%|███▎                                                                                                     | 315/10000 [00:20<09:24, 17.17it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 758.11it/s][A


[10100] loss: 0.027 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1856.71it/s][A

                                                                                                                                                  [A
  3%|███▎                                                                                                     | 315/10000 [00:20<09:24, 17.17it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[10120] loss: 0.053 


                                                                                                                                                  
  3%|███▎                                                                                                     | 315/10000 [00:20<09:24, 17.17it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 592.88it/s][A


[10140] loss: 0.043 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1393.46it/s][A
  3%|███▎                                                                                                     | 317/10000 [00:20<09:20, 17.28it/s]
                                                                                                                                                  [A
  3%|███▎                                                                                                     | 317/10000 [00:20<09:20, 17.28it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 762.94it/s][A


[10160] loss: 0.082 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1440.85it/s][A

                                                                                                                                                  [A
  3%|███▎                                                                                                     | 317/10000 [00:20<09:20, 17.28it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[10180] loss: 0.074 


                                                                                                                                                  
  3%|███▎                                                                                                     | 317/10000 [00:20<09:20, 17.28it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 555.43it/s][A

[10200] loss: 0.063 




Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1182.16it/s][A
  3%|███▎                                                                                                     | 319/10000 [00:20<09:28, 17.02it/s]
                                                                                                                                                  [A
  3%|███▎                                                                                                     | 319/10000 [00:20<09:28, 17.02it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[10220] loss: 0.101 


                                                                                                                                                  
  3%|███▎                                                                                                     | 319/10000 [00:20<09:28, 17.02it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 546.88it/s][A


[10240] loss: 0.047 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1360.46it/s][A

                                                                                                                                                  [A
  3%|███▎                                                                                                     | 319/10000 [00:20<09:28, 17.02it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[10260] loss: 0.070 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 702.49it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 999.36it/s][A
  3%|███▎                                                                                                     | 321/10000 [00:20<09:34, 16.85it/s]
                                                                                                                                                  [A
  3%|███▎                                                                                                     | 321/10000 [00:20<09:34, 16.85it/s]


[10280] loss: 0.093 


                                                                                                                                                  [A
  3%|███▎                                                                                                     | 321/10000 [00:20<09:34, 16.85it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 450.41it/s][A


[10300] loss: 0.080 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 652.61it/s][A

                                                                                                                                                  [A
  3%|███▎                                                                                                     | 321/10000 [00:20<09:34, 16.85it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[10320] loss: 0.054 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 557.57it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 861.61it/s][A
  3%|███▍                                                                                                     | 323/10000 [00:20<10:20, 15.60it/s]
                                                                                                                                                  [A
  3%|███▍                                                                                                     | 323/10000 [00:20<10:20, 15.60it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[10340] loss: 0.055 


                                                                                                                                                  
  3%|███▍                                                                                                     | 323/10000 [00:20<10:20, 15.60it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 501.04it/s][A


[10360] loss: 0.070 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 544.71it/s][A

                                                                                                                                                  [A
  3%|███▍                                                                                                     | 323/10000 [00:20<10:20, 15.60it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[10380] loss: 0.061 


                                                                                                                                                  
  3%|███▍                                                                                                     | 323/10000 [00:21<10:20, 15.60it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 510.01it/s][A


[10400] loss: 0.034 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 653.83it/s][A
  3%|███▍                                                                                                     | 325/10000 [00:21<10:46, 14.97it/s]
                                                                                                                                                  [A
  3%|███▍                                                                                                     | 325/10000 [00:21<10:46, 14.97it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 565.63it/s][A


[10420] loss: 0.059 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 567.56it/s][A

                                                                                                                                                  [A
  3%|███▍                                                                                                     | 325/10000 [00:21<10:46, 14.97it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[10440] loss: 0.036 


                                                                                                                                                  
  3%|███▍                                                                                                     | 325/10000 [00:21<10:46, 14.97it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 465.48it/s][A


[10460] loss: 0.047 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 377.93it/s][A
  3%|███▍                                                                                                     | 327/10000 [00:21<11:09, 14.44it/s]
                                                                                                                                                  [A
  3%|███▍                                                                                                     | 327/10000 [00:21<11:09, 14.44it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[10480] loss: 0.050 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 543.65it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 885.43it/s][A

                                                                                                                                                  [A
  3%|███▍                                                                                                     | 327/10000 [00:21<11:09, 14.44it/s]
                                                                                                                                                  [A
  3%|███▍                                                                                                     | 327/10000 [00:21<11:09, 14.44it/s]
Training Epoch:   0%|                                                                                      

[10500] loss: 0.112 
[10520] loss: 0.057 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 458.98it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 520.64it/s][A
  3%|███▍                                                                                                     | 329/10000 [00:21<11:30, 14.01it/s]
                                                                                                                                                  [A
[A                                                                                                                                               

[10540] loss: 0.098 


  3%|███▍                                                                                                     | 329/10000 [00:21<11:30, 14.01it/s]
                                                                                                                                                  [A
  3%|███▍                                                                                                     | 329/10000 [00:21<11:30, 14.01it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 482.32it/s][A


[10560] loss: 0.077 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 616.45it/s][A

                                                                                                                                                  [A
  3%|███▍                                                                                                     | 329/10000 [00:21<11:30, 14.01it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[10580] loss: 0.055 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 550.98it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 688.27it/s][A
  3%|███▍                                                                                                     | 331/10000 [00:21<11:31, 13.97it/s]
                                                                                                                                                  [A
  3%|███▍                                                                                                     | 331/10000 [00:21<11:31, 13.97it/s]
                                                                                                                                                  [A
  3%|███▍                                                                                                   

[10600] loss: 0.041 
[10620] loss: 0.069 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 594.85it/s][A

                                                                                                                                                  [A
  3%|███▍                                                                                                     | 331/10000 [00:21<11:31, 13.97it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[10640] loss: 0.053 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 538.97it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 569.72it/s][A
  3%|███▍                                                                                                     | 333/10000 [00:21<11:35, 13.91it/s]
                                                                                                                                                  [A
  3%|███▍                                                                                                     | 333/10000 [00:21<11:35, 13.91it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[10660] loss: 0.060 


                                                                                                                                                  
  3%|███▍                                                                                                     | 333/10000 [00:21<11:35, 13.91it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 503.39it/s][A


[10680] loss: 0.044 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 494.79it/s][A

                                                                                                                                                  [A
  3%|███▍                                                                                                     | 333/10000 [00:21<11:35, 13.91it/s]
                                                                                                                                                  [A
  3%|███▍                                                                                                     | 333/10000 [00:21<11:35, 13.91it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 493.85it/s][A


[10700] loss: 0.049 
[10720] loss: 0.095 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 468.01it/s][A
  3%|███▌                                                                                                     | 335/10000 [00:21<11:44, 13.72it/s]
                                                                                                                                                  [A
  3%|███▌                                                                                                     | 335/10000 [00:21<11:44, 13.72it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 577.54it/s][A


[10740] loss: 0.082 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 429.66it/s][A

                                                                                                                                                  [A
  3%|███▌                                                                                                     | 335/10000 [00:21<11:44, 13.72it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[10760] loss: 0.036 


                                                                                                                                                  
  3%|███▌                                                                                                     | 335/10000 [00:21<11:44, 13.72it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 500.57it/s][A


[10780] loss: 0.052 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1174.22it/s][A
  3%|███▌                                                                                                     | 337/10000 [00:21<11:37, 13.86it/s]
                                                                                                                                                  [A
  3%|███▌                                                                                                     | 337/10000 [00:21<11:37, 13.86it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 670.81it/s][A


[10800] loss: 0.065 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1930.19it/s][A

                                                                                                                                                  [A
  3%|███▌                                                                                                     | 337/10000 [00:21<11:37, 13.86it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[10820] loss: 0.054 


                                                                                                                                                  
  3%|███▌                                                                                                     | 337/10000 [00:22<11:37, 13.86it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 586.30it/s][A


[10840] loss: 0.093 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1597.83it/s][A
  3%|███▌                                                                                                     | 339/10000 [00:22<11:05, 14.52it/s]
                                                                                                                                                  [A
  3%|███▌                                                                                                     | 339/10000 [00:22<11:05, 14.52it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[10860] loss: 0.045 


                                                                                                                                                  
  3%|███▌                                                                                                     | 339/10000 [00:22<11:05, 14.52it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 677.24it/s][A


[10880] loss: 0.051 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1750.54it/s][A

                                                                                                                                                  [A
  3%|███▌                                                                                                     | 339/10000 [00:22<11:05, 14.52it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 826.32it/s][A


[10900] loss: 0.052 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 856.16it/s][A
  3%|███▌                                                                                                     | 341/10000 [00:22<10:12, 15.76it/s]
                                                                                                                                                  [A
  3%|███▌                                                                                                     | 341/10000 [00:22<10:12, 15.76it/s]
                                                                                                                                                  [A
  3%|███▌                                                                                                     | 341/10000 [00:22<10:12, 15.76it/s]
Training Epoch:   0%|                                                                                       

[10920] loss: 0.051 
[10940] loss: 0.058 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 697.91it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 938.11it/s][A

                                                                                                                                                  [A
  3%|███▌                                                                                                     | 341/10000 [00:22<10:12, 15.76it/s]


[10960] loss: 0.060 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 752.01it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1298.95it/s][A
  3%|███▌                                                                                                     | 343/10000 [00:22<09:44, 16.53it/s]
                                                                                                                                                  [A
  3%|███▌                                                                                                     | 343/10000 [00:22<09:44, 16.53it/s]
                                                                                                                                                  [A

[10980] loss: 0.105 



  3%|███▌                                                                                                     | 343/10000 [00:22<09:44, 16.53it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 616.04it/s][A


[11000] loss: 0.061 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 441.37it/s][A

                                                                                                                                                  [A
  3%|███▌                                                                                                     | 343/10000 [00:22<09:44, 16.53it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[11020] loss: 0.043 


                                                                                                                                                  
  3%|███▌                                                                                                     | 343/10000 [00:22<09:44, 16.53it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 672.43it/s][A


[11040] loss: 0.086 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1113.43it/s][A
  3%|███▌                                                                                                     | 345/10000 [00:22<09:40, 16.62it/s]
                                                                                                                                                  [A
  3%|███▌                                                                                                     | 345/10000 [00:22<09:40, 16.62it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 849.10it/s][A


[11060] loss: 0.033 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 710.66it/s][A

                                                                                                                                                  [A
  3%|███▌                                                                                                     | 345/10000 [00:22<09:40, 16.62it/s]
                                                                                                                                                  [A
  3%|███▌                                                                                                     | 345/10000 [00:22<09:40, 16.62it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[11080] loss: 0.054 
[11100] loss: 0.072 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 628.30it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1463.47it/s][A
  3%|███▋                                                                                                     | 347/10000 [00:22<09:15, 17.36it/s]
                                                                                                                                                  [A
  3%|███▋                                                                                                     | 347/10000 [00:22<09:15, 17.36it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 785.81it/s][A


[11120] loss: 0.078 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 489.53it/s][A

                                                                                                                                                  [A
  3%|███▋                                                                                                     | 347/10000 [00:22<09:15, 17.36it/s]
                                                                                                                                                  [A
  3%|███▋                                                                                                     | 347/10000 [00:22<09:15, 17.36it/s]


[11140] loss: 0.059 
[11160] loss: 0.033 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 632.43it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1371.58it/s][A
  3%|███▋                                                                                                     | 349/10000 [00:22<09:10, 17.53it/s]
                                                                                                                                                  [A
  3%|███▋                                                                                                     | 349/10000 [00:22<09:10, 17.53it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[11180] loss: 0.080 


                                                                                                                                                  
  3%|███▋                                                                                                     | 349/10000 [00:22<09:10, 17.53it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 588.95it/s][A


[11200] loss: 0.108 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1249.79it/s][A

                                                                                                                                                  [A
  3%|███▋                                                                                                     | 349/10000 [00:22<09:10, 17.53it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 730.21it/s][A


[11220] loss: 0.063 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1720.39it/s][A
  4%|███▋                                                                                                     | 351/10000 [00:22<09:11, 17.51it/s]
                                                                                                                                                  [A
  4%|███▋                                                                                                     | 351/10000 [00:22<09:11, 17.51it/s]
                                                                                                                                                  [A
  4%|███▋                                                                                                     | 351/10000 [00:22<09:11, 17.51it/s]
Training Epoch:   0%|                                                                                       

[11240] loss: 0.048 
[11260] loss: 0.067 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 818.23it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1510.37it/s][A

                                                                                                                                                  [A
  4%|███▋                                                                                                     | 351/10000 [00:22<09:11, 17.51it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 790.17it/s][A


[11280] loss: 0.054 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 528.85it/s][A

                                                                                                                                                  [A
  4%|███▋                                                                                                     | 351/10000 [00:22<09:11, 17.51it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[11300] loss: 0.064 


                                                                                                                                                  
  4%|███▋                                                                                                     | 351/10000 [00:22<09:11, 17.51it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[11320] loss: 0.076 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 640.70it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1397.17it/s][A
  4%|███▋                                                                                                     | 354/10000 [00:22<08:47, 18.29it/s]
                                                                                                                                                  [A
  4%|███▋                                                                                                     | 354/10000 [00:22<08:47, 18.29it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[11340] loss: 0.055 


                                                                                                                                                  
  4%|███▋                                                                                                     | 354/10000 [00:22<08:47, 18.29it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 714.24it/s][A


[11360] loss: 0.026 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1410.80it/s][A

                                                                                                                                                  [A
  4%|███▋                                                                                                     | 354/10000 [00:22<08:47, 18.29it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 773.71it/s][A


[11380] loss: 0.058 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1571.49it/s][A
  4%|███▋                                                                                                     | 356/10000 [00:22<08:41, 18.48it/s]
                                                                                                                                                  [A
  4%|███▋                                                                                                     | 356/10000 [00:22<08:41, 18.48it/s]
                                                                                                                                                  [A
  4%|███▋                                                                                                     | 356/10000 [00:22<08:41, 18.48it/s]
Training Epoch:   0%|                                                                                       

[11400] loss: 0.053 
[11420] loss: 0.154 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 633.83it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1066.44it/s][A

                                                                                                                                                  [A
  4%|███▋                                                                                                     | 356/10000 [00:23<08:41, 18.48it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 671.67it/s][A


[11440] loss: 0.076 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 964.21it/s][A
  4%|███▊                                                                                                     | 358/10000 [00:23<08:54, 18.06it/s]
                                                                                                                                                  [A
  4%|███▊                                                                                                     | 358/10000 [00:23<08:54, 18.06it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[11460] loss: 0.051 


                                                                                                                                                  
  4%|███▊                                                                                                     | 358/10000 [00:23<08:54, 18.06it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[11480] loss: 0.054 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 509.38it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 999.36it/s][A

                                                                                                                                                  [A
  4%|███▊                                                                                                     | 358/10000 [00:23<08:54, 18.06it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[11500] loss: 0.060 


                                                                                                                                                  
  4%|███▊                                                                                                     | 358/10000 [00:23<08:54, 18.06it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 629.70it/s][A


[11520] loss: 0.105 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 781.64it/s][A
  4%|███▊                                                                                                     | 360/10000 [00:23<09:19, 17.23it/s]
                                                                                                                                                  [A
  4%|███▊                                                                                                     | 360/10000 [00:23<09:19, 17.23it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[11540] loss: 0.040 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 698.89it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 553.56it/s][A

                                                                                                                                                  [A
  4%|███▊                                                                                                     | 360/10000 [00:23<09:19, 17.23it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[11560] loss: 0.062 


                                                                                                                                                  
  4%|███▊                                                                                                     | 360/10000 [00:23<09:19, 17.23it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 568.82it/s][A


[11580] loss: 0.044 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 770.02it/s][A
  4%|███▊                                                                                                     | 362/10000 [00:23<09:20, 17.18it/s]
                                                                                                                                                  [A
  4%|███▊                                                                                                     | 362/10000 [00:23<09:20, 17.18it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[11600] loss: 0.070 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 707.70it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 859.14it/s][A

                                                                                                                                                  [A
  4%|███▊                                                                                                     | 362/10000 [00:23<09:20, 17.18it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[11620] loss: 0.032 


                                                                                                                                                  
  4%|███▊                                                                                                     | 362/10000 [00:23<09:20, 17.18it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 613.54it/s][A


[11640] loss: 0.041 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 934.56it/s][A
  4%|███▊                                                                                                     | 364/10000 [00:23<09:17, 17.29it/s]
                                                                                                                                                  [A
  4%|███▊                                                                                                     | 364/10000 [00:23<09:17, 17.29it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[11660] loss: 0.085 


                                                                                                                                                  
  4%|███▊                                                                                                     | 364/10000 [00:23<09:17, 17.29it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 619.36it/s][A


[11680] loss: 0.134 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 331.15it/s][A

                                                                                                                                                  [A
  4%|███▊                                                                                                     | 364/10000 [00:23<09:17, 17.29it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[11700] loss: 0.074 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 631.48it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 693.96it/s][A
  4%|███▊                                                                                                     | 366/10000 [00:23<09:22, 17.14it/s]
                                                                                                                                                  [A
  4%|███▊                                                                                                     | 366/10000 [00:23<09:22, 17.14it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[11720] loss: 0.054 


                                                                                                                                                  
  4%|███▊                                                                                                     | 366/10000 [00:23<09:22, 17.14it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[11740] loss: 0.060 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 518.36it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 825.00it/s][A

                                                                                                                                                  [A
  4%|███▊                                                                                                     | 366/10000 [00:23<09:22, 17.14it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 607.45it/s][A


[11760] loss: 0.071 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 437.54it/s][A
  4%|███▊                                                                                                     | 368/10000 [00:23<09:46, 16.42it/s]
                                                                                                                                                  [A
  4%|███▊                                                                                                     | 368/10000 [00:23<09:46, 16.42it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[11780] loss: 0.036 


                                                                                                                                                  
  4%|███▊                                                                                                     | 368/10000 [00:23<09:46, 16.42it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 499.29it/s][A


[11800] loss: 0.037 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 956.08it/s][A

                                                                                                                                                  [A
  4%|███▊                                                                                                     | 368/10000 [00:23<09:46, 16.42it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[11820] loss: 0.046 


                                                                                                                                                  
  4%|███▊                                                                                                     | 368/10000 [00:23<09:46, 16.42it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 543.66it/s][A


[11840] loss: 0.103 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 308.43it/s][A
  4%|███▉                                                                                                     | 370/10000 [00:23<10:15, 15.64it/s]
                                                                                                                                                  [A
  4%|███▉                                                                                                     | 370/10000 [00:23<10:15, 15.64it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 562.90it/s][A


[11860] loss: 0.053 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 253.78it/s][A

                                                                                                                                                  [A
  4%|███▉                                                                                                     | 370/10000 [00:23<10:15, 15.64it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[11880] loss: 0.053 


                                                                                                                                                  
  4%|███▉                                                                                                     | 370/10000 [00:23<10:15, 15.64it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 605.19it/s][A


[11900] loss: 0.047 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 862.85it/s][A
  4%|███▉                                                                                                     | 372/10000 [00:23<10:20, 15.53it/s]
                                                                                                                                                  [A
  4%|███▉                                                                                                     | 372/10000 [00:23<10:20, 15.53it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 659.66it/s][A


[11920] loss: 0.069 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1038.19it/s][A

                                                                                                                                                  [A
  4%|███▉                                                                                                     | 372/10000 [00:24<10:20, 15.53it/s]
                                                                                                                                                  [A
  4%|███▉                                                                                                     | 372/10000 [00:24<10:20, 15.53it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[11940] loss: 0.057 
[11960] loss: 0.085 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 561.41it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 996.75it/s][A
  4%|███▉                                                                                                     | 374/10000 [00:24<10:05, 15.89it/s]
                                                                                                                                                  [A
  4%|███▉                                                                                                     | 374/10000 [00:24<10:05, 15.89it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[11980] loss: 0.079 


                                                                                                                                                  
  4%|███▉                                                                                                     | 374/10000 [00:24<10:05, 15.89it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 533.95it/s][A


[12000] loss: 0.031 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 374.36it/s][A

                                                                                                                                                  [A
  4%|███▉                                                                                                     | 374/10000 [00:24<10:05, 15.89it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[12020] loss: 0.064 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 649.57it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1695.35it/s][A
  4%|███▉                                                                                                     | 376/10000 [00:24<10:06, 15.88it/s]
                                                                                                                                                  [A
  4%|███▉                                                                                                     | 376/10000 [00:24<10:06, 15.88it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[12040] loss: 0.076 


                                                                                                                                                  
  4%|███▉                                                                                                     | 376/10000 [00:24<10:06, 15.88it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 622.68it/s][A


[12060] loss: 0.058 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1017.79it/s][A

                                                                                                                                                  [A
  4%|███▉                                                                                                     | 376/10000 [00:24<10:06, 15.88it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[12080] loss: 0.040 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 775.41it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 973.61it/s][A
  4%|███▉                                                                                                     | 378/10000 [00:24<09:36, 16.68it/s]
                                                                                                                                                  [A
  4%|███▉                                                                                                     | 378/10000 [00:24<09:36, 16.68it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[12100] loss: 0.062 


                                                                                                                                                  
  4%|███▉                                                                                                     | 378/10000 [00:24<09:36, 16.68it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 659.68it/s][A


[12120] loss: 0.038 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 983.89it/s][A

                                                                                                                                                  [A
  4%|███▉                                                                                                     | 378/10000 [00:24<09:36, 16.68it/s]
                                                                                                                                                  [A
  4%|███▉                                                                                                     | 378/10000 [00:24<09:36, 16.68it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 650.42it/s][A


[12140] loss: 0.057 
[12160] loss: 0.049 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1501.72it/s][A
  4%|███▉                                                                                                     | 380/10000 [00:24<09:27, 16.95it/s]
                                                                                                                                                  [A
  4%|███▉                                                                                                     | 380/10000 [00:24<09:27, 16.95it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 725.06it/s][A


[12180] loss: 0.054 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1303.39it/s][A

                                                                                                                                                  [A
  4%|███▉                                                                                                     | 380/10000 [00:24<09:27, 16.95it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[12200] loss: 0.074 


                                                                                                                                                  
  4%|███▉                                                                                                     | 380/10000 [00:24<09:27, 16.95it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 555.26it/s][A


[12220] loss: 0.076 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1338.32it/s][A
  4%|████                                                                                                     | 382/10000 [00:24<09:35, 16.70it/s]
                                                                                                                                                  [A
  4%|████                                                                                                     | 382/10000 [00:24<09:35, 16.70it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[12240] loss: 0.072 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 745.02it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 642.51it/s][A

                                                                                                                                                  [A
  4%|████                                                                                                     | 382/10000 [00:24<09:35, 16.70it/s]
                                                                                                                                                  [A
  4%|████                                                                                                     | 382/10000 [00:24<09:35, 16.70it/s]
Training Epoch:   0%|                                                                                      

[12260] loss: 0.047 
[12280] loss: 0.091 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 622.81it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1812.58it/s][A
  4%|████                                                                                                     | 384/10000 [00:24<09:27, 16.95it/s]
                                                                                                                                                  [A
  4%|████                                                                                                     | 384/10000 [00:24<09:27, 16.95it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[12300] loss: 0.042 


                                                                                                                                                  
  4%|████                                                                                                     | 384/10000 [00:24<09:27, 16.95it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 546.55it/s][A


[12320] loss: 0.109 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1422.76it/s][A

                                                                                                                                                  [A
  4%|████                                                                                                     | 384/10000 [00:24<09:27, 16.95it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[12340] loss: 0.073 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 655.10it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1157.37it/s][A
  4%|████                                                                                                     | 386/10000 [00:24<09:37, 16.64it/s]
                                                                                                                                                  [A
  4%|████                                                                                                     | 386/10000 [00:24<09:37, 16.64it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[12360] loss: 0.039 


                                                                                                                                                  
  4%|████                                                                                                     | 386/10000 [00:24<09:37, 16.64it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 624.05it/s][A


[12380] loss: 0.060 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1361.79it/s][A

                                                                                                                                                  [A
  4%|████                                                                                                     | 386/10000 [00:24<09:37, 16.64it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[12400] loss: 0.079 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 729.95it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 842.06it/s][A
  4%|████                                                                                                     | 388/10000 [00:24<09:25, 16.99it/s]
                                                                                                                                                  [A
  4%|████                                                                                                     | 388/10000 [00:24<09:25, 16.99it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[12420] loss: 0.057 


                                                                                                                                                  
  4%|████                                                                                                     | 388/10000 [00:24<09:25, 16.99it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 596.62it/s][A


[12440] loss: 0.061 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 771.44it/s][A

                                                                                                                                                  [A
  4%|████                                                                                                     | 388/10000 [00:24<09:25, 16.99it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[12460] loss: 0.055 


                                                                                                                                                  
  4%|████                                                                                                     | 388/10000 [00:24<09:25, 16.99it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 659.44it/s][A


[12480] loss: 0.121 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 325.57it/s][A
  4%|████                                                                                                     | 390/10000 [00:25<09:29, 16.87it/s]
                                                                                                                                                  [A
  4%|████                                                                                                     | 390/10000 [00:25<09:29, 16.87it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 818.50it/s][A


[12500] loss: 0.090 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 908.84it/s][A

                                                                                                                                                  [A
  4%|████                                                                                                     | 390/10000 [00:25<09:29, 16.87it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[12520] loss: 0.059 


                                                                                                                                                  
  4%|████                                                                                                     | 390/10000 [00:25<09:29, 16.87it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 647.42it/s][A


[12540] loss: 0.106 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 697.77it/s][A
  4%|████                                                                                                     | 392/10000 [00:25<09:12, 17.38it/s]
                                                                                                                                                  [A
  4%|████                                                                                                     | 392/10000 [00:25<09:12, 17.38it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 719.04it/s][A


[12560] loss: 0.066 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 600.73it/s][A

                                                                                                                                                  [A
  4%|████                                                                                                     | 392/10000 [00:25<09:12, 17.38it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[12580] loss: 0.052 


                                                                                                                                                  
  4%|████                                                                                                     | 392/10000 [00:25<09:12, 17.38it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 530.76it/s][A


[12600] loss: 0.042 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 592.67it/s][A
  4%|████▏                                                                                                    | 394/10000 [00:25<09:24, 17.02it/s]
                                                                                                                                                  [A
  4%|████▏                                                                                                    | 394/10000 [00:25<09:24, 17.02it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[12620] loss: 0.053 


                                                                                                                                                  
  4%|████▏                                                                                                    | 394/10000 [00:25<09:24, 17.02it/s]


[12640] loss: 0.034 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 507.76it/s][A

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 367.86it/s][A

                                                                                                                                                  [A
  4%|████▏                                                                                                    | 394/10000 [00:25<09:24, 17.02it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 562.08it/s][A


[12660] loss: 0.102 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 998.17it/s][A
  4%|████▏                                                                                                    | 396/10000 [00:25<09:52, 16.20it/s]
                                                                                                                                                  [A
  4%|████▏                                                                                                    | 396/10000 [00:25<09:52, 16.20it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[12680] loss: 0.050 


                                                                                                                                                  
  4%|████▏                                                                                                    | 396/10000 [00:25<09:52, 16.20it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 513.91it/s][A


[12700] loss: 0.040 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 834.85it/s][A

                                                                                                                                                  [A
  4%|████▏                                                                                                    | 396/10000 [00:25<09:52, 16.20it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[12720] loss: 0.044 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 610.96it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 496.43it/s][A
  4%|████▏                                                                                                    | 398/10000 [00:25<10:08, 15.77it/s]
                                                                                                                                                  [A
  4%|████▏                                                                                                    | 398/10000 [00:25<10:08, 15.77it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[12740] loss: 0.039 


                                                                                                                                                  
  4%|████▏                                                                                                    | 398/10000 [00:25<10:08, 15.77it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 435.38it/s][A


[12760] loss: 0.037 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 762.05it/s][A

                                                                                                                                                  [A
  4%|████▏                                                                                                    | 398/10000 [00:25<10:08, 15.77it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[12780] loss: 0.088 


                                                                                                                                                  
  4%|████▏                                                                                                    | 398/10000 [00:25<10:08, 15.77it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 497.68it/s][A


[12800] loss: 0.053 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 396.21it/s][A
  4%|████▏                                                                                                    | 400/10000 [00:25<10:51, 14.73it/s]
                                                                                                                                                  [A
  4%|████▏                                                                                                    | 400/10000 [00:25<10:51, 14.73it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 628.37it/s][A


[12820] loss: 0.066 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 623.13it/s][A

                                                                                                                                                  [A
  4%|████▏                                                                                                    | 400/10000 [00:25<10:51, 14.73it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[12840] loss: 0.068 


                                                                                                                                                  
  4%|████▏                                                                                                    | 400/10000 [00:25<10:51, 14.73it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 516.02it/s][A


[12860] loss: 0.095 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 827.12it/s][A
  4%|████▏                                                                                                    | 402/10000 [00:25<10:46, 14.85it/s]
                                                                                                                                                  [A
  4%|████▏                                                                                                    | 402/10000 [00:25<10:46, 14.85it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 610.14it/s][A


[12880] loss: 0.067 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 790.78it/s][A

                                                                                                                                                  [A
  4%|████▏                                                                                                    | 402/10000 [00:25<10:46, 14.85it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[12900] loss: 0.063 


                                                                                                                                                  
  4%|████▏                                                                                                    | 402/10000 [00:25<10:46, 14.85it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 520.74it/s][A


[12920] loss: 0.063 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 469.16it/s][A
  4%|████▏                                                                                                    | 404/10000 [00:25<10:42, 14.94it/s]
                                                                                                                                                  [A
  4%|████▏                                                                                                    | 404/10000 [00:25<10:42, 14.94it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[12940] loss: 0.032 


                                                                                                                                                  
  4%|████▏                                                                                                    | 404/10000 [00:25<10:42, 14.94it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 545.90it/s][A


[12960] loss: 0.139 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 383.60it/s][A

                                                                                                                                                  [A
  4%|████▏                                                                                                    | 404/10000 [00:26<10:42, 14.94it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 543.36it/s][A


[12980] loss: 0.118 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 827.61it/s][A
  4%|████▎                                                                                                    | 406/10000 [00:26<10:43, 14.91it/s]
                                                                                                                                                  [A
  4%|████▎                                                                                                    | 406/10000 [00:26<10:43, 14.91it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[13000] loss: 0.064 


                                                                                                                                                  
  4%|████▎                                                                                                    | 406/10000 [00:26<10:43, 14.91it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 563.28it/s][A


[13020] loss: 0.077 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 814.74it/s][A

                                                                                                                                                  [A
  4%|████▎                                                                                                    | 406/10000 [00:26<10:43, 14.91it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 603.89it/s][A


[13040] loss: 0.040 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 451.53it/s][A
  4%|████▎                                                                                                    | 408/10000 [00:26<10:35, 15.10it/s]
                                                                                                                                                  [A
  4%|████▎                                                                                                    | 408/10000 [00:26<10:35, 15.10it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[13060] loss: 0.070 


                                                                                                                                                  
  4%|████▎                                                                                                    | 408/10000 [00:26<10:35, 15.10it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 538.53it/s][A


[13080] loss: 0.058 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 947.44it/s][A

                                                                                                                                                  [A
  4%|████▎                                                                                                    | 408/10000 [00:26<10:35, 15.10it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[13100] loss: 0.056 


                                                                                                                                                  
  4%|████▎                                                                                                    | 408/10000 [00:26<10:35, 15.10it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 485.84it/s][A


[13120] loss: 0.097 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 315.27it/s][A
  4%|████▎                                                                                                    | 410/10000 [00:26<10:51, 14.72it/s]
                                                                                                                                                  [A
  4%|████▎                                                                                                    | 410/10000 [00:26<10:51, 14.72it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 670.01it/s][A


[13140] loss: 0.065 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1246.08it/s][A

                                                                                                                                                  [A
  4%|████▎                                                                                                    | 410/10000 [00:26<10:51, 14.72it/s]
                                                                                                                                                  [A
  4%|████▎                                                                                                    | 410/10000 [00:26<10:51, 14.72it/s]

[13160] loss: 0.055 
[13180] loss: 0.062 



Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 627.54it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1264.49it/s][A
  4%|████▎                                                                                                    | 412/10000 [00:26<10:23, 15.38it/s]
                                                                                                                                                  [A
  4%|████▎                                                                                                    | 412/10000 [00:26<10:23, 15.38it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[13200] loss: 0.047 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 759.01it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1256.53it/s][A

                                                                                                                                                  [A
  4%|████▎                                                                                                    | 412/10000 [00:26<10:23, 15.38it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[13220] loss: 0.097 


                                                                                                                                                  
  4%|████▎                                                                                                    | 412/10000 [00:26<10:23, 15.38it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 632.12it/s][A


[13240] loss: 0.043 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1447.81it/s][A
  4%|████▎                                                                                                    | 414/10000 [00:26<09:53, 16.14it/s]
                                                                                                                                                  [A
  4%|████▎                                                                                                    | 414/10000 [00:26<09:53, 16.14it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[13260] loss: 0.046 


                                                                                                                                                  
  4%|████▎                                                                                                    | 414/10000 [00:26<09:53, 16.14it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 617.54it/s][A


[13280] loss: 0.022 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1155.14it/s][A

                                                                                                                                                  [A
  4%|████▎                                                                                                    | 414/10000 [00:26<09:53, 16.14it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 837.19it/s][A


[13300] loss: 0.047 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2082.57it/s][A
  4%|████▎                                                                                                    | 416/10000 [00:26<09:29, 16.84it/s]
                                                                                                                                                  [A
  4%|████▎                                                                                                    | 416/10000 [00:26<09:29, 16.84it/s]
                                                                                                                                                  [A
  4%|████▎                                                                                                    | 416/10000 [00:26<09:29, 16.84it/s]


[13320] loss: 0.049 
[13340] loss: 0.082 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 637.99it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1488.40it/s][A

                                                                                                                                                  [A
  4%|████▎                                                                                                    | 416/10000 [00:26<09:29, 16.84it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 816.54it/s][A


[13360] loss: 0.072 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2126.93it/s][A
  4%|████▍                                                                                                    | 418/10000 [00:26<09:05, 17.56it/s]
                                                                                                                                                  [A
  4%|████▍                                                                                                    | 418/10000 [00:26<09:05, 17.56it/s]


[13380] loss: 0.053 


                                                                                                                                                  [A
  4%|████▍                                                                                                    | 418/10000 [00:26<09:05, 17.56it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[13400] loss: 0.055 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 713.68it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1289.36it/s][A

                                                                                                                                                  [A
  4%|████▍                                                                                                    | 418/10000 [00:26<09:05, 17.56it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[13420] loss: 0.060 


                                                                                                                                                  
  4%|████▍                                                                                                    | 418/10000 [00:26<09:05, 17.56it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 720.74it/s][A


[13440] loss: 0.037 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1510.92it/s][A
  4%|████▍                                                                                                    | 420/10000 [00:26<08:52, 17.98it/s]
                                                                                                                                                  [A
  4%|████▍                                                                                                    | 420/10000 [00:26<08:52, 17.98it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 946.52it/s][A


[13460] loss: 0.068 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1318.96it/s][A

                                                                                                                                                  [A
  4%|████▍                                                                                                    | 420/10000 [00:26<08:52, 17.98it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[13480] loss: 0.079 


                                                                                                                                                  
  4%|████▍                                                                                                    | 420/10000 [00:26<08:52, 17.98it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 694.18it/s][A


[13500] loss: 0.103 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 758.05it/s][A

                                                                                                                                                  [A
  4%|████▍                                                                                                    | 420/10000 [00:26<08:52, 17.98it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[13520] loss: 0.038 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 914.10it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 746.85it/s][A
  4%|████▍                                                                                                    | 423/10000 [00:27<08:20, 19.14it/s]
                                                                                                                                                  [A
  4%|████▍                                                                                                    | 423/10000 [00:27<08:20, 19.14it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[13540] loss: 0.051 


                                                                                                                                                  
  4%|████▍                                                                                                    | 423/10000 [00:27<08:20, 19.14it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[13560] loss: 0.047 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 548.88it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1630.12it/s][A

                                                                                                                                                  [A
  4%|████▍                                                                                                    | 423/10000 [00:27<08:20, 19.14it/s]
                                                                                                                                                  [A
  4%|████▍                                                                                                    | 423/10000 [00:27<08:20, 19.14it/s]
Training Epoch:   0%|                                                                                      

[13580] loss: 0.055 
[13600] loss: 0.045 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 582.77it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1600.27it/s][A
  4%|████▍                                                                                                    | 425/10000 [00:27<08:52, 18.00it/s]
                                                                                                                                                  [A
  4%|████▍                                                                                                    | 425/10000 [00:27<08:52, 18.00it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 882.16it/s][A


[13620] loss: 0.050 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1311.13it/s][A

                                                                                                                                                  [A
  4%|████▍                                                                                                    | 425/10000 [00:27<08:52, 18.00it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[13640] loss: 0.063 


                                                                                                                                                  
  4%|████▍                                                                                                    | 425/10000 [00:27<08:52, 18.00it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 576.12it/s][A


[13660] loss: 0.077 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 945.73it/s][A
  4%|████▍                                                                                                    | 427/10000 [00:27<08:45, 18.20it/s]
                                                                                                                                                  [A
  4%|████▍                                                                                                    | 427/10000 [00:27<08:45, 18.20it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 761.52it/s][A


[13680] loss: 0.056 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 716.98it/s][A

                                                                                                                                                  [A
  4%|████▍                                                                                                    | 427/10000 [00:27<08:45, 18.20it/s]
                                                                                                                                                  [A
  4%|████▍                                                                                                    | 427/10000 [00:27<08:45, 18.20it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 611.20it/s][A


[13700] loss: 0.045 
[13720] loss: 0.043 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 759.15it/s][A
  4%|████▌                                                                                                    | 429/10000 [00:27<08:48, 18.11it/s]
                                                                                                                                                  [A
  4%|████▌                                                                                                    | 429/10000 [00:27<08:48, 18.11it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[13740] loss: 0.046 


                                                                                                                                                  
  4%|████▌                                                                                                    | 429/10000 [00:27<08:48, 18.11it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 595.68it/s][A


[13760] loss: 0.104 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 691.56it/s][A

                                                                                                                                                  [A
  4%|████▌                                                                                                    | 429/10000 [00:27<08:48, 18.11it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 751.02it/s][A


[13780] loss: 0.090 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1106.68it/s][A
  4%|████▌                                                                                                    | 431/10000 [00:27<08:52, 17.98it/s]
                                                                                                                                                  [A
  4%|████▌                                                                                                    | 431/10000 [00:27<08:52, 17.98it/s]
                                                                                                                                                  [A
  4%|████▌                                                                                                    | 431/10000 [00:27<08:52, 17.98it/s]
Training Epoch:   0%|                                                                                       

[13800] loss: 0.031 
[13820] loss: 0.057 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 724.76it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1428.09it/s][A

                                                                                                                                                  [A
  4%|████▌                                                                                                    | 431/10000 [00:27<08:52, 17.98it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[13840] loss: 0.078 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 585.90it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 570.19it/s][A
  4%|████▌                                                                                                    | 433/10000 [00:27<08:57, 17.79it/s]
                                                                                                                                                  [A
  4%|████▌                                                                                                    | 433/10000 [00:27<08:57, 17.79it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[13860] loss: 0.075 


                                                                                                                                                  
  4%|████▌                                                                                                    | 433/10000 [00:27<08:57, 17.79it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[13880] loss: 0.058 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 474.48it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 492.29it/s][A

                                                                                                                                                  [A
  4%|████▌                                                                                                    | 433/10000 [00:27<08:57, 17.79it/s]
                                                                                                                                                  [A
  4%|████▌                                                                                                    | 433/10000 [00:27<08:57, 17.79it/s]
Training Epoch: 100%|██████████████████████████████████████████████████████████████████████████████████████

[13900] loss: 0.070 
[13920] loss: 0.048 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 451.24it/s][A
  4%|████▌                                                                                                    | 435/10000 [00:27<09:44, 16.36it/s]
                                                                                                                                                  [A
  4%|████▌                                                                                                    | 435/10000 [00:27<09:44, 16.36it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 561.49it/s][A


[13940] loss: 0.067 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 790.19it/s][A

                                                                                                                                                  [A
  4%|████▌                                                                                                    | 435/10000 [00:27<09:44, 16.36it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[13960] loss: 0.062 


                                                                                                                                                  
  4%|████▌                                                                                                    | 435/10000 [00:27<09:44, 16.36it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 511.35it/s][A


[13980] loss: 0.047 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 644.88it/s][A
  4%|████▌                                                                                                    | 437/10000 [00:27<10:09, 15.69it/s]
                                                                                                                                                  [A
  4%|████▌                                                                                                    | 437/10000 [00:27<10:09, 15.69it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 522.48it/s][A


[14000] loss: 0.044 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 758.19it/s][A

                                                                                                                                                  [A
  4%|████▌                                                                                                    | 437/10000 [00:27<10:09, 15.69it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[14020] loss: 0.046 


                                                                                                                                                  
  4%|████▌                                                                                                    | 437/10000 [00:27<10:09, 15.69it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 513.28it/s][A


[14040] loss: 0.060 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 500.45it/s][A
  4%|████▌                                                                                                    | 439/10000 [00:28<10:33, 15.08it/s]
                                                                                                                                                  [A
  4%|████▌                                                                                                    | 439/10000 [00:28<10:33, 15.08it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[14060] loss: 0.070 


                                                                                                                                                  
  4%|████▌                                                                                                    | 439/10000 [00:28<10:33, 15.08it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 501.11it/s][A


[14080] loss: 0.047 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 567.49it/s][A

                                                                                                                                                  [A
  4%|████▌                                                                                                    | 439/10000 [00:28<10:33, 15.08it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 589.84it/s][A


[14100] loss: 0.050 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 655.67it/s][A
  4%|████▋                                                                                                    | 441/10000 [00:28<10:40, 14.93it/s]
                                                                                                                                                  [A
  4%|████▋                                                                                                    | 441/10000 [00:28<10:40, 14.93it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[14120] loss: 0.102 


                                                                                                                                                  
  4%|████▋                                                                                                    | 441/10000 [00:28<10:40, 14.93it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 467.91it/s][A


[14140] loss: 0.043 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 773.57it/s][A

                                                                                                                                                  [A
  4%|████▋                                                                                                    | 441/10000 [00:28<10:40, 14.93it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[14160] loss: 0.054 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 540.16it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 922.84it/s][A
  4%|████▋                                                                                                    | 443/10000 [00:28<11:00, 14.46it/s]
                                                                                                                                                  [A
  4%|████▋                                                                                                    | 443/10000 [00:28<11:00, 14.46it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[14180] loss: 0.055 


                                                                                                                                                  
  4%|████▋                                                                                                    | 443/10000 [00:28<11:00, 14.46it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 492.08it/s][A


[14200] loss: 0.062 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 332.41it/s][A

                                                                                                                                                  [A
  4%|████▋                                                                                                    | 443/10000 [00:28<11:00, 14.46it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[14220] loss: 0.061 


                                                                                                                                                  
  4%|████▋                                                                                                    | 443/10000 [00:28<11:00, 14.46it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 543.21it/s][A


[14240] loss: 0.110 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 773.43it/s][A
  4%|████▋                                                                                                    | 445/10000 [00:28<11:11, 14.23it/s]
                                                                                                                                                  [A
  4%|████▋                                                                                                    | 445/10000 [00:28<11:11, 14.23it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 630.28it/s][A


[14260] loss: 0.061 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 618.45it/s][A

                                                                                                                                                  [A
  4%|████▋                                                                                                    | 445/10000 [00:28<11:11, 14.23it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[14280] loss: 0.078 


                                                                                                                                                  
  4%|████▋                                                                                                    | 445/10000 [00:28<11:11, 14.23it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 526.41it/s][A


[14300] loss: 0.022 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 687.70it/s][A
  4%|████▋                                                                                                    | 447/10000 [00:28<10:57, 14.53it/s]
                                                                                                                                                  [A
  4%|████▋                                                                                                    | 447/10000 [00:28<10:57, 14.53it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[14320] loss: 0.073 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 564.38it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 807.53it/s][A

                                                                                                                                                  [A
  4%|████▋                                                                                                    | 447/10000 [00:28<10:57, 14.53it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[14340] loss: 0.044 


                                                                                                                                                  
  4%|████▋                                                                                                    | 447/10000 [00:28<10:57, 14.53it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 529.05it/s][A


[14360] loss: 0.042 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 664.81it/s][A
  4%|████▋                                                                                                    | 449/10000 [00:28<10:53, 14.61it/s]
                                                                                                                                                  [A
  4%|████▋                                                                                                    | 449/10000 [00:28<10:53, 14.61it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[14380] loss: 0.057 


                                                                                                                                                  
  4%|████▋                                                                                                    | 449/10000 [00:28<10:53, 14.61it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 493.43it/s][A


[14400] loss: 0.060 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 718.08it/s][A

                                                                                                                                                  [A
  4%|████▋                                                                                                    | 449/10000 [00:28<10:53, 14.61it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 757.37it/s][A


[14420] loss: 0.046 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 907.07it/s][A
  5%|████▋                                                                                                    | 451/10000 [00:28<10:35, 15.02it/s]
                                                                                                                                                  [A
  5%|████▋                                                                                                    | 451/10000 [00:28<10:35, 15.02it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[14440] loss: 0.053 


                                                                                                                                                  
  5%|████▋                                                                                                    | 451/10000 [00:28<10:35, 15.02it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 717.65it/s][A


[14460] loss: 0.041 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1342.61it/s][A

                                                                                                                                                  [A
  5%|████▋                                                                                                    | 451/10000 [00:28<10:35, 15.02it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 753.56it/s][A

[14480] loss: 0.049 




Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1150.07it/s][A
  5%|████▊                                                                                                    | 453/10000 [00:28<09:56, 16.02it/s]
                                                                                                                                                  [A
  5%|████▊                                                                                                    | 453/10000 [00:28<09:56, 16.02it/s]
                                                                                                                                                  [A
                                                                                                                                                  

[14500] loss: 0.048 


  5%|████▊                                                                                                    | 453/10000 [00:28<09:56, 16.02it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 824.25it/s][A


[14520] loss: 0.064 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1939.11it/s][A

                                                                                                                                                  [A
  5%|████▊                                                                                                    | 453/10000 [00:29<09:56, 16.02it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[14540] loss: 0.047 


                                                                                                                                                  
  5%|████▊                                                                                                    | 453/10000 [00:29<09:56, 16.02it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 664.81it/s][A


[14560] loss: 0.028 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1882.54it/s][A
  5%|████▊                                                                                                    | 455/10000 [00:29<09:26, 16.85it/s]
                                                                                                                                                  [A
  5%|████▊                                                                                                    | 455/10000 [00:29<09:26, 16.85it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[14580] loss: 0.055 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 944.94it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1175.53it/s][A

                                                                                                                                                  [A
  5%|████▊                                                                                                    | 455/10000 [00:29<09:26, 16.85it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[14600] loss: 0.040 


                                                                                                                                                  
  5%|████▊                                                                                                    | 455/10000 [00:29<09:26, 16.85it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 579.40it/s][A


[14620] loss: 0.033 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1370.24it/s][A
  5%|████▊                                                                                                    | 457/10000 [00:29<09:12, 17.26it/s]
                                                                                                                                                  [A
  5%|████▊                                                                                                    | 457/10000 [00:29<09:12, 17.26it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 683.27it/s][A


[14640] loss: 0.072 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1298.14it/s][A

                                                                                                                                                  [A
  5%|████▊                                                                                                    | 457/10000 [00:29<09:12, 17.26it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[14660] loss: 0.054 


                                                                                                                                                  
  5%|████▊                                                                                                    | 457/10000 [00:29<09:12, 17.26it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 633.86it/s][A


[14680] loss: 0.090 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 695.46it/s][A
  5%|████▊                                                                                                    | 459/10000 [00:29<09:13, 17.25it/s]
                                                                                                                                                  [A
  5%|████▊                                                                                                    | 459/10000 [00:29<09:13, 17.25it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[14700] loss: 0.056 


                                                                                                                                                  
  5%|████▊                                                                                                    | 459/10000 [00:29<09:13, 17.25it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 662.69it/s][A


[14720] loss: 0.062 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1083.52it/s][A

                                                                                                                                                  [A
  5%|████▊                                                                                                    | 459/10000 [00:29<09:13, 17.25it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 719.03it/s][A


[14740] loss: 0.053 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1241.29it/s][A
  5%|████▊                                                                                                    | 461/10000 [00:29<09:06, 17.47it/s]
                                                                                                                                                  [A
  5%|████▊                                                                                                    | 461/10000 [00:29<09:06, 17.47it/s]
                                                                                                                                                  [A

[14760] loss: 0.059 



  5%|████▊                                                                                                    | 461/10000 [00:29<09:06, 17.47it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 650.21it/s][A


[14780] loss: 0.071 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1426.15it/s][A

                                                                                                                                                  [A
  5%|████▊                                                                                                    | 461/10000 [00:29<09:06, 17.47it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 793.48it/s][A


[14800] loss: 0.091 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 681.34it/s][A
  5%|████▊                                                                                                    | 463/10000 [00:29<08:57, 17.75it/s]
                                                                                                                                                  [A
  5%|████▊                                                                                                    | 463/10000 [00:29<08:57, 17.75it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[14820] loss: 0.054 


                                                                                                                                                  
  5%|████▊                                                                                                    | 463/10000 [00:29<08:57, 17.75it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[14840] loss: 0.046 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 508.09it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1190.89it/s][A

                                                                                                                                                  [A
  5%|████▊                                                                                                    | 463/10000 [00:29<08:57, 17.75it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[14860] loss: 0.050 


                                                                                                                                                  
  5%|████▊                                                                                                    | 463/10000 [00:29<08:57, 17.75it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 615.31it/s][A


[14880] loss: 0.093 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1391.61it/s][A
  5%|████▉                                                                                                    | 465/10000 [00:29<09:31, 16.69it/s]
                                                                                                                                                  [A
  5%|████▉                                                                                                    | 465/10000 [00:29<09:31, 16.69it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[14900] loss: 0.077 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 696.79it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 978.83it/s][A

                                                                                                                                                  [A
  5%|████▉                                                                                                    | 465/10000 [00:29<09:31, 16.69it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[14920] loss: 0.055 


                                                                                                                                                  
  5%|████▉                                                                                                    | 465/10000 [00:29<09:31, 16.69it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 583.27it/s][A


[14940] loss: 0.057 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1390.68it/s][A
  5%|████▉                                                                                                    | 467/10000 [00:29<09:29, 16.75it/s]
                                                                                                                                                  [A
  5%|████▉                                                                                                    | 467/10000 [00:29<09:29, 16.75it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 781.07it/s][A

[14960] loss: 0.058 




Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1326.05it/s][A

                                                                                                                                                  [A
  5%|████▉                                                                                                    | 467/10000 [00:29<09:29, 16.75it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[14980] loss: 0.050 


                                                                                                                                                  
  5%|████▉                                                                                                    | 467/10000 [00:29<09:29, 16.75it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 628.48it/s][A


[15000] loss: 0.042 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1869.95it/s][A
  5%|████▉                                                                                                    | 469/10000 [00:29<09:18, 17.07it/s]
                                                                                                                                                  [A
  5%|████▉                                                                                                    | 469/10000 [00:29<09:18, 17.07it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[15020] loss: 0.064 


                                                                                                                                                  
  5%|████▉                                                                                                    | 469/10000 [00:29<09:18, 17.07it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 545.92it/s][A


[15040] loss: 0.091 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 377.25it/s][A

                                                                                                                                                  [A
  5%|████▉                                                                                                    | 469/10000 [00:29<09:18, 17.07it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[15060] loss: 0.057 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 553.50it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 562.62it/s][A
  5%|████▉                                                                                                    | 471/10000 [00:30<09:48, 16.18it/s]
                                                                                                                                                  [A
  5%|████▉                                                                                                    | 471/10000 [00:30<09:48, 16.18it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[15080] loss: 0.044 


                                                                                                                                                  
  5%|████▉                                                                                                    | 471/10000 [00:30<09:48, 16.18it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 515.85it/s][A


[15100] loss: 0.105 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 845.46it/s][A

                                                                                                                                                  [A
  5%|████▉                                                                                                    | 471/10000 [00:30<09:48, 16.18it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[15120] loss: 0.075 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 635.73it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 649.07it/s][A
  5%|████▉                                                                                                    | 473/10000 [00:30<09:56, 15.97it/s]
                                                                                                                                                  [A
  5%|████▉                                                                                                    | 473/10000 [00:30<09:56, 15.97it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[15140] loss: 0.049 


                                                                                                                                                  
  5%|████▉                                                                                                    | 473/10000 [00:30<09:56, 15.97it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 499.95it/s][A


[15160] loss: 0.059 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 823.38it/s][A

                                                                                                                                                  [A
  5%|████▉                                                                                                    | 473/10000 [00:30<09:56, 15.97it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[15180] loss: 0.071 


                                                                                                                                                  
  5%|████▉                                                                                                    | 473/10000 [00:30<09:56, 15.97it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 525.14it/s][A


[15200] loss: 0.075 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 242.71it/s][A
  5%|████▉                                                                                                    | 475/10000 [00:30<10:23, 15.27it/s]
                                                                                                                                                  [A
  5%|████▉                                                                                                    | 475/10000 [00:30<10:23, 15.27it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 604.92it/s][A


[15220] loss: 0.050 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 517.05it/s][A

                                                                                                                                                  [A
  5%|████▉                                                                                                    | 475/10000 [00:30<10:23, 15.27it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[15240] loss: 0.036 


                                                                                                                                                  
  5%|████▉                                                                                                    | 475/10000 [00:30<10:23, 15.27it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 521.49it/s][A


[15260] loss: 0.086 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 822.90it/s][A
  5%|█████                                                                                                    | 477/10000 [00:30<10:24, 15.24it/s]
                                                                                                                                                  [A
  5%|█████                                                                                                    | 477/10000 [00:30<10:24, 15.24it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 607.39it/s][A


[15280] loss: 0.043 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 553.19it/s][A

                                                                                                                                                  [A
  5%|█████                                                                                                    | 477/10000 [00:30<10:24, 15.24it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[15300] loss: 0.046 


                                                                                                                                                  
  5%|█████                                                                                                    | 477/10000 [00:30<10:24, 15.24it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 554.48it/s][A


[15320] loss: 0.041 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 889.38it/s][A
  5%|█████                                                                                                    | 479/10000 [00:30<10:18, 15.40it/s]
                                                                                                                                                  [A
  5%|█████                                                                                                    | 479/10000 [00:30<10:18, 15.40it/s]

[15340] loss: 0.057 



                                                                                                                                                  [A
  5%|█████                                                                                                    | 479/10000 [00:30<10:18, 15.40it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 583.81it/s][A


[15360] loss: 0.052 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 313.05it/s][A

                                                                                                                                                  [A
  5%|█████                                                                                                    | 479/10000 [00:30<10:18, 15.40it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[15380] loss: 0.060 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 580.72it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 669.48it/s][A
  5%|█████                                                                                                    | 481/10000 [00:30<10:14, 15.48it/s]
                                                                                                                                                  [A
  5%|█████                                                                                                    | 481/10000 [00:30<10:14, 15.48it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[15400] loss: 0.066 


                                                                                                                                                  
  5%|█████                                                                                                    | 481/10000 [00:30<10:14, 15.48it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 515.10it/s][A


[15420] loss: 0.047 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 925.69it/s][A

                                                                                                                                                  [A
  5%|█████                                                                                                    | 481/10000 [00:30<10:14, 15.48it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 599.76it/s][A

[15440] loss: 0.046 




Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 757.50it/s][A
  5%|█████                                                                                                    | 483/10000 [00:30<10:19, 15.35it/s]
                                                                                                                                                  [A
  5%|█████                                                                                                    | 483/10000 [00:30<10:19, 15.35it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[15460] loss: 0.055 


                                                                                                                                                  
  5%|█████                                                                                                    | 483/10000 [00:30<10:19, 15.35it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 489.94it/s][A


[15480] loss: 0.076 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 492.75it/s][A

                                                                                                                                                  [A
  5%|█████                                                                                                    | 483/10000 [00:30<10:19, 15.35it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[15500] loss: 0.047 


                                                                                                                                                  
  5%|█████                                                                                                    | 483/10000 [00:30<10:19, 15.35it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 530.68it/s][A


[15520] loss: 0.085 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 263.02it/s][A
  5%|█████                                                                                                    | 485/10000 [00:30<10:41, 14.84it/s]
                                                                                                                                                  [A
  5%|█████                                                                                                    | 485/10000 [00:30<10:41, 14.84it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 621.76it/s][A


[15540] loss: 0.084 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 606.29it/s][A

                                                                                                                                                  [A
  5%|█████                                                                                                    | 485/10000 [00:31<10:41, 14.84it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[15560] loss: 0.064 


                                                                                                                                                  
  5%|█████                                                                                                    | 485/10000 [00:31<10:41, 14.84it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 539.05it/s][A


[15580] loss: 0.030 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 818.40it/s][A
  5%|█████                                                                                                    | 487/10000 [00:31<10:31, 15.05it/s]
                                                                                                                                                  [A
  5%|█████                                                                                                    | 487/10000 [00:31<10:31, 15.05it/s]


[15600] loss: 0.043 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 725.04it/s][A

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 873.09it/s][A

                                                                                                                                                  [A
  5%|█████                                                                                                    | 487/10000 [00:31<10:31, 15.05it/s]
                                                                                                                                                  [A
  5%|█████                                                                                                    | 487/10000 [00:31<10:31, 15.05it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████

[15620] loss: 0.047 
[15640] loss: 0.094 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 516.35it/s][A
  5%|█████▏                                                                                                   | 489/10000 [00:31<09:55, 15.97it/s]
                                                                                                                                                  [A
  5%|█████▏                                                                                                   | 489/10000 [00:31<09:55, 15.97it/s]
                                                                                                                                                  [A
                                                                                                                                                  

[15660] loss: 0.042 


  5%|█████▏                                                                                                   | 489/10000 [00:31<09:55, 15.97it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 729.51it/s][A


[15680] loss: 0.035 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 380.40it/s][A

                                                                                                                                                  [A
  5%|█████▏                                                                                                   | 489/10000 [00:31<09:55, 15.97it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 844.41it/s][A


[15700] loss: 0.060 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 846.48it/s][A

                                                                                                                                                  [A
  5%|█████▏                                                                                                   | 489/10000 [00:31<09:55, 15.97it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[15720] loss: 0.076 


                                                                                                                                                  
  5%|█████▏                                                                                                   | 489/10000 [00:31<09:55, 15.97it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 659.56it/s][A


[15740] loss: 0.050 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1489.98it/s][A
  5%|█████▏                                                                                                   | 492/10000 [00:31<09:13, 17.17it/s]
                                                                                                                                                  [A
  5%|█████▏                                                                                                   | 492/10000 [00:31<09:13, 17.17it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 800.50it/s][A


[15760] loss: 0.047 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1133.60it/s][A

                                                                                                                                                  [A
  5%|█████▏                                                                                                   | 492/10000 [00:31<09:13, 17.17it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[15780] loss: 0.043 


                                                                                                                                                  
  5%|█████▏                                                                                                   | 492/10000 [00:31<09:13, 17.17it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[15800] loss: 0.075 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 616.42it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1862.48it/s][A
  5%|█████▏                                                                                                   | 494/10000 [00:31<09:04, 17.47it/s]
                                                                                                                                                  [A
  5%|█████▏                                                                                                   | 494/10000 [00:31<09:04, 17.47it/s]
                                                                                                                                                  [A

[15820] loss: 0.048 



  5%|█████▏                                                                                                   | 494/10000 [00:31<09:04, 17.47it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 597.17it/s][A


[15840] loss: 0.031 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 336.92it/s][A

                                                                                                                                                  [A
  5%|█████▏                                                                                                   | 494/10000 [00:31<09:04, 17.47it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[15860] loss: 0.063 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 646.82it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1734.62it/s][A
  5%|█████▏                                                                                                   | 496/10000 [00:31<09:18, 17.02it/s]
                                                                                                                                                  [A
  5%|█████▏                                                                                                   | 496/10000 [00:31<09:18, 17.02it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[15880] loss: 0.062 


                                                                                                                                                  
  5%|█████▏                                                                                                   | 496/10000 [00:31<09:18, 17.02it/s]


[15900] loss: 0.043 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 591.53it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1481.04it/s][A

                                                                                                                                                  [A
  5%|█████▏                                                                                                   | 496/10000 [00:31<09:18, 17.02it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[15920] loss: 0.063 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 723.13it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1795.51it/s][A
  5%|█████▏                                                                                                   | 498/10000 [00:31<09:17, 17.04it/s]
                                                                                                                                                  [A
  5%|█████▏                                                                                                   | 498/10000 [00:31<09:17, 17.04it/s]
                                                                                                                                                  [A
  5%|█████▏                                                                                                 

[15940] loss: 0.041 
[15960] loss: 0.039 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 564.36it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1790.14it/s][A

                                                                                                                                                  [A
  5%|█████▏                                                                                                   | 498/10000 [00:31<09:17, 17.04it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[15980] loss: 0.080 


                                                                                                                                                  
  5%|█████▏                                                                                                   | 498/10000 [00:31<09:17, 17.04it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 605.50it/s][A


[16000] loss: 0.057 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 630.63it/s][A
  5%|█████▎                                                                                                   | 500/10000 [00:31<09:35, 16.51it/s]
                                                                                                                                                  [A
  5%|█████▎                                                                                                   | 500/10000 [00:31<09:35, 16.51it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[16020] loss: 0.049 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 725.33it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1330.68it/s][A

                                                                                                                                                  [A
  5%|█████▎                                                                                                   | 500/10000 [00:31<09:35, 16.51it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[16040] loss: 0.062 


                                                                                                                                                  
  5%|█████▎                                                                                                   | 500/10000 [00:31<09:35, 16.51it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 624.17it/s][A


[16060] loss: 0.062 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 692.02it/s][A
  5%|█████▎                                                                                                   | 502/10000 [00:31<09:26, 16.76it/s]
                                                                                                                                                  [A
  5%|█████▎                                                                                                   | 502/10000 [00:31<09:26, 16.76it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[16080] loss: 0.044 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 705.73it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1338.32it/s][A

                                                                                                                                                  [A
  5%|█████▎                                                                                                   | 502/10000 [00:31<09:26, 16.76it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[16100] loss: 0.056 


                                                                                                                                                  
  5%|█████▎                                                                                                   | 502/10000 [00:32<09:26, 16.76it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[16120] loss: 0.045 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 571.84it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1473.75it/s][A
  5%|█████▎                                                                                                   | 504/10000 [00:32<09:29, 16.68it/s]
                                                                                                                                                  [A
  5%|█████▎                                                                                                   | 504/10000 [00:32<09:29, 16.68it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[16140] loss: 0.064 


                                                                                                                                                  
  5%|█████▎                                                                                                   | 504/10000 [00:32<09:29, 16.68it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 634.99it/s][A


[16160] loss: 0.069 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1160.89it/s][A

                                                                                                                                                  [A
  5%|█████▎                                                                                                   | 504/10000 [00:32<09:29, 16.68it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[16180] loss: 0.083 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 737.56it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1973.79it/s][A
  5%|█████▎                                                                                                   | 506/10000 [00:32<09:15, 17.08it/s]
                                                                                                                                                  [A
  5%|█████▎                                                                                                   | 506/10000 [00:32<09:15, 17.08it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[16200] loss: 0.027 


                                                                                                                                                  
  5%|█████▎                                                                                                   | 506/10000 [00:32<09:15, 17.08it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 511.52it/s][A


[16220] loss: 0.031 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 870.55it/s][A

                                                                                                                                                  [A
  5%|█████▎                                                                                                   | 506/10000 [00:32<09:15, 17.08it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[16240] loss: 0.041 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 660.74it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 634.44it/s][A
  5%|█████▎                                                                                                   | 508/10000 [00:32<09:33, 16.56it/s]
                                                                                                                                                  [A
  5%|█████▎                                                                                                   | 508/10000 [00:32<09:33, 16.56it/s]
                                                                                                                                                  [A
  5%|█████▎                                                                                                 

[16260] loss: 0.034 
[16280] loss: 0.057 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 594.23it/s][A

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 975.42it/s][A

                                                                                                                                                  [A
  5%|█████▎                                                                                                   | 508/10000 [00:32<09:33, 16.56it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[16300] loss: 0.061 


                                                                                                                                                  
  5%|█████▎                                                                                                   | 508/10000 [00:32<09:33, 16.56it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 556.32it/s][A


[16320] loss: 0.037 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 974.06it/s][A
  5%|█████▎                                                                                                   | 510/10000 [00:32<09:43, 16.26it/s]
                                                                                                                                                  [A
  5%|█████▎                                                                                                   | 510/10000 [00:32<09:43, 16.26it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[16340] loss: 0.037 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 592.64it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 852.67it/s][A

                                                                                                                                                  [A
  5%|█████▎                                                                                                   | 510/10000 [00:32<09:43, 16.26it/s]


[16360] loss: 0.068 


                                                                                                                                                  [A
  5%|█████▎                                                                                                   | 510/10000 [00:32<09:43, 16.26it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 565.25it/s][A


[16380] loss: 0.054 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 936.86it/s][A
  5%|█████▍                                                                                                   | 512/10000 [00:32<09:55, 15.93it/s]
                                                                                                                                                  [A
  5%|█████▍                                                                                                   | 512/10000 [00:32<09:55, 15.93it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[16400] loss: 0.051 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 678.10it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 977.24it/s][A

                                                                                                                                                  [A
  5%|█████▍                                                                                                   | 512/10000 [00:32<09:55, 15.93it/s]
                                                                                                                                                  [A
  5%|█████▍                                                                                                   | 512/10000 [00:32<09:55, 15.93it/s]
Training Epoch:   0%|                                                                                      

[16420] loss: 0.085 
[16440] loss: 0.058 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 590.61it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 991.09it/s][A
  5%|█████▍                                                                                                   | 514/10000 [00:32<09:44, 16.24it/s]
                                                                                                                                                  [A
  5%|█████▍                                                                                                   | 514/10000 [00:32<09:44, 16.24it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[16460] loss: 0.081 


                                                                                                                                                  
  5%|█████▍                                                                                                   | 514/10000 [00:32<09:44, 16.24it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 562.96it/s][A


[16480] loss: 0.042 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 967.77it/s][A

                                                                                                                                                  [A
  5%|█████▍                                                                                                   | 514/10000 [00:32<09:44, 16.24it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[16500] loss: 0.028 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 639.85it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 612.84it/s][A
  5%|█████▍                                                                                                   | 516/10000 [00:32<09:44, 16.22it/s]
                                                                                                                                                  [A
  5%|█████▍                                                                                                   | 516/10000 [00:32<09:44, 16.22it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[16520] loss: 0.054 


                                                                                                                                                  
  5%|█████▍                                                                                                   | 516/10000 [00:32<09:44, 16.22it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 554.27it/s][A


[16540] loss: 0.060 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1005.35it/s][A

                                                                                                                                                  [A
  5%|█████▍                                                                                                   | 516/10000 [00:32<09:44, 16.22it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[16560] loss: 0.080 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 659.01it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 972.48it/s][A
  5%|█████▍                                                                                                   | 518/10000 [00:32<09:44, 16.23it/s]
                                                                                                                                                  [A
  5%|█████▍                                                                                                   | 518/10000 [00:32<09:44, 16.23it/s]
                                                                                                                                                  [A
  5%|█████▍                                                                                                 

[16580] loss: 0.075 
[16600] loss: 0.047 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 570.01it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 899.29it/s][A

                                                                                                                                                  [A
  5%|█████▍                                                                                                   | 518/10000 [00:33<09:44, 16.23it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[16620] loss: 0.047 


                                                                                                                                                  
  5%|█████▍                                                                                                   | 518/10000 [00:33<09:44, 16.23it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 556.66it/s][A


[16640] loss: 0.055 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 947.44it/s][A
  5%|█████▍                                                                                                   | 520/10000 [00:33<09:57, 15.86it/s]
                                                                                                                                                  [A
  5%|█████▍                                                                                                   | 520/10000 [00:33<09:57, 15.86it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[16660] loss: 0.051 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 636.05it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 689.29it/s][A

                                                                                                                                                  [A
  5%|█████▍                                                                                                   | 520/10000 [00:33<09:57, 15.86it/s]
                                                                                                                                                  [A
  5%|█████▍                                                                                                   | 520/10000 [00:33<09:57, 15.86it/s]
Training Epoch: 100%|██████████████████████████████████████████████████████████████████████████████████████

[16680] loss: 0.025 
[16700] loss: 0.048 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1650.65it/s][A
  5%|█████▍                                                                                                   | 522/10000 [00:33<09:58, 15.85it/s]
                                                                                                                                                  [A
[A                                                                                                                                               

[16720] loss: 0.041 

  5%|█████▍                                                                                                   | 522/10000 [00:33<09:58, 15.85it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A




Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 469.19it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1065.63it/s][A

                                                                                                                                                  [A
  5%|█████▍                                                                                                   | 522/10000 [00:33<09:58, 15.85it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[16740] loss: 0.071 


                                                                                                                                                  
  5%|█████▍                                                                                                   | 522/10000 [00:33<09:58, 15.85it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 514.75it/s][A


[16760] loss: 0.044 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1007.28it/s][A
  5%|█████▌                                                                                                   | 524/10000 [00:33<10:25, 15.14it/s]
                                                                                                                                                  [A
  5%|█████▌                                                                                                   | 524/10000 [00:33<10:25, 15.14it/s]
                                                                                                                                                  [A
  5%|█████▌                                                                                                   | 524/10000 [00:33<10:25, 15.14it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[16780] loss: 0.042 
[16800] loss: 0.065 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1274.86it/s][A

                                                                                                                                                  [A
  5%|█████▌                                                                                                   | 524/10000 [00:33<10:25, 15.14it/s]

[16820] loss: 0.066 



Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 833.26it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2145.42it/s][A
  5%|█████▌                                                                                                   | 526/10000 [00:33<09:46, 16.16it/s]
                                                                                                                                                  [A
  5%|█████▌                                                                                                   | 526/10000 [00:33<09:46, 16.16it/s]
                                                                                                                                                  [A
  5%|█████▌                                                                                             

[16840] loss: 0.047 
[16860] loss: 0.061 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 766.52it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1352.13it/s][A

                                                                                                                                                  [A
  5%|█████▌                                                                                                   | 526/10000 [00:33<09:46, 16.16it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[16880] loss: 0.045 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 815.01it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2277.04it/s][A

                                                                                                                                                  [A
  5%|█████▌                                                                                                   | 526/10000 [00:33<09:46, 16.16it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[16900] loss: 0.052 


                                                                                                                                                  
  5%|█████▌                                                                                                   | 526/10000 [00:33<09:46, 16.16it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 710.29it/s][A


[16920] loss: 0.047 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2114.06it/s][A
  5%|█████▌                                                                                                   | 529/10000 [00:33<08:57, 17.61it/s]
                                                                                                                                                  [A
  5%|█████▌                                                                                                   | 529/10000 [00:33<08:57, 17.61it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[16940] loss: 0.044 


                                                                                                                                                  
  5%|█████▌                                                                                                   | 529/10000 [00:33<08:57, 17.61it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 683.18it/s][A


[16960] loss: 0.081 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 346.41it/s][A

                                                                                                                                                  [A
  5%|█████▌                                                                                                   | 529/10000 [00:33<08:57, 17.61it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 766.51it/s][A


[16980] loss: 0.080 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1069.43it/s][A
  5%|█████▌                                                                                                   | 531/10000 [00:33<08:48, 17.91it/s]
                                                                                                                                                  [A
  5%|█████▌                                                                                                   | 531/10000 [00:33<08:48, 17.91it/s]

[17000] loss: 0.053 



                                                                                                                                                  [A
  5%|█████▌                                                                                                   | 531/10000 [00:33<08:48, 17.91it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[17020] loss: 0.089 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 614.47it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1458.89it/s][A

                                                                                                                                                  [A
  5%|█████▌                                                                                                   | 531/10000 [00:33<08:48, 17.91it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 790.62it/s][A


[17040] loss: 0.038 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 934.56it/s][A
  5%|█████▌                                                                                                   | 533/10000 [00:33<08:46, 18.00it/s]
                                                                                                                                                  [A
  5%|█████▌                                                                                                   | 533/10000 [00:33<08:46, 18.00it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[17060] loss: 0.081 


                                                                                                                                                  
  5%|█████▌                                                                                                   | 533/10000 [00:33<08:46, 18.00it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 581.68it/s][A


[17080] loss: 0.038 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 905.90it/s][A

                                                                                                                                                  [A
  5%|█████▌                                                                                                   | 533/10000 [00:33<08:46, 18.00it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[17100] loss: 0.058 


                                                                                                                                                  
  5%|█████▌                                                                                                   | 533/10000 [00:33<08:46, 18.00it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 601.69it/s][A


[17120] loss: 0.066 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1392.53it/s][A
  5%|█████▌                                                                                                   | 535/10000 [00:33<09:04, 17.39it/s]
                                                                                                                                                  [A
  5%|█████▌                                                                                                   | 535/10000 [00:33<09:04, 17.39it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 802.66it/s][A


[17140] loss: 0.041 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 776.44it/s][A

                                                                                                                                                  [A
  5%|█████▌                                                                                                   | 535/10000 [00:33<09:04, 17.39it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[17160] loss: 0.084 


                                                                                                                                                  
  5%|█████▌                                                                                                   | 535/10000 [00:34<09:04, 17.39it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 589.13it/s][A


[17180] loss: 0.077 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 809.55it/s][A
  5%|█████▋                                                                                                   | 537/10000 [00:34<08:57, 17.59it/s]
                                                                                                                                                  [A
  5%|█████▋                                                                                                   | 537/10000 [00:34<08:57, 17.59it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 731.50it/s][A


[17200] loss: 0.056 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 736.36it/s][A

                                                                                                                                                  [A
  5%|█████▋                                                                                                   | 537/10000 [00:34<08:57, 17.59it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[17220] loss: 0.085 


                                                                                                                                                  
  5%|█████▋                                                                                                   | 537/10000 [00:34<08:57, 17.59it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 583.66it/s][A


[17240] loss: 0.041 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 797.85it/s][A
  5%|█████▋                                                                                                   | 539/10000 [00:34<09:00, 17.49it/s]
                                                                                                                                                  [A
  5%|█████▋                                                                                                   | 539/10000 [00:34<09:00, 17.49it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[17260] loss: 0.038 


                                                                                                                                                  
  5%|█████▋                                                                                                   | 539/10000 [00:34<09:00, 17.49it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 676.71it/s][A


[17280] loss: 0.109 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2179.99it/s][A

                                                                                                                                                  [A
  5%|█████▋                                                                                                   | 539/10000 [00:34<09:00, 17.49it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 707.51it/s][A


[17300] loss: 0.058 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 542.04it/s][A
  5%|█████▋                                                                                                   | 541/10000 [00:34<08:56, 17.64it/s]
                                                                                                                                                  [A
  5%|█████▋                                                                                                   | 541/10000 [00:34<08:56, 17.64it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[17320] loss: 0.073 


                                                                                                                                                  
  5%|█████▋                                                                                                   | 541/10000 [00:34<08:56, 17.64it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 560.58it/s][A


[17340] loss: 0.033 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1405.13it/s][A

                                                                                                                                                  [A
  5%|█████▋                                                                                                   | 541/10000 [00:34<08:56, 17.64it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[17360] loss: 0.056 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 719.24it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 912.40it/s][A
  5%|█████▋                                                                                                   | 543/10000 [00:34<09:03, 17.39it/s]
                                                                                                                                                  [A
  5%|█████▋                                                                                                   | 543/10000 [00:34<09:03, 17.39it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[17380] loss: 0.051 


                                                                                                                                                  
  5%|█████▋                                                                                                   | 543/10000 [00:34<09:03, 17.39it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[17400] loss: 0.071 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 584.47it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2023.30it/s][A

                                                                                                                                                  [A
  5%|█████▋                                                                                                   | 543/10000 [00:34<09:03, 17.39it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[17420] loss: 0.079 


                                                                                                                                                  
  5%|█████▋                                                                                                   | 543/10000 [00:34<09:03, 17.39it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 708.01it/s][A


[17440] loss: 0.043 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 487.60it/s][A
  5%|█████▋                                                                                                   | 545/10000 [00:34<09:06, 17.29it/s]
                                                                                                                                                  [A
  5%|█████▋                                                                                                   | 545/10000 [00:34<09:06, 17.29it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[17460] loss: 0.091 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 583.38it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1277.19it/s][A

                                                                                                                                                  [A
  5%|█████▋                                                                                                   | 545/10000 [00:34<09:06, 17.29it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[17480] loss: 0.070 


                                                                                                                                                  
[A                                                                                                                                               

[17500] loss: 0.067 

  5%|█████▋                                                                                                   | 545/10000 [00:34<09:06, 17.29it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 467.67it/s][A






Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 679.79it/s][A
  5%|█████▋                                                                                                   | 547/10000 [00:34<09:42, 16.22it/s]
                                                                                                                                                  [A
  5%|█████▋                                                                                                   | 547/10000 [00:34<09:42, 16.22it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[17520] loss: 0.052 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 628.84it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 924.67it/s][A

                                                                                                                                                  [A
  5%|█████▋                                                                                                   | 547/10000 [00:34<09:42, 16.22it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[17540] loss: 0.058 


                                                                                                                                                  
  5%|█████▋                                                                                                   | 547/10000 [00:34<09:42, 16.22it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 480.95it/s][A


[17560] loss: 0.049 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 817.76it/s][A
  5%|█████▊                                                                                                   | 549/10000 [00:34<10:01, 15.70it/s]
                                                                                                                                                  [A
  5%|█████▊                                                                                                   | 549/10000 [00:34<10:01, 15.70it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[17580] loss: 0.071 


                                                                                                                                                  
  5%|█████▊                                                                                                   | 549/10000 [00:34<10:01, 15.70it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 508.04it/s][A


[17600] loss: 0.079 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 228.09it/s][A

                                                                                                                                                  [A
  5%|█████▊                                                                                                   | 549/10000 [00:34<10:01, 15.70it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 539.40it/s][A

[17620] loss: 0.055 




Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 672.06it/s][A
  6%|█████▊                                                                                                   | 551/10000 [00:34<10:26, 15.09it/s]
                                                                                                                                                  [A
  6%|█████▊                                                                                                   | 551/10000 [00:34<10:26, 15.09it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[17640] loss: 0.081 


                                                                                                                                                  
  6%|█████▊                                                                                                   | 551/10000 [00:34<10:26, 15.09it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 495.28it/s][A


[17660] loss: 0.059 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 833.69it/s][A

                                                                                                                                                  [A
  6%|█████▊                                                                                                   | 551/10000 [00:35<10:26, 15.09it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[17680] loss: 0.074 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 581.43it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 463.82it/s][A
  6%|█████▊                                                                                                   | 553/10000 [00:35<10:32, 14.94it/s]
                                                                                                                                                  [A
  6%|█████▊                                                                                                   | 553/10000 [00:35<10:32, 14.94it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[17700] loss: 0.039 


                                                                                                                                                  
  6%|█████▊                                                                                                   | 553/10000 [00:35<10:32, 14.94it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 496.74it/s][A


[17720] loss: 0.075 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 587.60it/s][A

                                                                                                                                                  [A
  6%|█████▊                                                                                                   | 553/10000 [00:35<10:32, 14.94it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[17740] loss: 0.047 


                                                                                                                                                  
  6%|█████▊                                                                                                   | 553/10000 [00:35<10:32, 14.94it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 526.55it/s][A


[17760] loss: 0.070 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 435.82it/s][A
  6%|█████▊                                                                                                   | 555/10000 [00:35<10:45, 14.64it/s]
                                                                                                                                                  [A
  6%|█████▊                                                                                                   | 555/10000 [00:35<10:45, 14.64it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 588.27it/s][A


[17780] loss: 0.041 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 972.71it/s][A

                                                                                                                                                  [A
  6%|█████▊                                                                                                   | 555/10000 [00:35<10:45, 14.64it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[17800] loss: 0.047 


                                                                                                                                                  
  6%|█████▊                                                                                                   | 555/10000 [00:35<10:45, 14.64it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 499.22it/s][A


[17820] loss: 0.048 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 674.54it/s][A
  6%|█████▊                                                                                                   | 557/10000 [00:35<10:49, 14.53it/s]
                                                                                                                                                  [A
  6%|█████▊                                                                                                   | 557/10000 [00:35<10:49, 14.53it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[17840] loss: 0.058 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 585.97it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 967.99it/s][A

                                                                                                                                                  [A
  6%|█████▊                                                                                                   | 557/10000 [00:35<10:49, 14.53it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[17860] loss: 0.048 


                                                                                                                                                  
  6%|█████▊                                                                                                   | 557/10000 [00:35<10:49, 14.53it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 483.36it/s][A


[17880] loss: 0.071 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1216.09it/s][A
  6%|█████▊                                                                                                   | 559/10000 [00:35<10:51, 14.49it/s]
                                                                                                                                                  [A
  6%|█████▊                                                                                                   | 559/10000 [00:35<10:51, 14.49it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[17900] loss: 0.028 


                                                                                                                                                  
  6%|█████▊                                                                                                   | 559/10000 [00:35<10:51, 14.49it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 504.37it/s][A


[17920] loss: 0.013 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 382.90it/s][A

                                                                                                                                                  [A
  6%|█████▊                                                                                                   | 559/10000 [00:35<10:51, 14.49it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 562.19it/s][A


[17940] loss: 0.040 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 713.32it/s][A
  6%|█████▉                                                                                                   | 561/10000 [00:35<10:50, 14.51it/s]
                                                                                                                                                  [A
  6%|█████▉                                                                                                   | 561/10000 [00:35<10:50, 14.51it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[17960] loss: 0.077 


                                                                                                                                                  
  6%|█████▉                                                                                                   | 561/10000 [00:35<10:50, 14.51it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 508.98it/s][A


[17980] loss: 0.078 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 568.10it/s][A

                                                                                                                                                  [A
  6%|█████▉                                                                                                   | 561/10000 [00:35<10:50, 14.51it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[18000] loss: 0.051 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 553.73it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 766.92it/s][A
  6%|█████▉                                                                                                   | 563/10000 [00:35<10:51, 14.48it/s]
                                                                                                                                                  [A
  6%|█████▉                                                                                                   | 563/10000 [00:35<10:51, 14.48it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[18020] loss: 0.065 


                                                                                                                                                  
  6%|█████▉                                                                                                   | 563/10000 [00:35<10:51, 14.48it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 593.47it/s][A


[18040] loss: 0.077 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1327.73it/s][A

                                                                                                                                                  [A
  6%|█████▉                                                                                                   | 563/10000 [00:35<10:51, 14.48it/s]
                                                                                                                                                  [A


[18060] loss: 0.057 


  6%|█████▉                                                                                                   | 563/10000 [00:35<10:51, 14.48it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 623.60it/s][A


[18080] loss: 0.035 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1386.55it/s][A
  6%|█████▉                                                                                                   | 565/10000 [00:35<10:35, 14.85it/s]
                                                                                                                                                  [A
  6%|█████▉                                                                                                   | 565/10000 [00:35<10:35, 14.85it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[18100] loss: 0.061 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 728.12it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 775.14it/s][A

                                                                                                                                                  [A
  6%|█████▉                                                                                                   | 565/10000 [00:35<10:35, 14.85it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[18120] loss: 0.035 


                                                                                                                                                  
  6%|█████▉                                                                                                   | 565/10000 [00:35<10:35, 14.85it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 603.48it/s][A


[18140] loss: 0.107 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1535.81it/s][A
  6%|█████▉                                                                                                   | 567/10000 [00:35<10:04, 15.60it/s]
                                                                                                                                                  [A
  6%|█████▉                                                                                                   | 567/10000 [00:36<10:04, 15.60it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[18160] loss: 0.077 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 645.95it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1757.88it/s][A

                                                                                                                                                  [A
  6%|█████▉                                                                                                   | 567/10000 [00:36<10:04, 15.60it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[18180] loss: 0.053 


                                                                                                                                                  
  6%|█████▉                                                                                                   | 567/10000 [00:36<10:04, 15.60it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 622.64it/s][A


[18200] loss: 0.094 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1221.40it/s][A
  6%|█████▉                                                                                                   | 569/10000 [00:36<09:52, 15.91it/s]
                                                                                                                                                  [A
  6%|█████▉                                                                                                   | 569/10000 [00:36<09:52, 15.91it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[18220] loss: 0.058 


                                                                                                                                                  
  6%|█████▉                                                                                                   | 569/10000 [00:36<09:52, 15.91it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 598.45it/s][A


[18240] loss: 0.052 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1436.41it/s][A

                                                                                                                                                  [A
  6%|█████▉                                                                                                   | 569/10000 [00:36<09:52, 15.91it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 748.11it/s][A


[18260] loss: 0.102 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 633.20it/s][A
  6%|█████▉                                                                                                   | 571/10000 [00:36<09:34, 16.42it/s]
                                                                                                                                                  [A
  6%|█████▉                                                                                                   | 571/10000 [00:36<09:34, 16.42it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[18280] loss: 0.023 


                                                                                                                                                  
  6%|█████▉                                                                                                   | 571/10000 [00:36<09:34, 16.42it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 609.63it/s][A


[18300] loss: 0.082 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 576.70it/s][A

                                                                                                                                                  [A
  6%|█████▉                                                                                                   | 571/10000 [00:36<09:34, 16.42it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[18320] loss: 0.098 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 665.80it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 859.66it/s][A
  6%|██████                                                                                                   | 573/10000 [00:36<09:30, 16.52it/s]
                                                                                                                                                  [A
  6%|██████                                                                                                   | 573/10000 [00:36<09:30, 16.52it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[18340] loss: 0.027 


                                                                                                                                                  
  6%|██████                                                                                                   | 573/10000 [00:36<09:30, 16.52it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[18360] loss: 0.060 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 519.57it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1302.58it/s][A

                                                                                                                                                  [A
  6%|██████                                                                                                   | 573/10000 [00:36<09:30, 16.52it/s]
                                                                                                                                                  [A
  6%|██████                                                                                                   | 573/10000 [00:36<09:30, 16.52it/s]
Training Epoch: 100%|██████████████████████████████████████████████████████████████████████████████████████

[18380] loss: 0.035 
[18400] loss: 0.104 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1294.54it/s][A
  6%|██████                                                                                                   | 575/10000 [00:36<09:43, 16.15it/s]
                                                                                                                                                  [A
  6%|██████                                                                                                   | 575/10000 [00:36<09:43, 16.15it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[18420] loss: 0.095 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 678.53it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 829.73it/s][A

                                                                                                                                                  [A
  6%|██████                                                                                                   | 575/10000 [00:36<09:43, 16.15it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[18440] loss: 0.065 


                                                                                                                                                  
  6%|██████                                                                                                   | 575/10000 [00:36<09:43, 16.15it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 576.81it/s][A


[18460] loss: 0.030 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1001.27it/s][A
  6%|██████                                                                                                   | 577/10000 [00:36<09:44, 16.13it/s]
                                                                                                                                                  [A
  6%|██████                                                                                                   | 577/10000 [00:36<09:44, 16.13it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[18480] loss: 0.071 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 675.39it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1088.02it/s][A

                                                                                                                                                  [A
  6%|██████                                                                                                   | 577/10000 [00:36<09:44, 16.13it/s]
                                                                                                                                                  [A
  6%|██████                                                                                                   | 577/10000 [00:36<09:44, 16.13it/s]
Training Epoch:   0%|                                                                                      

[18500] loss: 0.060 
[18520] loss: 0.031 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 634.06it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 881.34it/s][A
  6%|██████                                                                                                   | 579/10000 [00:36<09:37, 16.31it/s]
                                                                                                                                                  [A
  6%|██████                                                                                                   | 579/10000 [00:36<09:37, 16.31it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[18540] loss: 0.088 


                                                                                                                                                  
  6%|██████                                                                                                   | 579/10000 [00:36<09:37, 16.31it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 600.60it/s][A


[18560] loss: 0.056 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 933.52it/s][A

                                                                                                                                                  [A
  6%|██████                                                                                                   | 579/10000 [00:36<09:37, 16.31it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 798.26it/s][A


[18580] loss: 0.073 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1151.33it/s][A
  6%|██████                                                                                                   | 581/10000 [00:36<09:23, 16.71it/s]
                                                                                                                                                  [A
  6%|██████                                                                                                   | 581/10000 [00:36<09:23, 16.71it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[18600] loss: 0.056 


                                                                                                                                                  
  6%|██████                                                                                                   | 581/10000 [00:36<09:23, 16.71it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 495.08it/s][A


[18620] loss: 0.079 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 757.92it/s][A

                                                                                                                                                  [A
  6%|██████                                                                                                   | 581/10000 [00:36<09:23, 16.71it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[18640] loss: 0.064 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 533.35it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 827.28it/s][A
  6%|██████                                                                                                   | 583/10000 [00:36<09:57, 15.77it/s]
                                                                                                                                                  [A
  6%|██████                                                                                                   | 583/10000 [00:36<09:57, 15.77it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[18660] loss: 0.087 


                                                                                                                                                  
  6%|██████                                                                                                   | 583/10000 [00:37<09:57, 15.77it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 480.48it/s][A


[18680] loss: 0.044 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 499.98it/s][A

                                                                                                                                                  [A
  6%|██████                                                                                                   | 583/10000 [00:37<09:57, 15.77it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[18700] loss: 0.046 


                                                                                                                                                  
  6%|██████                                                                                                   | 583/10000 [00:37<09:57, 15.77it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 497.86it/s][A


[18720] loss: 0.065 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 616.63it/s][A
  6%|██████▏                                                                                                  | 585/10000 [00:37<10:31, 14.92it/s]
                                                                                                                                                  [A
  6%|██████▏                                                                                                  | 585/10000 [00:37<10:31, 14.92it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 578.65it/s][A


[18740] loss: 0.064 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 572.05it/s][A

                                                                                                                                                  [A
  6%|██████▏                                                                                                  | 585/10000 [00:37<10:31, 14.92it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[18760] loss: 0.050 


                                                                                                                                                  
  6%|██████▏                                                                                                  | 585/10000 [00:37<10:31, 14.92it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 499.27it/s][A


[18780] loss: 0.108 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 662.71it/s][A
  6%|██████▏                                                                                                  | 587/10000 [00:37<10:42, 14.65it/s]
                                                                                                                                                  [A
  6%|██████▏                                                                                                  | 587/10000 [00:37<10:42, 14.65it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[18800] loss: 0.052 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 567.66it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 673.57it/s][A

                                                                                                                                                  [A
  6%|██████▏                                                                                                  | 587/10000 [00:37<10:42, 14.65it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[18820] loss: 0.042 


                                                                                                                                                  
  6%|██████▏                                                                                                  | 587/10000 [00:37<10:42, 14.65it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 482.18it/s][A


[18840] loss: 0.057 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 544.86it/s][A
  6%|██████▏                                                                                                  | 589/10000 [00:37<10:50, 14.47it/s]
                                                                                                                                                  [A
  6%|██████▏                                                                                                  | 589/10000 [00:37<10:50, 14.47it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[18860] loss: 0.035 


                                                                                                                                                  
  6%|██████▏                                                                                                  | 589/10000 [00:37<10:50, 14.47it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 543.99it/s][A


[18880] loss: 0.060 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 535.67it/s][A

                                                                                                                                                  [A
  6%|██████▏                                                                                                  | 589/10000 [00:37<10:50, 14.47it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 572.97it/s][A


[18900] loss: 0.095 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 536.42it/s][A
  6%|██████▏                                                                                                  | 591/10000 [00:37<10:44, 14.61it/s]
                                                                                                                                                  [A
  6%|██████▏                                                                                                  | 591/10000 [00:37<10:44, 14.61it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[18920] loss: 0.053 


                                                                                                                                                  
  6%|██████▏                                                                                                  | 591/10000 [00:37<10:44, 14.61it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 446.76it/s][A


[18940] loss: 0.069 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 513.06it/s][A

                                                                                                                                                  [A
  6%|██████▏                                                                                                  | 591/10000 [00:37<10:44, 14.61it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[18960] loss: 0.087 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 528.63it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 384.34it/s][A
  6%|██████▏                                                                                                  | 593/10000 [00:37<11:08, 14.08it/s]
                                                                                                                                                  [A
  6%|██████▏                                                                                                  | 593/10000 [00:37<11:08, 14.08it/s]
                                                                                                                                                  [A
  6%|██████▏                                                                                                

[18980] loss: 0.071 
[19000] loss: 0.060 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 952.60it/s][A

                                                                                                                                                  [A
  6%|██████▏                                                                                                  | 593/10000 [00:37<11:08, 14.08it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[19020] loss: 0.030 


                                                                                                                                                  
  6%|██████▏                                                                                                  | 593/10000 [00:37<11:08, 14.08it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 519.26it/s][A


[19040] loss: 0.063 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 748.85it/s][A
  6%|██████▏                                                                                                  | 595/10000 [00:37<11:09, 14.05it/s]
                                                                                                                                                  [A
  6%|██████▏                                                                                                  | 595/10000 [00:37<11:09, 14.05it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 569.27it/s][A


[19060] loss: 0.041 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 607.08it/s][A

                                                                                                                                                  [A
  6%|██████▏                                                                                                  | 595/10000 [00:37<11:09, 14.05it/s]
                                                                                                                                                  [A
  6%|██████▏                                                                                                  | 595/10000 [00:37<11:09, 14.05it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 503.61it/s][A


[19080] loss: 0.072 
[19100] loss: 0.042 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 838.02it/s][A
  6%|██████▎                                                                                                  | 597/10000 [00:37<11:02, 14.19it/s]
                                                                                                                                                  [A
  6%|██████▎                                                                                                  | 597/10000 [00:38<11:02, 14.19it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[19120] loss: 0.063 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 555.21it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 734.43it/s][A

                                                                                                                                                  [A
  6%|██████▎                                                                                                  | 597/10000 [00:38<11:02, 14.19it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[19140] loss: 0.059 


                                                                                                                                                  
  6%|██████▎                                                                                                  | 597/10000 [00:38<11:02, 14.19it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 463.60it/s][A


[19160] loss: 0.033 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 565.04it/s][A
  6%|██████▎                                                                                                  | 599/10000 [00:38<11:12, 13.98it/s]
                                                                                                                                                  [A
  6%|██████▎                                                                                                  | 599/10000 [00:38<11:12, 13.98it/s]
                                                                                                                                                  [A
  6%|██████▎                                                                                                  | 599/10000 [00:38<11:12, 13.98it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[19180] loss: 0.086 
[19200] loss: 0.055 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1052.79it/s][A

                                                                                                                                                  [A
  6%|██████▎                                                                                                  | 599/10000 [00:38<11:12, 13.98it/s]

[19220] loss: 0.047 



Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 736.51it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2083.61it/s][A
  6%|██████▎                                                                                                  | 601/10000 [00:38<10:23, 15.06it/s]
                                                                                                                                                  [A
  6%|██████▎                                                                                                  | 601/10000 [00:38<10:23, 15.06it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[19240] loss: 0.082 


                                                                                                                                                  
  6%|██████▎                                                                                                  | 601/10000 [00:38<10:23, 15.06it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 616.45it/s][A


[19260] loss: 0.060 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1002.70it/s][A

                                                                                                                                                  [A
  6%|██████▎                                                                                                  | 601/10000 [00:38<10:23, 15.06it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 777.47it/s][A


[19280] loss: 0.029 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1778.00it/s][A
  6%|██████▎                                                                                                  | 603/10000 [00:38<09:53, 15.84it/s]
                                                                                                                                                  [A
  6%|██████▎                                                                                                  | 603/10000 [00:38<09:53, 15.84it/s]
                                                                                                                                                  [A
  6%|██████▎                                                                                                  | 603/10000 [00:38<09:53, 15.84it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[19300] loss: 0.081 
[19320] loss: 0.051 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 855.28it/s][A

                                                                                                                                                  [A
  6%|██████▎                                                                                                  | 603/10000 [00:38<09:53, 15.84it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[19340] loss: 0.054 


                                                                                                                                                  
  6%|██████▎                                                                                                  | 603/10000 [00:38<09:53, 15.84it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 608.91it/s][A


[19360] loss: 0.092 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1513.10it/s][A
  6%|██████▎                                                                                                  | 605/10000 [00:38<09:43, 16.10it/s]
                                                                                                                                                  [A
  6%|██████▎                                                                                                  | 605/10000 [00:38<09:43, 16.10it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 751.32it/s][A


[19380] loss: 0.058 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 977.69it/s][A

                                                                                                                                                  [A
  6%|██████▎                                                                                                  | 605/10000 [00:38<09:43, 16.10it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[19400] loss: 0.082 


                                                                                                                                                  
  6%|██████▎                                                                                                  | 605/10000 [00:38<09:43, 16.10it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 596.70it/s][A


[19420] loss: 0.067 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 716.73it/s][A
  6%|██████▎                                                                                                  | 607/10000 [00:38<09:32, 16.41it/s]
                                                                                                                                                  [A
  6%|██████▎                                                                                                  | 607/10000 [00:38<09:32, 16.41it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[19440] loss: 0.068 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 658.96it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1884.23it/s][A

                                                                                                                                                  [A
  6%|██████▎                                                                                                  | 607/10000 [00:38<09:32, 16.41it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[19460] loss: 0.066 


                                                                                                                                                  
  6%|██████▎                                                                                                  | 607/10000 [00:38<09:32, 16.41it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 627.78it/s][A


[19480] loss: 0.065 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1203.19it/s][A
  6%|██████▍                                                                                                  | 609/10000 [00:38<09:30, 16.46it/s]
                                                                                                                                                  [A
  6%|██████▍                                                                                                  | 609/10000 [00:38<09:30, 16.46it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[19500] loss: 0.029 


                                                                                                                                                  
  6%|██████▍                                                                                                  | 609/10000 [00:38<09:30, 16.46it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 648.70it/s][A


[19520] loss: 0.153 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1407.01it/s][A

                                                                                                                                                  [A
  6%|██████▍                                                                                                  | 609/10000 [00:38<09:30, 16.46it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 774.99it/s][A


[19540] loss: 0.068 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1753.47it/s][A
  6%|██████▍                                                                                                  | 611/10000 [00:38<09:13, 16.96it/s]
                                                                                                                                                  [A
  6%|██████▍                                                                                                  | 611/10000 [00:38<09:13, 16.96it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[19560] loss: 0.048 


                                                                                                                                                  
  6%|██████▍                                                                                                  | 611/10000 [00:38<09:13, 16.96it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 583.57it/s][A


[19580] loss: 0.059 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1434.44it/s][A

                                                                                                                                                  [A
  6%|██████▍                                                                                                  | 611/10000 [00:38<09:13, 16.96it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 750.48it/s][A


[19600] loss: 0.042 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2123.70it/s][A
  6%|██████▍                                                                                                  | 613/10000 [00:38<09:11, 17.02it/s]
                                                                                                                                                  [A
  6%|██████▍                                                                                                  | 613/10000 [00:38<09:11, 17.02it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[19620] loss: 0.076 


                                                                                                                                                  
  6%|██████▍                                                                                                  | 613/10000 [00:38<09:11, 17.02it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 653.12it/s][A


[19640] loss: 0.063 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 667.56it/s][A

                                                                                                                                                  [A
  6%|██████▍                                                                                                  | 613/10000 [00:38<09:11, 17.02it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[19660] loss: 0.066 


                                                                                                                                                  
  6%|██████▍                                                                                                  | 613/10000 [00:39<09:11, 17.02it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 652.62it/s][A


[19680] loss: 0.041 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1151.33it/s][A
  6%|██████▍                                                                                                  | 615/10000 [00:39<09:09, 17.09it/s]
                                                                                                                                                  [A
  6%|██████▍                                                                                                  | 615/10000 [00:39<09:09, 17.09it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 814.48it/s][A


[19700] loss: 0.074 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 753.56it/s][A

                                                                                                                                                  [A
  6%|██████▍                                                                                                  | 615/10000 [00:39<09:09, 17.09it/s]
                                                                                                                                                  [A
  6%|██████▍                                                                                                  | 615/10000 [00:39<09:09, 17.09it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 793.04it/s][A


[19720] loss: 0.058 
[19740] loss: 0.066 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1480.52it/s][A

                                                                                                                                                  [A
  6%|██████▍                                                                                                  | 615/10000 [00:39<09:09, 17.09it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[19760] loss: 0.040 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 875.72it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2303.30it/s][A
  6%|██████▍                                                                                                  | 618/10000 [00:39<08:22, 18.67it/s]
                                                                                                                                                  [A
  6%|██████▍                                                                                                  | 618/10000 [00:39<08:22, 18.67it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[19780] loss: 0.052 


                                                                                                                                                  
  6%|██████▍                                                                                                  | 618/10000 [00:39<08:22, 18.67it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 681.79it/s][A


[19800] loss: 0.081 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 868.57it/s][A

                                                                                                                                                  [A
  6%|██████▍                                                                                                  | 618/10000 [00:39<08:22, 18.67it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[19820] loss: 0.077 


                                                                                                                                                  
  6%|██████▍                                                                                                  | 618/10000 [00:39<08:22, 18.67it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 552.53it/s][A


[19840] loss: 0.064 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 361.98it/s][A
  6%|██████▌                                                                                                  | 620/10000 [00:39<08:39, 18.06it/s]
                                                                                                                                                  [A
  6%|██████▌                                                                                                  | 620/10000 [00:39<08:39, 18.06it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[19860] loss: 0.069 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 567.17it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 815.70it/s][A

                                                                                                                                                  [A
  6%|██████▌                                                                                                  | 620/10000 [00:39<08:39, 18.06it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[19880] loss: 0.056 


                                                                                                                                                  
  6%|██████▌                                                                                                  | 620/10000 [00:39<08:39, 18.06it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 505.11it/s][A


[19900] loss: 0.052 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 884.87it/s][A
  6%|██████▌                                                                                                  | 622/10000 [00:39<09:13, 16.94it/s]
                                                                                                                                                  [A
  6%|██████▌                                                                                                  | 622/10000 [00:39<09:13, 16.94it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 619.51it/s][A

[19920] loss: 0.098 




Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 932.27it/s][A

                                                                                                                                                  [A
  6%|██████▌                                                                                                  | 622/10000 [00:39<09:13, 16.94it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[19940] loss: 0.051 


                                                                                                                                                  
  6%|██████▌                                                                                                  | 622/10000 [00:39<09:13, 16.94it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 512.37it/s][A


[19960] loss: 0.043 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 989.22it/s][A
  6%|██████▌                                                                                                  | 624/10000 [00:39<09:33, 16.35it/s]
                                                                                                                                                  [A
  6%|██████▌                                                                                                  | 624/10000 [00:39<09:33, 16.35it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[19980] loss: 0.063 


                                                                                                                                                  
  6%|██████▌                                                                                                  | 624/10000 [00:39<09:33, 16.35it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 524.09it/s][A


[20000] loss: 0.027 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 737.65it/s][A

                                                                                                                                                  [A
  6%|██████▌                                                                                                  | 624/10000 [00:39<09:33, 16.35it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 596.73it/s][A


[20020] loss: 0.072 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 458.19it/s][A
  6%|██████▌                                                                                                  | 626/10000 [00:39<09:47, 15.96it/s]
                                                                                                                                                  [A
  6%|██████▌                                                                                                  | 626/10000 [00:39<09:47, 15.96it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[20040] loss: 0.052 


                                                                                                                                                  
  6%|██████▌                                                                                                  | 626/10000 [00:39<09:47, 15.96it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 455.98it/s][A


[20060] loss: 0.043 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 360.58it/s][A

                                                                                                                                                  [A
  6%|██████▌                                                                                                  | 626/10000 [00:39<09:47, 15.96it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[20080] loss: 0.040 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 555.97it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 560.59it/s][A
  6%|██████▌                                                                                                  | 628/10000 [00:39<10:27, 14.94it/s]
                                                                                                                                                  [A
  6%|██████▌                                                                                                  | 628/10000 [00:39<10:27, 14.94it/s]
                                                                                                                                                  [A
  6%|██████▌                                                                                                

[20100] loss: 0.045 
[20120] loss: 0.069 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 401.90it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 812.38it/s][A

                                                                                                                                                  [A
  6%|██████▌                                                                                                  | 628/10000 [00:39<10:27, 14.94it/s]
                                                                                                                                                  [A
  6%|██████▌                                                                                                  | 628/10000 [00:39<10:27, 14.94it/s]
Training Epoch: 100%|██████████████████████████████████████████████████████████████████████████████████████

[20140] loss: 0.066 
[20160] loss: 0.095 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 262.24it/s][A
  6%|██████▌                                                                                                  | 630/10000 [00:40<10:57, 14.25it/s]
                                                                                                                                                  [A
  6%|██████▌                                                                                                  | 630/10000 [00:40<10:57, 14.25it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 647.58it/s][A


[20180] loss: 0.049 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 951.09it/s][A

                                                                                                                                                  [A
  6%|██████▌                                                                                                  | 630/10000 [00:40<10:57, 14.25it/s]
                                                                                                                                                  [A
  6%|██████▌                                                                                                  | 630/10000 [00:40<10:57, 14.25it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 512.46it/s][A


[20200] loss: 0.072 
[20220] loss: 0.059 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 880.05it/s][A
  6%|██████▋                                                                                                  | 632/10000 [00:40<10:41, 14.61it/s]
                                                                                                                                                  [A
  6%|██████▋                                                                                                  | 632/10000 [00:40<10:41, 14.61it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[20240] loss: 0.033 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 652.89it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1001.51it/s][A

                                                                                                                                                  [A
  6%|██████▋                                                                                                  | 632/10000 [00:40<10:41, 14.61it/s]
                                                                                                                                                  [A
  6%|██████▋                                                                                                  | 632/10000 [00:40<10:41, 14.61it/s]


[20260] loss: 0.046 
[20280] loss: 0.072 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 535.38it/s][A

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 715.02it/s][A
  6%|██████▋                                                                                                  | 634/10000 [00:40<10:25, 14.97it/s]
                                                                                                                                                  [A
  6%|██████▋                                                                                                  | 634/10000 [00:40<10:25, 14.97it/s]
                                                                                                                                                  [A
  6%|██████▋                                                                                             

[20300] loss: 0.081 
[20320] loss: 0.031 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1012.87it/s][A

                                                                                                                                                  [A
  6%|██████▋                                                                                                  | 634/10000 [00:40<10:25, 14.97it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[20340] loss: 0.076 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 730.87it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 879.68it/s][A
  6%|██████▋                                                                                                  | 636/10000 [00:40<10:01, 15.56it/s]
                                                                                                                                                  [A
  6%|██████▋                                                                                                  | 636/10000 [00:40<10:01, 15.56it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[20360] loss: 0.054 


                                                                                                                                                  
  6%|██████▋                                                                                                  | 636/10000 [00:40<10:01, 15.56it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 629.02it/s][A


[20380] loss: 0.092 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 909.83it/s][A

                                                                                                                                                  [A
  6%|██████▋                                                                                                  | 636/10000 [00:40<10:01, 15.56it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 770.64it/s][A


[20400] loss: 0.103 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 604.11it/s][A
  6%|██████▋                                                                                                  | 638/10000 [00:40<09:35, 16.26it/s]
                                                                                                                                                  [A
  6%|██████▋                                                                                                  | 638/10000 [00:40<09:35, 16.26it/s]
                                                                                                                                                  [A
  6%|██████▋                                                                                                  | 638/10000 [00:40<09:35, 16.26it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[20420] loss: 0.034 
[20440] loss: 0.066 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 837.86it/s][A

                                                                                                                                                  [A
  6%|██████▋                                                                                                  | 638/10000 [00:40<09:35, 16.26it/s]
                                                                                                                                                  [A
  6%|██████▋                                                                                                  | 638/10000 [00:40<09:35, 16.26it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 944.18it/s][A


[20460] loss: 0.076 
[20480] loss: 0.072 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 382.13it/s][A

                                                                                                                                                  [A
  6%|██████▋                                                                                                  | 638/10000 [00:40<09:35, 16.26it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[20500] loss: 0.039 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 792.65it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 906.29it/s][A
  6%|██████▋                                                                                                  | 641/10000 [00:40<08:54, 17.52it/s]
                                                                                                                                                  [A
  6%|██████▋                                                                                                  | 641/10000 [00:40<08:54, 17.52it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[20520] loss: 0.038 


                                                                                                                                                  
  6%|██████▋                                                                                                  | 641/10000 [00:40<08:54, 17.52it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 609.44it/s][A


[20540] loss: 0.078 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 979.29it/s][A

                                                                                                                                                  [A
  6%|██████▋                                                                                                  | 641/10000 [00:40<08:54, 17.52it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 871.09it/s][A


[20560] loss: 0.077 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 563.22it/s][A
  6%|██████▊                                                                                                  | 643/10000 [00:40<08:47, 17.73it/s]
                                                                                                                                                  [A
[A                                                                                                                                               

[20580] loss: 0.074 

  6%|██████▊                                                                                                  | 643/10000 [00:40<08:47, 17.73it/s]
                                                                                                                                                  [A
  6%|██████▊                                                                                                  | 643/10000 [00:40<08:47, 17.73it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 670.38it/s][A



[20600] loss: 0.064 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1574.44it/s][A

                                                                                                                                                  [A
  6%|██████▊                                                                                                  | 643/10000 [00:40<08:47, 17.73it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[20620] loss: 0.053 


                                                                                                                                                  
  6%|██████▊                                                                                                  | 643/10000 [00:40<08:47, 17.73it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 628.33it/s][A


[20640] loss: 0.052 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2123.70it/s][A
  6%|██████▊                                                                                                  | 645/10000 [00:40<08:54, 17.51it/s]
                                                                                                                                                  [A
  6%|██████▊                                                                                                  | 645/10000 [00:40<08:54, 17.51it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 933.67it/s][A


[20660] loss: 0.052 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2273.34it/s][A

                                                                                                                                                  [A
  6%|██████▊                                                                                                  | 645/10000 [00:40<08:54, 17.51it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[20680] loss: 0.063 


                                                                                                                                                  
  6%|██████▊                                                                                                  | 645/10000 [00:40<08:54, 17.51it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 818.86it/s][A


[20700] loss: 0.089 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1915.21it/s][A

                                                                                                                                                  [A
  6%|██████▊                                                                                                  | 645/10000 [00:40<08:54, 17.51it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 919.90it/s][A


[20720] loss: 0.051 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 842.06it/s][A
  6%|██████▊                                                                                                  | 648/10000 [00:40<08:10, 19.08it/s]
                                                                                                                                                  [A
  6%|██████▊                                                                                                  | 648/10000 [00:41<08:10, 19.08it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[20740] loss: 0.047 


                                                                                                                                                  
  6%|██████▊                                                                                                  | 648/10000 [00:41<08:10, 19.08it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 689.37it/s][A


[20760] loss: 0.054 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1463.47it/s][A

                                                                                                                                                  [A
  6%|██████▊                                                                                                  | 648/10000 [00:41<08:10, 19.08it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[20780] loss: 0.056 


                                                                                                                                                  
  6%|██████▊                                                                                                  | 648/10000 [00:41<08:10, 19.08it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 669.37it/s][A


[20800] loss: 0.056 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 991.09it/s][A
  6%|██████▊                                                                                                  | 650/10000 [00:41<08:18, 18.76it/s]
                                                                                                                                                  [A
  6%|██████▊                                                                                                  | 650/10000 [00:41<08:18, 18.76it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[20820] loss: 0.071 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 753.49it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1171.92it/s][A

                                                                                                                                                  [A
  6%|██████▊                                                                                                  | 650/10000 [00:41<08:18, 18.76it/s]
                                                                                                                                                  [A
  6%|██████▊                                                                                                  | 650/10000 [00:41<08:18, 18.76it/s]
Training Epoch: 100%|██████████████████████████████████████████████████████████████████████████████████████

[20840] loss: 0.068 
[20860] loss: 0.048 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2153.13it/s][A

                                                                                                                                                  [A
  6%|██████▊                                                                                                  | 650/10000 [00:41<08:18, 18.76it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[20880] loss: 0.052 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 830.60it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1431.50it/s][A
  7%|██████▊                                                                                                  | 653/10000 [00:41<08:03, 19.35it/s]
                                                                                                                                                  [A
  7%|██████▊                                                                                                  | 653/10000 [00:41<08:03, 19.35it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[20900] loss: 0.064 


                                                                                                                                                  
  7%|██████▊                                                                                                  | 653/10000 [00:41<08:03, 19.35it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[20920] loss: 0.057 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 663.95it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2115.13it/s][A

                                                                                                                                                  [A
  7%|██████▊                                                                                                  | 653/10000 [00:41<08:03, 19.35it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[20940] loss: 0.057 


                                                                                                                                                  
  7%|██████▊                                                                                                  | 653/10000 [00:41<08:03, 19.35it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 705.55it/s][A


[20960] loss: 0.071 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1504.41it/s][A
  7%|██████▉                                                                                                  | 655/10000 [00:41<08:11, 19.01it/s]
                                                                                                                                                  [A
  7%|██████▉                                                                                                  | 655/10000 [00:41<08:11, 19.01it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 756.98it/s][A


[20980] loss: 0.063 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 561.49it/s][A

                                                                                                                                                  [A
  7%|██████▉                                                                                                  | 655/10000 [00:41<08:11, 19.01it/s]
                                                                                                                                                  [A
  7%|██████▉                                                                                                  | 655/10000 [00:41<08:11, 19.01it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[21000] loss: 0.062 
[21020] loss: 0.051 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 555.29it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 823.06it/s][A
  7%|██████▉                                                                                                  | 657/10000 [00:41<08:24, 18.51it/s]
                                                                                                                                                  [A
  7%|██████▉                                                                                                  | 657/10000 [00:41<08:24, 18.51it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[21040] loss: 0.051 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 579.33it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 462.85it/s][A

                                                                                                                                                  [A
  7%|██████▉                                                                                                  | 657/10000 [00:41<08:24, 18.51it/s]
                                                                                                                                                  [A

[21060] loss: 0.045 



  7%|██████▉                                                                                                  | 657/10000 [00:41<08:24, 18.51it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 497.38it/s][A


[21080] loss: 0.060 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 781.35it/s][A
  7%|██████▉                                                                                                  | 659/10000 [00:41<09:03, 17.18it/s]
                                                                                                                                                  [A
  7%|██████▉                                                                                                  | 659/10000 [00:41<09:03, 17.18it/s]
                                                                                                                                                  [A
  7%|██████▉                                                                                                  | 659/10000 [00:41<09:03, 17.18it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[21100] loss: 0.038 
[21120] loss: 0.153 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 253.00it/s][A

                                                                                                                                                  [A
  7%|██████▉                                                                                                  | 659/10000 [00:41<09:03, 17.18it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 564.22it/s][A


[21140] loss: 0.069 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 762.32it/s][A
  7%|██████▉                                                                                                  | 661/10000 [00:41<09:39, 16.11it/s]
                                                                                                                                                  [A
  7%|██████▉                                                                                                  | 661/10000 [00:41<09:39, 16.11it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[21160] loss: 0.030 


                                                                                                                                                  
  7%|██████▉                                                                                                  | 661/10000 [00:41<09:39, 16.11it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 496.45it/s][A


[21180] loss: 0.062 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 827.44it/s][A

                                                                                                                                                  [A
  7%|██████▉                                                                                                  | 661/10000 [00:41<09:39, 16.11it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 598.32it/s][A


[21200] loss: 0.050 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 430.19it/s][A
  7%|██████▉                                                                                                  | 663/10000 [00:41<09:59, 15.57it/s]
                                                                                                                                                  [A
  7%|██████▉                                                                                                  | 663/10000 [00:41<09:59, 15.57it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[21220] loss: 0.037 


                                                                                                                                                  
  7%|██████▉                                                                                                  | 663/10000 [00:41<09:59, 15.57it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 481.20it/s][A


[21240] loss: 0.069 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 968.66it/s][A

                                                                                                                                                  [A
  7%|██████▉                                                                                                  | 663/10000 [00:42<09:59, 15.57it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[21260] loss: 0.072 


                                                                                                                                                  
  7%|██████▉                                                                                                  | 663/10000 [00:42<09:59, 15.57it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 449.45it/s][A


[21280] loss: 0.098 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 810.65it/s][A
  7%|██████▉                                                                                                  | 665/10000 [00:42<10:39, 14.59it/s]
                                                                                                                                                  [A
  7%|██████▉                                                                                                  | 665/10000 [00:42<10:39, 14.59it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[21300] loss: 0.089 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 561.42it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 985.50it/s][A

                                                                                                                                                  [A
  7%|██████▉                                                                                                  | 665/10000 [00:42<10:39, 14.59it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[21320] loss: 0.053 


                                                                                                                                                  
  7%|██████▉                                                                                                  | 665/10000 [00:42<10:39, 14.59it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 598.32it/s][A


[21340] loss: 0.077 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 593.84it/s][A
  7%|███████                                                                                                  | 667/10000 [00:42<10:23, 14.96it/s]
                                                                                                                                                  [A
  7%|███████                                                                                                  | 667/10000 [00:42<10:23, 14.96it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 682.31it/s][A


[21360] loss: 0.065 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 716.24it/s][A

                                                                                                                                                  [A
  7%|███████                                                                                                  | 667/10000 [00:42<10:23, 14.96it/s]
                                                                                                                                                  [A
  7%|███████                                                                                                  | 667/10000 [00:42<10:23, 14.96it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 645.05it/s][A


[21380] loss: 0.041 
[21400] loss: 0.051 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 715.26it/s][A
  7%|███████                                                                                                  | 669/10000 [00:42<09:54, 15.70it/s]
                                                                                                                                                  [A
  7%|███████                                                                                                  | 669/10000 [00:42<09:54, 15.70it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[21420] loss: 0.064 


                                                                                                                                                  
  7%|███████                                                                                                  | 669/10000 [00:42<09:54, 15.70it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 608.56it/s][A


[21440] loss: 0.079 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1064.54it/s][A

                                                                                                                                                  [A
  7%|███████                                                                                                  | 669/10000 [00:42<09:54, 15.70it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 650.23it/s][A


[21460] loss: 0.052 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 522.65it/s][A
  7%|███████                                                                                                  | 671/10000 [00:42<09:39, 16.10it/s]
                                                                                                                                                  [A
  7%|███████                                                                                                  | 671/10000 [00:42<09:39, 16.10it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[21480] loss: 0.065 


                                                                                                                                                  
  7%|███████                                                                                                  | 671/10000 [00:42<09:39, 16.10it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 480.03it/s][A


[21500] loss: 0.059 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 793.92it/s][A

                                                                                                                                                  [A
  7%|███████                                                                                                  | 671/10000 [00:42<09:39, 16.10it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 618.47it/s][A


[21520] loss: 0.082 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 967.32it/s][A
  7%|███████                                                                                                  | 673/10000 [00:42<09:57, 15.60it/s]
                                                                                                                                                  [A
  7%|███████                                                                                                  | 673/10000 [00:42<09:57, 15.60it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[21540] loss: 0.045 


                                                                                                                                                  
  7%|███████                                                                                                  | 673/10000 [00:42<09:57, 15.60it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 531.46it/s][A


[21560] loss: 0.102 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1844.46it/s][A

                                                                                                                                                  [A
  7%|███████                                                                                                  | 673/10000 [00:42<09:57, 15.60it/s]
                                                                                                                                                  [A
  7%|███████                                                                                                  | 673/10000 [00:42<09:57, 15.60it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 751.71it/s][A


[21580] loss: 0.087 
[21600] loss: 0.024 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1913.46it/s][A
  7%|███████                                                                                                  | 675/10000 [00:42<09:41, 16.05it/s]
                                                                                                                                                  [A
  7%|███████                                                                                                  | 675/10000 [00:42<09:41, 16.05it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 765.56it/s][A


[21620] loss: 0.070 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1730.32it/s][A

                                                                                                                                                  [A
  7%|███████                                                                                                  | 675/10000 [00:42<09:41, 16.05it/s]
                                                                                                                                                  [A
  7%|███████                                                                                                  | 675/10000 [00:42<09:41, 16.05it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 750.52it/s][A


[21640] loss: 0.047 
[21660] loss: 0.104 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1512.55it/s][A

                                                                                                                                                  [A
  7%|███████                                                                                                  | 675/10000 [00:42<09:41, 16.05it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[21680] loss: 0.096 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 853.12it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2398.12it/s][A
  7%|███████                                                                                                  | 678/10000 [00:42<08:42, 17.86it/s]
                                                                                                                                                  [A
  7%|███████                                                                                                  | 678/10000 [00:42<08:42, 17.86it/s]
                                                                                                                                                  [A
  7%|███████                                                                                                

[21700] loss: 0.045 
[21720] loss: 0.061 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 822.31it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1122.67it/s][A

                                                                                                                                                  [A
  7%|███████                                                                                                  | 678/10000 [00:42<08:42, 17.86it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[21740] loss: 0.071 


                                                                                                                                                  
  7%|███████                                                                                                  | 678/10000 [00:42<08:42, 17.86it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 657.68it/s][A


[21760] loss: 0.146 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1431.01it/s][A
  7%|███████▏                                                                                                 | 680/10000 [00:42<08:33, 18.17it/s]
                                                                                                                                                  [A
  7%|███████▏                                                                                                 | 680/10000 [00:42<08:33, 18.17it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 780.26it/s][A


[21780] loss: 0.047 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1576.21it/s][A

                                                                                                                                                  [A
  7%|███████▏                                                                                                 | 680/10000 [00:42<08:33, 18.17it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[21800] loss: 0.031 


                                                                                                                                                  
  7%|███████▏                                                                                                 | 680/10000 [00:43<08:33, 18.17it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 690.83it/s][A


[21820] loss: 0.049 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 753.29it/s][A
  7%|███████▏                                                                                                 | 682/10000 [00:43<08:25, 18.44it/s]
                                                                                                                                                  [A
  7%|███████▏                                                                                                 | 682/10000 [00:43<08:25, 18.44it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 731.79it/s][A


[21840] loss: 0.041 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 779.76it/s][A

                                                                                                                                                  [A
  7%|███████▏                                                                                                 | 682/10000 [00:43<08:25, 18.44it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[21860] loss: 0.071 


                                                                                                                                                  
  7%|███████▏                                                                                                 | 682/10000 [00:43<08:25, 18.44it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 608.71it/s][A


[21880] loss: 0.047 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1188.19it/s][A
  7%|███████▏                                                                                                 | 684/10000 [00:43<08:33, 18.13it/s]
                                                                                                                                                  [A
  7%|███████▏                                                                                                 | 684/10000 [00:43<08:33, 18.13it/s]
                                                                                                                                                  [A


[21900] loss: 0.035 


  7%|███████▏                                                                                                 | 684/10000 [00:43<08:33, 18.13it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 746.50it/s][A


[21920] loss: 0.156 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1541.46it/s][A

                                                                                                                                                  [A
  7%|███████▏                                                                                                 | 684/10000 [00:43<08:33, 18.13it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[21940] loss: 0.061 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 908.57it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2299.51it/s][A

                                                                                                                                                  [A
  7%|███████▏                                                                                                 | 684/10000 [00:43<08:33, 18.13it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[21960] loss: 0.048 


                                                                                                                                                  
  7%|███████▏                                                                                                 | 684/10000 [00:43<08:33, 18.13it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 803.53it/s][A


[21980] loss: 0.068 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1488.93it/s][A
  7%|███████▏                                                                                                 | 687/10000 [00:43<07:59, 19.44it/s]
                                                                                                                                                  [A
  7%|███████▏                                                                                                 | 687/10000 [00:43<07:59, 19.44it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 793.71it/s][A


[22000] loss: 0.052 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 562.69it/s][A

                                                                                                                                                  [A
  7%|███████▏                                                                                                 | 687/10000 [00:43<07:59, 19.44it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[22020] loss: 0.099 


                                                                                                                                                  
  7%|███████▏                                                                                                 | 687/10000 [00:43<07:59, 19.44it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 722.91it/s][A


[22040] loss: 0.071 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1484.18it/s][A
  7%|███████▏                                                                                                 | 689/10000 [00:43<07:59, 19.43it/s]
                                                                                                                                                  [A
  7%|███████▏                                                                                                 | 689/10000 [00:43<07:59, 19.43it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[22060] loss: 0.069 


                                                                                                                                                  
  7%|███████▏                                                                                                 | 689/10000 [00:43<07:59, 19.43it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 724.53it/s][A


[22080] loss: 0.061 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 302.64it/s][A

                                                                                                                                                  [A
  7%|███████▏                                                                                                 | 689/10000 [00:43<07:59, 19.43it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[22100] loss: 0.035 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 802.33it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1500.11it/s][A
  7%|███████▎                                                                                                 | 691/10000 [00:43<07:58, 19.45it/s]
                                                                                                                                                  [A
  7%|███████▎                                                                                                 | 691/10000 [00:43<07:58, 19.45it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[22120] loss: 0.043 


                                                                                                                                                  
  7%|███████▎                                                                                                 | 691/10000 [00:43<07:58, 19.45it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 699.41it/s][A


[22140] loss: 0.058 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1430.53it/s][A

                                                                                                                                                  [A
  7%|███████▎                                                                                                 | 691/10000 [00:43<07:58, 19.45it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[22160] loss: 0.041 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 782.67it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1609.48it/s][A
  7%|███████▎                                                                                                 | 693/10000 [00:43<08:00, 19.38it/s]
                                                                                                                                                  [A
  7%|███████▎                                                                                                 | 693/10000 [00:43<08:00, 19.38it/s]

[22180] loss: 0.034 



                                                                                                                                                  [A
[A                                                                                                                                               

[22200] loss: 0.063 

  7%|███████▎                                                                                                 | 693/10000 [00:43<08:00, 19.38it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 694.17it/s][A






Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1290.16it/s][A

                                                                                                                                                  [A
  7%|███████▎                                                                                                 | 693/10000 [00:43<08:00, 19.38it/s]
                                                                                                                                                  [A
  7%|███████▎                                                                                                 | 693/10000 [00:43<08:00, 19.38it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 743.31it/s][A


[22220] loss: 0.055 
[22240] loss: 0.042 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2159.79it/s][A
  7%|███████▎                                                                                                 | 695/10000 [00:43<08:03, 19.23it/s]
                                                                                                                                                  [A
  7%|███████▎                                                                                                 | 695/10000 [00:43<08:03, 19.23it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[22260] loss: 0.055 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 889.83it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1211.53it/s][A

                                                                                                                                                  [A
  7%|███████▎                                                                                                 | 695/10000 [00:43<08:03, 19.23it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[22280] loss: 0.042 


                                                                                                                                                  
  7%|███████▎                                                                                                 | 695/10000 [00:43<08:03, 19.23it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 541.28it/s][A


[22300] loss: 0.096 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 766.50it/s][A
  7%|███████▎                                                                                                 | 697/10000 [00:43<08:12, 18.90it/s]
                                                                                                                                                  [A
  7%|███████▎                                                                                                 | 697/10000 [00:43<08:12, 18.90it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[22320] loss: 0.040 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 421.71it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 592.58it/s][A

                                                                                                                                                  [A
  7%|███████▎                                                                                                 | 697/10000 [00:43<08:12, 18.90it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[22340] loss: 0.046 


                                                                                                                                                  
  7%|███████▎                                                                                                 | 697/10000 [00:43<08:12, 18.90it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[22360] loss: 0.092 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 517.73it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 606.11it/s][A
  7%|███████▎                                                                                                 | 699/10000 [00:43<09:21, 16.56it/s]
                                                                                                                                                  [A
[A                                                                                                                                               

[22380] loss: 0.063 


  7%|███████▎                                                                                                 | 699/10000 [00:43<09:21, 16.56it/s]
                                                                                                                                                  [A
  7%|███████▎                                                                                                 | 699/10000 [00:44<09:21, 16.56it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 492.37it/s][A


[22400] loss: 0.127 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 932.27it/s][A

                                                                                                                                                  [A
  7%|███████▎                                                                                                 | 699/10000 [00:44<09:21, 16.56it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 565.09it/s][A


[22420] loss: 0.076 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 932.07it/s][A
  7%|███████▎                                                                                                 | 701/10000 [00:44<09:47, 15.84it/s]
                                                                                                                                                  [A
  7%|███████▎                                                                                                 | 701/10000 [00:44<09:47, 15.84it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[22440] loss: 0.040 


                                                                                                                                                  
  7%|███████▎                                                                                                 | 701/10000 [00:44<09:47, 15.84it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 549.15it/s][A


[22460] loss: 0.062 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 773.14it/s][A

                                                                                                                                                  [A
  7%|███████▎                                                                                                 | 701/10000 [00:44<09:47, 15.84it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 593.56it/s][A


[22480] loss: 0.061 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 390.24it/s][A
  7%|███████▍                                                                                                 | 703/10000 [00:44<09:59, 15.50it/s]
                                                                                                                                                  [A
  7%|███████▍                                                                                                 | 703/10000 [00:44<09:59, 15.50it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[22500] loss: 0.054 


                                                                                                                                                  
  7%|███████▍                                                                                                 | 703/10000 [00:44<09:59, 15.50it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 496.60it/s][A


[22520] loss: 0.051 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 682.78it/s][A

                                                                                                                                                  [A
  7%|███████▍                                                                                                 | 703/10000 [00:44<09:59, 15.50it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[22540] loss: 0.054 


                                                                                                                                                  
  7%|███████▍                                                                                                 | 703/10000 [00:44<09:59, 15.50it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 498.14it/s][A


[22560] loss: 0.057 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 262.18it/s][A
  7%|███████▍                                                                                                 | 705/10000 [00:44<10:25, 14.86it/s]
                                                                                                                                                  [A
  7%|███████▍                                                                                                 | 705/10000 [00:44<10:25, 14.86it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 553.00it/s][A


[22580] loss: 0.064 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 708.14it/s][A

                                                                                                                                                  [A
  7%|███████▍                                                                                                 | 705/10000 [00:44<10:25, 14.86it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[22600] loss: 0.041 


                                                                                                                                                  
  7%|███████▍                                                                                                 | 705/10000 [00:44<10:25, 14.86it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 516.29it/s][A


[22620] loss: 0.079 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 833.03it/s][A
  7%|███████▍                                                                                                 | 707/10000 [00:44<10:30, 14.74it/s]
                                                                                                                                                  [A
  7%|███████▍                                                                                                 | 707/10000 [00:44<10:30, 14.74it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[22640] loss: 0.057 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 572.72it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 732.50it/s][A

                                                                                                                                                  [A
  7%|███████▍                                                                                                 | 707/10000 [00:44<10:30, 14.74it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[22660] loss: 0.037 


                                                                                                                                                  
  7%|███████▍                                                                                                 | 707/10000 [00:44<10:30, 14.74it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 489.41it/s][A


[22680] loss: 0.059 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 464.74it/s][A
  7%|███████▍                                                                                                 | 709/10000 [00:44<10:37, 14.57it/s]
                                                                                                                                                  [A
  7%|███████▍                                                                                                 | 709/10000 [00:44<10:37, 14.57it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[22700] loss: 0.067 


                                                                                                                                                  
  7%|███████▍                                                                                                 | 709/10000 [00:44<10:37, 14.57it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 513.67it/s][A


[22720] loss: 0.105 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 429.13it/s][A

                                                                                                                                                  [A
  7%|███████▍                                                                                                 | 709/10000 [00:44<10:37, 14.57it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 597.93it/s][A


[22740] loss: 0.048 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 933.73it/s][A
  7%|███████▍                                                                                                 | 711/10000 [00:44<10:31, 14.70it/s]
                                                                                                                                                  [A
  7%|███████▍                                                                                                 | 711/10000 [00:44<10:31, 14.70it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[22760] loss: 0.077 


                                                                                                                                                  
  7%|███████▍                                                                                                 | 711/10000 [00:44<10:31, 14.70it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 495.66it/s][A


[22780] loss: 0.061 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 530.12it/s][A

                                                                                                                                                  [A
  7%|███████▍                                                                                                 | 711/10000 [00:44<10:31, 14.70it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 621.95it/s][A


[22800] loss: 0.044 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 579.72it/s][A
  7%|███████▍                                                                                                 | 713/10000 [00:44<10:30, 14.73it/s]
                                                                                                                                                  [A
  7%|███████▍                                                                                                 | 713/10000 [00:44<10:30, 14.73it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[22820] loss: 0.079 


                                                                                                                                                  
  7%|███████▍                                                                                                 | 713/10000 [00:44<10:30, 14.73it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 609.51it/s][A


[22840] loss: 0.059 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1340.46it/s][A

                                                                                                                                                  [A
  7%|███████▍                                                                                                 | 713/10000 [00:45<10:30, 14.73it/s]


[22860] loss: 0.099 


                                                                                                                                                  [A
  7%|███████▍                                                                                                 | 713/10000 [00:45<10:30, 14.73it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 630.69it/s][A


[22880] loss: 0.051 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 214.54it/s][A
  7%|███████▌                                                                                                 | 715/10000 [00:45<10:17, 15.03it/s]
                                                                                                                                                  [A
  7%|███████▌                                                                                                 | 715/10000 [00:45<10:17, 15.03it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 832.97it/s][A

[22900] loss: 0.060 




Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 886.18it/s][A

                                                                                                                                                  [A
  7%|███████▌                                                                                                 | 715/10000 [00:45<10:17, 15.03it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[22920] loss: 0.048 


                                                                                                                                                  
  7%|███████▌                                                                                                 | 715/10000 [00:45<10:17, 15.03it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 602.72it/s][A


[22940] loss: 0.052 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 866.23it/s][A
  7%|███████▌                                                                                                 | 717/10000 [00:45<09:43, 15.91it/s]
                                                                                                                                                  [A
  7%|███████▌                                                                                                 | 717/10000 [00:45<09:43, 15.91it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 795.76it/s][A


[22960] loss: 0.051 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2072.28it/s][A

                                                                                                                                                  [A
  7%|███████▌                                                                                                 | 717/10000 [00:45<09:43, 15.91it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[22980] loss: 0.052 


                                                                                                                                                  
  7%|███████▌                                                                                                 | 717/10000 [00:45<09:43, 15.91it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 683.28it/s][A


[23000] loss: 0.037 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 698.24it/s][A
  7%|███████▌                                                                                                 | 719/10000 [00:45<09:10, 16.84it/s]
                                                                                                                                                  [A
  7%|███████▌                                                                                                 | 719/10000 [00:45<09:10, 16.84it/s]
                                                                                                                                                  [A


[23020] loss: 0.050 


  7%|███████▌                                                                                                 | 719/10000 [00:45<09:10, 16.84it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 588.26it/s][A


[23040] loss: 0.062 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1495.30it/s][A

                                                                                                                                                  [A
  7%|███████▌                                                                                                 | 719/10000 [00:45<09:10, 16.84it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 674.68it/s][A


[23060] loss: 0.079 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 661.88it/s][A
  7%|███████▌                                                                                                 | 721/10000 [00:45<09:10, 16.85it/s]
                                                                                                                                                  [A
  7%|███████▌                                                                                                 | 721/10000 [00:45<09:10, 16.85it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[23080] loss: 0.053 


                                                                                                                                                  
  7%|███████▌                                                                                                 | 721/10000 [00:45<09:10, 16.85it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 604.46it/s][A


[23100] loss: 0.065 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1361.79it/s][A

                                                                                                                                                  [A
  7%|███████▌                                                                                                 | 721/10000 [00:45<09:10, 16.85it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[23120] loss: 0.059 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 761.37it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1901.32it/s][A
  7%|███████▌                                                                                                 | 723/10000 [00:45<09:05, 17.01it/s]
                                                                                                                                                  [A
  7%|███████▌                                                                                                 | 723/10000 [00:45<09:05, 17.01it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[23140] loss: 0.033 


                                                                                                                                                  
  7%|███████▌                                                                                                 | 723/10000 [00:45<09:05, 17.01it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 610.07it/s][A


[23160] loss: 0.044 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 854.59it/s][A

                                                                                                                                                  [A
  7%|███████▌                                                                                                 | 723/10000 [00:45<09:05, 17.01it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[23180] loss: 0.065 


                                                                                                                                                  
  7%|███████▌                                                                                                 | 723/10000 [00:45<09:05, 17.01it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 676.39it/s][A


[23200] loss: 0.117 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1749.08it/s][A
  7%|███████▌                                                                                                 | 725/10000 [00:45<09:02, 17.09it/s]
                                                                                                                                                  [A
  7%|███████▌                                                                                                 | 725/10000 [00:45<09:02, 17.09it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 895.59it/s][A


[23220] loss: 0.054 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1971.93it/s][A

                                                                                                                                                  [A
  7%|███████▌                                                                                                 | 725/10000 [00:45<09:02, 17.09it/s]
                                                                                                                                                  [A
  7%|███████▌                                                                                                 | 725/10000 [00:45<09:02, 17.09it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 661.17it/s][A


[23240] loss: 0.052 
[23260] loss: 0.063 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1445.31it/s][A
  7%|███████▋                                                                                                 | 727/10000 [00:45<08:40, 17.83it/s]
                                                                                                                                                  [A
  7%|███████▋                                                                                                 | 727/10000 [00:45<08:40, 17.83it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 759.39it/s][A


[23280] loss: 0.064 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 701.98it/s][A

                                                                                                                                                  [A
  7%|███████▋                                                                                                 | 727/10000 [00:45<08:40, 17.83it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[23300] loss: 0.035 


                                                                                                                                                  
  7%|███████▋                                                                                                 | 727/10000 [00:45<08:40, 17.83it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[23320] loss: 0.095 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 673.04it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1321.46it/s][A
  7%|███████▋                                                                                                 | 729/10000 [00:45<08:31, 18.12it/s]
                                                                                                                                                  [A
  7%|███████▋                                                                                                 | 729/10000 [00:45<08:31, 18.12it/s]
                                                                                                                                                  [A
  7%|███████▋                                                                                               

[23340] loss: 0.054 
[23360] loss: 0.099 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 628.20it/s][A

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 926.92it/s][A

                                                                                                                                                  [A
  7%|███████▋                                                                                                 | 729/10000 [00:45<08:31, 18.12it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 892.36it/s][A


[23380] loss: 0.045 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 397.00it/s][A
  7%|███████▋                                                                                                 | 731/10000 [00:45<08:30, 18.15it/s]
                                                                                                                                                  [A
  7%|███████▋                                                                                                 | 731/10000 [00:45<08:30, 18.15it/s]
                                                                                                                                                  [A


[23400] loss: 0.078 


  7%|███████▋                                                                                                 | 731/10000 [00:45<08:30, 18.15it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 590.63it/s][A


[23420] loss: 0.056 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2081.54it/s][A

                                                                                                                                                  [A
  7%|███████▋                                                                                                 | 731/10000 [00:46<08:30, 18.15it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 811.08it/s][A


[23440] loss: 0.060 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 966.65it/s][A
  7%|███████▋                                                                                                 | 733/10000 [00:46<08:28, 18.24it/s]
                                                                                                                                                  [A
  7%|███████▋                                                                                                 | 733/10000 [00:46<08:28, 18.24it/s]
                                                                                                                                                  [A
  7%|███████▋                                                                                                 | 733/10000 [00:46<08:28, 18.24it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[23460] loss: 0.062 
[23480] loss: 0.059 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 514.89it/s][A

                                                                                                                                                  [A
  7%|███████▋                                                                                                 | 733/10000 [00:46<08:28, 18.24it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[23500] loss: 0.069 


                                                                                                                                                  
  7%|███████▋                                                                                                 | 733/10000 [00:46<08:28, 18.24it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 490.91it/s][A


[23520] loss: 0.066 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 385.44it/s][A
  7%|███████▋                                                                                                 | 735/10000 [00:46<08:57, 17.22it/s]
                                                                                                                                                  [A
  7%|███████▋                                                                                                 | 735/10000 [00:46<08:57, 17.22it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 518.48it/s][A


[23540] loss: 0.037 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 446.96it/s][A

                                                                                                                                                  [A
  7%|███████▋                                                                                                 | 735/10000 [00:46<08:57, 17.22it/s]
                                                                                                                                                  [A
  7%|███████▋                                                                                                 | 735/10000 [00:46<08:57, 17.22it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 493.79it/s][A


[23560] loss: 0.061 
[23580] loss: 0.071 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 480.17it/s][A
  7%|███████▋                                                                                                 | 737/10000 [00:46<09:39, 15.99it/s]
                                                                                                                                                  [A
  7%|███████▋                                                                                                 | 737/10000 [00:46<09:39, 15.99it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[23600] loss: 0.055 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 580.13it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1454.84it/s][A

                                                                                                                                                  [A
  7%|███████▋                                                                                                 | 737/10000 [00:46<09:39, 15.99it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[23620] loss: 0.040 


                                                                                                                                                  
  7%|███████▋                                                                                                 | 737/10000 [00:46<09:39, 15.99it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 475.65it/s][A


[23640] loss: 0.041 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 586.70it/s][A
  7%|███████▊                                                                                                 | 739/10000 [00:46<10:01, 15.38it/s]
                                                                                                                                                  [A
  7%|███████▊                                                                                                 | 739/10000 [00:46<10:01, 15.38it/s]
                                                                                                                                                  [A
  7%|███████▊                                                                                                 | 739/10000 [00:46<10:01, 15.38it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[23660] loss: 0.055 
[23680] loss: 0.070 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 684.67it/s][A

                                                                                                                                                  [A
  7%|███████▊                                                                                                 | 739/10000 [00:46<10:01, 15.38it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 549.16it/s][A

[23700] loss: 0.041 




Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 594.43it/s][A
  7%|███████▊                                                                                                 | 741/10000 [00:46<10:22, 14.87it/s]
                                                                                                                                                  [A
  7%|███████▊                                                                                                 | 741/10000 [00:46<10:22, 14.87it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[23720] loss: 0.032 


                                                                                                                                                  
  7%|███████▊                                                                                                 | 741/10000 [00:46<10:22, 14.87it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 464.84it/s][A


[23740] loss: 0.052 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 804.28it/s][A

                                                                                                                                                  [A
  7%|███████▊                                                                                                 | 741/10000 [00:46<10:22, 14.87it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 557.40it/s][A


[23760] loss: 0.062 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 671.73it/s][A
  7%|███████▊                                                                                                 | 743/10000 [00:46<10:38, 14.49it/s]
                                                                                                                                                  [A
  7%|███████▊                                                                                                 | 743/10000 [00:46<10:38, 14.49it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[23780] loss: 0.035 


                                                                                                                                                  
  7%|███████▊                                                                                                 | 743/10000 [00:46<10:38, 14.49it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 498.27it/s][A


[23800] loss: 0.048 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 521.36it/s][A

                                                                                                                                                  [A
  7%|███████▊                                                                                                 | 743/10000 [00:46<10:38, 14.49it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[23820] loss: 0.041 


                                                                                                                                                  
  7%|███████▊                                                                                                 | 743/10000 [00:46<10:38, 14.49it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 505.01it/s][A


[23840] loss: 0.095 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 675.52it/s][A
  7%|███████▊                                                                                                 | 745/10000 [00:46<10:55, 14.12it/s]
                                                                                                                                                  [A
  7%|███████▊                                                                                                 | 745/10000 [00:46<10:55, 14.12it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 574.87it/s][A


[23860] loss: 0.063 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 502.37it/s][A

                                                                                                                                                  [A
  7%|███████▊                                                                                                 | 745/10000 [00:46<10:55, 14.12it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[23880] loss: 0.048 


                                                                                                                                                  
  7%|███████▊                                                                                                 | 745/10000 [00:47<10:55, 14.12it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 490.22it/s][A


[23900] loss: 0.048 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 812.85it/s][A
  7%|███████▊                                                                                                 | 747/10000 [00:47<10:55, 14.11it/s]
                                                                                                                                                  [A
  7%|███████▊                                                                                                 | 747/10000 [00:47<10:55, 14.11it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[23920] loss: 0.049 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 637.90it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 892.60it/s][A

                                                                                                                                                  [A
  7%|███████▊                                                                                                 | 747/10000 [00:47<10:55, 14.11it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[23940] loss: 0.051 


                                                                                                                                                  
  7%|███████▊                                                                                                 | 747/10000 [00:47<10:55, 14.11it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 477.91it/s][A


[23960] loss: 0.039 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 631.10it/s][A
  7%|███████▊                                                                                                 | 749/10000 [00:47<10:51, 14.20it/s]
                                                                                                                                                  [A
  7%|███████▊                                                                                                 | 749/10000 [00:47<10:51, 14.20it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[23980] loss: 0.050 


                                                                                                                                                  
  7%|███████▊                                                                                                 | 749/10000 [00:47<10:51, 14.20it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 551.50it/s][A


[24000] loss: 0.022 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1028.27it/s][A

                                                                                                                                                  [A
  7%|███████▊                                                                                                 | 749/10000 [00:47<10:51, 14.20it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 740.20it/s][A


[24020] loss: 0.047 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 853.89it/s][A
  8%|███████▉                                                                                                 | 751/10000 [00:47<10:19, 14.92it/s]
                                                                                                                                                  [A
  8%|███████▉                                                                                                 | 751/10000 [00:47<10:19, 14.92it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[24040] loss: 0.033 


                                                                                                                                                  
  8%|███████▉                                                                                                 | 751/10000 [00:47<10:19, 14.92it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 625.78it/s][A


[24060] loss: 0.132 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 649.27it/s][A

                                                                                                                                                  [A
  8%|███████▉                                                                                                 | 751/10000 [00:47<10:19, 14.92it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[24080] loss: 0.065 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 740.84it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1857.53it/s][A
  8%|███████▉                                                                                                 | 753/10000 [00:47<09:49, 15.69it/s]
                                                                                                                                                  [A
  8%|███████▉                                                                                                 | 753/10000 [00:47<09:49, 15.69it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[24100] loss: 0.038 


                                                                                                                                                  
  8%|███████▉                                                                                                 | 753/10000 [00:47<09:49, 15.69it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 645.84it/s][A


[24120] loss: 0.062 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 502.13it/s][A

                                                                                                                                                  [A
  8%|███████▉                                                                                                 | 753/10000 [00:47<09:49, 15.69it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[24140] loss: 0.056 


                                                                                                                                                  
  8%|███████▉                                                                                                 | 753/10000 [00:47<09:49, 15.69it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 615.25it/s][A


[24160] loss: 0.062 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1074.91it/s][A
  8%|███████▉                                                                                                 | 755/10000 [00:47<09:45, 15.80it/s]
                                                                                                                                                  [A
  8%|███████▉                                                                                                 | 755/10000 [00:47<09:45, 15.80it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[24180] loss: 0.087 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 709.85it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1815.72it/s][A

                                                                                                                                                  [A
  8%|███████▉                                                                                                 | 755/10000 [00:47<09:45, 15.80it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[24200] loss: 0.056 


                                                                                                                                                  
  8%|███████▉                                                                                                 | 755/10000 [00:47<09:45, 15.80it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 580.23it/s][A


[24220] loss: 0.070 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1321.04it/s][A
  8%|███████▉                                                                                                 | 757/10000 [00:47<09:33, 16.12it/s]
                                                                                                                                                  [A
  8%|███████▉                                                                                                 | 757/10000 [00:47<09:33, 16.12it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[24240] loss: 0.042 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 683.62it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1364.45it/s][A

                                                                                                                                                  [A
[A                                                                                                                                               

[24260] loss: 0.068 

  8%|███████▉                                                                                                 | 757/10000 [00:47<09:33, 16.12it/s]
                                                                                                                                                  [A
  8%|███████▉                                                                                                 | 757/10000 [00:47<09:33, 16.12it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A


[24280] loss: 0.050 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 596.85it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1353.00it/s][A
  8%|███████▉                                                                                                 | 759/10000 [00:47<09:28, 16.26it/s]
                                                                                                                                                  [A
  8%|███████▉                                                                                                 | 759/10000 [00:47<09:28, 16.26it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[24300] loss: 0.069 


                                                                                                                                                  
  8%|███████▉                                                                                                 | 759/10000 [00:47<09:28, 16.26it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 623.84it/s][A


[24320] loss: 0.083 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2084.64it/s][A

                                                                                                                                                  [A
  8%|███████▉                                                                                                 | 759/10000 [00:47<09:28, 16.26it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 956.36it/s][A


[24340] loss: 0.064 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 704.69it/s][A
  8%|███████▉                                                                                                 | 761/10000 [00:47<08:57, 17.19it/s]
                                                                                                                                                  [A
  8%|███████▉                                                                                                 | 761/10000 [00:47<08:57, 17.19it/s]
                                                                                                                                                  [A
  8%|███████▉                                                                                                 | 761/10000 [00:47<08:57, 17.19it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[24360] loss: 0.053 
[24380] loss: 0.093 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 845.46it/s][A

                                                                                                                                                  [A
  8%|███████▉                                                                                                 | 761/10000 [00:47<08:57, 17.19it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 885.76it/s][A


[24400] loss: 0.049 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 778.74it/s][A

                                                                                                                                                  [A
  8%|███████▉                                                                                                 | 761/10000 [00:47<08:57, 17.19it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[24420] loss: 0.054 


                                                                                                                                                  
  8%|███████▉                                                                                                 | 761/10000 [00:47<08:57, 17.19it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 796.36it/s][A


[24440] loss: 0.091 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1462.45it/s][A
  8%|████████                                                                                                 | 764/10000 [00:48<08:17, 18.57it/s]
                                                                                                                                                  [A
  8%|████████                                                                                                 | 764/10000 [00:48<08:17, 18.57it/s]
                                                                                                                                                  [A
  8%|████████                                                                                                 | 764/10000 [00:48<08:17, 18.57it/s]
Training Epoch:   0%|                                                                                       

[24460] loss: 0.100 
[24480] loss: 0.030 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 815.69it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2372.34it/s][A

                                                                                                                                                  [A
  8%|████████                                                                                                 | 764/10000 [00:48<08:17, 18.57it/s]


[24500] loss: 0.031 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 963.23it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1615.68it/s][A

                                                                                                                                                  [A
  8%|████████                                                                                                 | 764/10000 [00:48<08:17, 18.57it/s]
                                                                                                                                                  [A
  8%|████████                                                                                                 | 764/10000 [00:48<08:17, 18.57it/s]
Training Epoch:   0%|                                                                                   

[24520] loss: 0.051 
[24540] loss: 0.068 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 823.76it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1889.33it/s][A
  8%|████████                                                                                                 | 767/10000 [00:48<07:47, 19.74it/s]
                                                                                                                                                  [A
  8%|████████                                                                                                 | 767/10000 [00:48<07:47, 19.74it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[24560] loss: 0.074 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 825.98it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1050.68it/s][A

                                                                                                                                                  [A
  8%|████████                                                                                                 | 767/10000 [00:48<07:47, 19.74it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[24580] loss: 0.050 


                                                                                                                                                  
  8%|████████                                                                                                 | 767/10000 [00:48<07:47, 19.74it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 535.96it/s][A


[24600] loss: 0.063 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 886.00it/s][A
  8%|████████                                                                                                 | 769/10000 [00:48<08:05, 19.00it/s]
                                                                                                                                                  [A
  8%|████████                                                                                                 | 769/10000 [00:48<08:05, 19.00it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[24620] loss: 0.043 


                                                                                                                                                  
  8%|████████                                                                                                 | 769/10000 [00:48<08:05, 19.00it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 552.32it/s][A


[24640] loss: 0.086 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 715.39it/s][A

                                                                                                                                                  [A
  8%|████████                                                                                                 | 769/10000 [00:48<08:05, 19.00it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 540.03it/s][A


[24660] loss: 0.051 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 944.66it/s][A
  8%|████████                                                                                                 | 771/10000 [00:48<08:43, 17.62it/s]
                                                                                                                                                  [A
  8%|████████                                                                                                 | 771/10000 [00:48<08:43, 17.62it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[24680] loss: 0.039 


                                                                                                                                                  
  8%|████████                                                                                                 | 771/10000 [00:48<08:43, 17.62it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 468.16it/s][A


[24700] loss: 0.052 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 541.69it/s][A

                                                                                                                                                  [A
  8%|████████                                                                                                 | 771/10000 [00:48<08:43, 17.62it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[24720] loss: 0.051 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 586.17it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 755.73it/s][A
  8%|████████                                                                                                 | 773/10000 [00:48<09:22, 16.41it/s]
                                                                                                                                                  [A
  8%|████████                                                                                                 | 773/10000 [00:48<09:22, 16.41it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[24740] loss: 0.054 


                                                                                                                                                  
  8%|████████                                                                                                 | 773/10000 [00:48<09:22, 16.41it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 462.85it/s][A


[24760] loss: 0.078 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 448.64it/s][A

                                                                                                                                                  [A
  8%|████████                                                                                                 | 773/10000 [00:48<09:22, 16.41it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[24780] loss: 0.044 


                                                                                                                                                  
  8%|████████                                                                                                 | 773/10000 [00:48<09:22, 16.41it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 475.60it/s][A


[24800] loss: 0.072 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 830.06it/s][A
  8%|████████▏                                                                                                | 775/10000 [00:48<10:08, 15.17it/s]
                                                                                                                                                  [A
  8%|████████▏                                                                                                | 775/10000 [00:48<10:08, 15.17it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 585.92it/s][A

[24820] loss: 0.068 




Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1582.76it/s][A

                                                                                                                                                  [A
  8%|████████▏                                                                                                | 775/10000 [00:48<10:08, 15.17it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[24840] loss: 0.050 


                                                                                                                                                  
  8%|████████▏                                                                                                | 775/10000 [00:48<10:08, 15.17it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 490.52it/s][A


[24860] loss: 0.058 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 475.01it/s][A
  8%|████████▏                                                                                                | 777/10000 [00:48<10:20, 14.87it/s]
                                                                                                                                                  [A
  8%|████████▏                                                                                                | 777/10000 [00:48<10:20, 14.87it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[24880] loss: 0.096 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 521.85it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 736.62it/s][A

                                                                                                                                                  [A
  8%|████████▏                                                                                                | 777/10000 [00:48<10:20, 14.87it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[24900] loss: 0.039 


                                                                                                                                                  
  8%|████████▏                                                                                                | 777/10000 [00:48<10:20, 14.87it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 544.11it/s][A


[24920] loss: 0.085 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 487.43it/s][A
  8%|████████▏                                                                                                | 779/10000 [00:48<10:29, 14.64it/s]
                                                                                                                                                  [A
  8%|████████▏                                                                                                | 779/10000 [00:49<10:29, 14.64it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[24940] loss: 0.064 


                                                                                                                                                  
  8%|████████▏                                                                                                | 779/10000 [00:49<10:29, 14.64it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 469.38it/s][A


[24960] loss: 0.040 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 900.26it/s][A

                                                                                                                                                  [A
  8%|████████▏                                                                                                | 779/10000 [00:49<10:29, 14.64it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 677.21it/s][A


[24980] loss: 0.027 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1010.92it/s][A
  8%|████████▏                                                                                                | 781/10000 [00:49<10:23, 14.78it/s]
                                                                                                                                                  [A
  8%|████████▏                                                                                                | 781/10000 [00:49<10:23, 14.78it/s]
                                                                                                                                                  [A
  8%|████████▏                                                                                                | 781/10000 [00:49<10:23, 14.78it/s]


[25000] loss: 0.041 
[25020] loss: 0.059 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 614.78it/s][A

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 854.06it/s][A

                                                                                                                                                  [A
  8%|████████▏                                                                                                | 781/10000 [00:49<10:23, 14.78it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[25040] loss: 0.061 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 634.30it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1345.19it/s][A
  8%|████████▏                                                                                                | 783/10000 [00:49<09:55, 15.47it/s]
                                                                                                                                                  [A
  8%|████████▏                                                                                                | 783/10000 [00:49<09:55, 15.47it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[25060] loss: 0.044 


                                                                                                                                                  
  8%|████████▏                                                                                                | 783/10000 [00:49<09:55, 15.47it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 551.72it/s][A


[25080] loss: 0.048 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1042.84it/s][A

                                                                                                                                                  [A
  8%|████████▏                                                                                                | 783/10000 [00:49<09:55, 15.47it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[25100] loss: 0.062 


                                                                                                                                                  
  8%|████████▏                                                                                                | 783/10000 [00:49<09:55, 15.47it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 572.58it/s][A


[25120] loss: 0.027 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 850.60it/s][A
  8%|████████▏                                                                                                | 785/10000 [00:49<09:53, 15.54it/s]
                                                                                                                                                  [A
  8%|████████▏                                                                                                | 785/10000 [00:49<09:53, 15.54it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[25140] loss: 0.057 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 653.62it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1039.22it/s][A

                                                                                                                                                  [A
  8%|████████▏                                                                                                | 785/10000 [00:49<09:53, 15.54it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[25160] loss: 0.062 


                                                                                                                                                  
  8%|████████▏                                                                                                | 785/10000 [00:49<09:53, 15.54it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 601.57it/s][A


[25180] loss: 0.064 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 768.47it/s][A
  8%|████████▎                                                                                                | 787/10000 [00:49<09:38, 15.92it/s]
                                                                                                                                                  [A
  8%|████████▎                                                                                                | 787/10000 [00:49<09:38, 15.92it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[25200] loss: 0.074 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 700.90it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 817.13it/s][A

                                                                                                                                                  [A
  8%|████████▎                                                                                                | 787/10000 [00:49<09:38, 15.92it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[25220] loss: 0.067 


                                                                                                                                                  
  8%|████████▎                                                                                                | 787/10000 [00:49<09:38, 15.92it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 604.71it/s][A


[25240] loss: 0.050 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 704.69it/s][A
  8%|████████▎                                                                                                | 789/10000 [00:49<09:25, 16.29it/s]
                                                                                                                                                  [A
  8%|████████▎                                                                                                | 789/10000 [00:49<09:25, 16.29it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[25260] loss: 0.037 


                                                                                                                                                  
  8%|████████▎                                                                                                | 789/10000 [00:49<09:25, 16.29it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 614.84it/s][A


[25280] loss: 0.038 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 333.04it/s][A

                                                                                                                                                  [A
  8%|████████▎                                                                                                | 789/10000 [00:49<09:25, 16.29it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 810.09it/s][A


[25300] loss: 0.054 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 655.87it/s][A
  8%|████████▎                                                                                                | 791/10000 [00:49<09:08, 16.80it/s]
                                                                                                                                                  [A
  8%|████████▎                                                                                                | 791/10000 [00:49<09:08, 16.80it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[25320] loss: 0.034 


                                                                                                                                                  
  8%|████████▎                                                                                                | 791/10000 [00:49<09:08, 16.80it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 612.14it/s][A


[25340] loss: 0.067 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1469.62it/s][A

                                                                                                                                                  [A
  8%|████████▎                                                                                                | 791/10000 [00:49<09:08, 16.80it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 728.64it/s][A


[25360] loss: 0.060 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 604.72it/s][A
  8%|████████▎                                                                                                | 793/10000 [00:49<09:01, 16.99it/s]
                                                                                                                                                  [A
  8%|████████▎                                                                                                | 793/10000 [00:49<09:01, 16.99it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[25380] loss: 0.075 


                                                                                                                                                  
  8%|████████▎                                                                                                | 793/10000 [00:49<09:01, 16.99it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 647.75it/s][A


[25400] loss: 0.083 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 537.18it/s][A

                                                                                                                                                  [A
  8%|████████▎                                                                                                | 793/10000 [00:49<09:01, 16.99it/s]
                                                                                                                                                  [A

[25420] loss: 0.046 



  8%|████████▎                                                                                                | 793/10000 [00:49<09:01, 16.99it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 700.06it/s][A


[25440] loss: 0.025 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 569.96it/s][A
  8%|████████▎                                                                                                | 795/10000 [00:49<08:55, 17.18it/s]
                                                                                                                                                  [A
  8%|████████▎                                                                                                | 795/10000 [00:49<08:55, 17.18it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 630.10it/s][A


[25460] loss: 0.043 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 898.72it/s][A

                                                                                                                                                  [A
  8%|████████▎                                                                                                | 795/10000 [00:50<08:55, 17.18it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[25480] loss: 0.049 


                                                                                                                                                  
  8%|████████▎                                                                                                | 795/10000 [00:50<08:55, 17.18it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 659.98it/s][A


[25500] loss: 0.039 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1452.82it/s][A
  8%|████████▎                                                                                                | 797/10000 [00:50<08:55, 17.18it/s]
                                                                                                                                                  [A
  8%|████████▎                                                                                                | 797/10000 [00:50<08:55, 17.18it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 704.70it/s][A


[25520] loss: 0.059 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 790.93it/s][A

                                                                                                                                                  [A
  8%|████████▎                                                                                                | 797/10000 [00:50<08:55, 17.18it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[25540] loss: 0.069 


                                                                                                                                                  
  8%|████████▎                                                                                                | 797/10000 [00:50<08:55, 17.18it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 630.23it/s][A


[25560] loss: 0.077 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1428.09it/s][A
  8%|████████▍                                                                                                | 799/10000 [00:50<08:57, 17.12it/s]
                                                                                                                                                  [A
  8%|████████▍                                                                                                | 799/10000 [00:50<08:57, 17.12it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[25580] loss: 0.050 


                                                                                                                                                  
  8%|████████▍                                                                                                | 799/10000 [00:50<08:57, 17.12it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 642.93it/s][A


[25600] loss: 0.016 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1063.19it/s][A

                                                                                                                                                  [A
  8%|████████▍                                                                                                | 799/10000 [00:50<08:57, 17.12it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 812.71it/s][A


[25620] loss: 0.047 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1432.97it/s][A
  8%|████████▍                                                                                                | 801/10000 [00:50<08:40, 17.66it/s]
                                                                                                                                                  [A
  8%|████████▍                                                                                                | 801/10000 [00:50<08:40, 17.66it/s]
                                                                                                                                                  [A
  8%|████████▍                                                                                                | 801/10000 [00:50<08:40, 17.66it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[25640] loss: 0.070 
[25660] loss: 0.051 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 589.92it/s][A

                                                                                                                                                  [A
  8%|████████▍                                                                                                | 801/10000 [00:50<08:40, 17.66it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[25680] loss: 0.052 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 977.50it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1025.50it/s][A

                                                                                                                                                  [A
  8%|████████▍                                                                                                | 801/10000 [00:50<08:40, 17.66it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[25700] loss: 0.040 


                                                                                                                                                  
  8%|████████▍                                                                                                | 801/10000 [00:50<08:40, 17.66it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 873.94it/s][A


[25720] loss: 0.046 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1554.60it/s][A
  8%|████████▍                                                                                                | 804/10000 [00:50<07:55, 19.33it/s]
                                                                                                                                                  [A
  8%|████████▍                                                                                                | 804/10000 [00:50<07:55, 19.33it/s]
                                                                                                                                                  [A
  8%|████████▍                                                                                                | 804/10000 [00:50<07:55, 19.33it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[25740] loss: 0.034 
[25760] loss: 0.106 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2414.68it/s][A

                                                                                                                                                  [A
  8%|████████▍                                                                                                | 804/10000 [00:50<07:55, 19.33it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[25780] loss: 0.065 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 871.87it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1095.12it/s][A

                                                                                                                                                  [A
  8%|████████▍                                                                                                | 804/10000 [00:50<07:55, 19.33it/s]
                                                                                                                                                  [A
                                                                                                                                                  

[25800] loss: 0.041 


  8%|████████▍                                                                                                | 804/10000 [00:50<07:55, 19.33it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 652.97it/s][A


[25820] loss: 0.035 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1387.46it/s][A
  8%|████████▍                                                                                                | 807/10000 [00:50<07:50, 19.56it/s]
                                                                                                                                                  [A
  8%|████████▍                                                                                                | 807/10000 [00:50<07:50, 19.56it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[25840] loss: 0.041 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 689.74it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1093.98it/s][A

                                                                                                                                                  [A
  8%|████████▍                                                                                                | 807/10000 [00:50<07:50, 19.56it/s]
                                                                                                                                                  [A
  8%|████████▍                                                                                                | 807/10000 [00:50<07:50, 19.56it/s]
Training Epoch: 100%|██████████████████████████████████████████████████████████████████████████████████████

[25860] loss: 0.043 
[25880] loss: 0.056 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1883.39it/s][A
  8%|████████▍                                                                                                | 809/10000 [00:50<08:06, 18.91it/s]
                                                                                                                                                  [A
  8%|████████▍                                                                                                | 809/10000 [00:50<08:06, 18.91it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[25900] loss: 0.085 


                                                                                                                                                  
  8%|████████▍                                                                                                | 809/10000 [00:50<08:06, 18.91it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 621.34it/s][A


[25920] loss: 0.047 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1392.99it/s][A

                                                                                                                                                  [A
  8%|████████▍                                                                                                | 809/10000 [00:50<08:06, 18.91it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[25940] loss: 0.059 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 713.75it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1995.39it/s][A
  8%|████████▌                                                                                                | 811/10000 [00:50<08:18, 18.44it/s]
                                                                                                                                                  [A
  8%|████████▌                                                                                                | 811/10000 [00:50<08:18, 18.44it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[25960] loss: 0.054 


                                                                                                                                                  
  8%|████████▌                                                                                                | 811/10000 [00:50<08:18, 18.44it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 627.57it/s][A


[25980] loss: 0.065 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 706.59it/s][A

                                                                                                                                                  [A
  8%|████████▌                                                                                                | 811/10000 [00:50<08:18, 18.44it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 756.20it/s][A


[26000] loss: 0.058 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 682.78it/s][A
  8%|████████▌                                                                                                | 813/10000 [00:50<08:22, 18.30it/s]
                                                                                                                                                  [A
  8%|████████▌                                                                                                | 813/10000 [00:50<08:22, 18.30it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[26020] loss: 0.031 


                                                                                                                                                  
  8%|████████▌                                                                                                | 813/10000 [00:50<08:22, 18.30it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 698.41it/s][A


[26040] loss: 0.047 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 844.26it/s][A

                                                                                                                                                  [A
  8%|████████▌                                                                                                | 813/10000 [00:50<08:22, 18.30it/s]
                                                                                                                                                  [A
  8%|████████▌                                                                                                | 813/10000 [00:50<08:22, 18.30it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 687.54it/s][A


[26060] loss: 0.045 
[26080] loss: 0.074 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1468.59it/s][A
  8%|████████▌                                                                                                | 815/10000 [00:51<08:22, 18.27it/s]
                                                                                                                                                  [A
  8%|████████▌                                                                                                | 815/10000 [00:51<08:22, 18.27it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[26100] loss: 0.056 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 912.60it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1649.35it/s][A

                                                                                                                                                  [A
  8%|████████▌                                                                                                | 815/10000 [00:51<08:22, 18.27it/s]
                                                                                                                                                  [A
  8%|████████▌                                                                                                | 815/10000 [00:51<08:22, 18.27it/s]
Training Epoch:   0%|                                                                                      

[26120] loss: 0.072 
[26140] loss: 0.072 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 512.85it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1038.45it/s][A
  8%|████████▌                                                                                                | 817/10000 [00:51<08:36, 17.77it/s]
                                                                                                                                                  [A
  8%|████████▌                                                                                                | 817/10000 [00:51<08:36, 17.77it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[26160] loss: 0.060 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 695.57it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 754.10it/s][A

                                                                                                                                                  [A
  8%|████████▌                                                                                                | 817/10000 [00:51<08:36, 17.77it/s]
                                                                                                                                                  [A
  8%|████████▌                                                                                                | 817/10000 [00:51<08:36, 17.77it/s]
Training Epoch:   0%|                                                                                      

[26180] loss: 0.072 
[26200] loss: 0.067 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 647.43it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1894.45it/s][A
  8%|████████▌                                                                                                | 819/10000 [00:51<08:44, 17.49it/s]
                                                                                                                                                  [A
  8%|████████▌                                                                                                | 819/10000 [00:51<08:44, 17.49it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[26220] loss: 0.061 


                                                                                                                                                  
  8%|████████▌                                                                                                | 819/10000 [00:51<08:44, 17.49it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 666.06it/s][A


[26240] loss: 0.039 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 591.50it/s][A

                                                                                                                                                  [A
  8%|████████▌                                                                                                | 819/10000 [00:51<08:44, 17.49it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 748.74it/s][A


[26260] loss: 0.061 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1022.25it/s][A
  8%|████████▌                                                                                                | 821/10000 [00:51<08:41, 17.60it/s]
                                                                                                                                                  [A
  8%|████████▌                                                                                                | 821/10000 [00:51<08:41, 17.60it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[26280] loss: 0.086 


                                                                                                                                                  
  8%|████████▌                                                                                                | 821/10000 [00:51<08:41, 17.60it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 606.48it/s][A


[26300] loss: 0.040 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 788.11it/s][A

                                                                                                                                                  [A
  8%|████████▌                                                                                                | 821/10000 [00:51<08:41, 17.60it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[26320] loss: 0.046 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 699.83it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1394.85it/s][A
  8%|████████▋                                                                                                | 823/10000 [00:51<08:45, 17.45it/s]
                                                                                                                                                  [A
  8%|████████▋                                                                                                | 823/10000 [00:51<08:45, 17.45it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[26340] loss: 0.043 


                                                                                                                                                  
  8%|████████▋                                                                                                | 823/10000 [00:51<08:45, 17.45it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[26360] loss: 0.079 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 557.67it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1700.85it/s][A

                                                                                                                                                  [A
  8%|████████▋                                                                                                | 823/10000 [00:51<08:45, 17.45it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[26380] loss: 0.058 


                                                                                                                                                  
  8%|████████▋                                                                                                | 823/10000 [00:51<08:45, 17.45it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 590.14it/s][A


[26400] loss: 0.039 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1268.69it/s][A
  8%|████████▋                                                                                                | 825/10000 [00:51<09:09, 16.69it/s]
                                                                                                                                                  [A
  8%|████████▋                                                                                                | 825/10000 [00:51<09:09, 16.69it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[26420] loss: 0.062 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 778.50it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 713.56it/s][A

                                                                                                                                                  [A
  8%|████████▋                                                                                                | 825/10000 [00:51<09:09, 16.69it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[26440] loss: 0.047 


                                                                                                                                                  
  8%|████████▋                                                                                                | 825/10000 [00:51<09:09, 16.69it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 592.65it/s][A


[26460] loss: 0.060 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1652.60it/s][A
  8%|████████▋                                                                                                | 827/10000 [00:51<09:03, 16.88it/s]
                                                                                                                                                  [A
  8%|████████▋                                                                                                | 827/10000 [00:51<09:03, 16.88it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 828.17it/s][A


[26480] loss: 0.087 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1428.58it/s][A

                                                                                                                                                  [A
  8%|████████▋                                                                                                | 827/10000 [00:51<09:03, 16.88it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[26500] loss: 0.051 


                                                                                                                                                  
  8%|████████▋                                                                                                | 827/10000 [00:51<09:03, 16.88it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 720.33it/s][A


[26520] loss: 0.061 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 860.55it/s][A
  8%|████████▋                                                                                                | 829/10000 [00:51<08:40, 17.62it/s]
                                                                                                                                                  [A
  8%|████████▋                                                                                                | 829/10000 [00:51<08:40, 17.62it/s]
                                                                                                                                                  [A
  8%|████████▋                                                                                                | 829/10000 [00:51<08:40, 17.62it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[26540] loss: 0.049 
[26560] loss: 0.028 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1731.04it/s][A

                                                                                                                                                  [A
  8%|████████▋                                                                                                | 829/10000 [00:51<08:40, 17.62it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[26580] loss: 0.065 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 926.07it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1154.82it/s][A

                                                                                                                                                  [A
  8%|████████▋                                                                                                | 829/10000 [00:51<08:40, 17.62it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[26600] loss: 0.040 


                                                                                                                                                  
  8%|████████▋                                                                                                | 829/10000 [00:51<08:40, 17.62it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 613.95it/s][A


[26620] loss: 0.071 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1681.76it/s][A
  8%|████████▋                                                                                                | 832/10000 [00:51<08:28, 18.04it/s]
                                                                                                                                                  [A
  8%|████████▋                                                                                                | 832/10000 [00:52<08:28, 18.04it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 755.64it/s][A


[26640] loss: 0.052 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 490.39it/s][A

                                                                                                                                                  [A
  8%|████████▋                                                                                                | 832/10000 [00:52<08:28, 18.04it/s]
                                                                                                                                                  [A
  8%|████████▋                                                                                                | 832/10000 [00:52<08:28, 18.04it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 578.10it/s][A


[26660] loss: 0.032 
[26680] loss: 0.103 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1278.36it/s][A
  8%|████████▊                                                                                                | 834/10000 [00:52<08:40, 17.61it/s]
                                                                                                                                                  [A
  8%|████████▊                                                                                                | 834/10000 [00:52<08:40, 17.61it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[26700] loss: 0.029 


                                                                                                                                                  
  8%|████████▊                                                                                                | 834/10000 [00:52<08:40, 17.61it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 615.37it/s][A


[26720] loss: 0.046 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1311.95it/s][A

                                                                                                                                                  [A
  8%|████████▊                                                                                                | 834/10000 [00:52<08:40, 17.61it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[26740] loss: 0.074 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 759.06it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1673.70it/s][A
  8%|████████▊                                                                                                | 836/10000 [00:52<08:42, 17.53it/s]
                                                                                                                                                  [A
  8%|████████▊                                                                                                | 836/10000 [00:52<08:42, 17.53it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[26760] loss: 0.061 


                                                                                                                                                  
  8%|████████▊                                                                                                | 836/10000 [00:52<08:42, 17.53it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 606.98it/s][A


[26780] loss: 0.034 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 446.63it/s][A

                                                                                                                                                  [A
  8%|████████▊                                                                                                | 836/10000 [00:52<08:42, 17.53it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[26800] loss: 0.055 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 825.85it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1603.33it/s][A
  8%|████████▊                                                                                                | 838/10000 [00:52<08:43, 17.49it/s]
                                                                                                                                                  [A
  8%|████████▊                                                                                                | 838/10000 [00:52<08:43, 17.49it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[26820] loss: 0.058 


                                                                                                                                                  
  8%|████████▊                                                                                                | 838/10000 [00:52<08:43, 17.49it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 582.69it/s][A

[26840] loss: 0.046 




Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1198.03it/s][A

                                                                                                                                                  [A
  8%|████████▊                                                                                                | 838/10000 [00:52<08:43, 17.49it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[26860] loss: 0.035 


                                                                                                                                                  
  8%|████████▊                                                                                                | 838/10000 [00:52<08:43, 17.49it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 606.54it/s][A


[26880] loss: 0.127 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1282.27it/s][A
  8%|████████▊                                                                                                | 840/10000 [00:52<09:08, 16.69it/s]
                                                                                                                                                  [A
  8%|████████▊                                                                                                | 840/10000 [00:52<09:08, 16.69it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[26900] loss: 0.045 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 773.72it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1879.17it/s][A

                                                                                                                                                  [A
  8%|████████▊                                                                                                | 840/10000 [00:52<09:08, 16.69it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[26920] loss: 0.024 


                                                                                                                                                  
  8%|████████▊                                                                                                | 840/10000 [00:52<09:08, 16.69it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 620.66it/s][A


[26940] loss: 0.051 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1327.31it/s][A
  8%|████████▊                                                                                                | 842/10000 [00:52<08:58, 17.01it/s]
                                                                                                                                                  [A
  8%|████████▊                                                                                                | 842/10000 [00:52<08:58, 17.01it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 736.84it/s][A


[26960] loss: 0.040 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1893.59it/s][A

                                                                                                                                                  [A
  8%|████████▊                                                                                                | 842/10000 [00:52<08:58, 17.01it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[26980] loss: 0.037 


                                                                                                                                                  
  8%|████████▊                                                                                                | 842/10000 [00:52<08:58, 17.01it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 714.62it/s][A


[27000] loss: 0.072 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2026.23it/s][A
  8%|████████▊                                                                                                | 844/10000 [00:52<08:41, 17.57it/s]
                                                                                                                                                  [A
  8%|████████▊                                                                                                | 844/10000 [00:52<08:41, 17.57it/s]
                                                                                                                                                  [A
  8%|████████▊                                                                                                | 844/10000 [00:52<08:41, 17.57it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[27020] loss: 0.030 
[27040] loss: 0.094 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 285.42it/s][A

                                                                                                                                                  [A
[A                                                                                                                                               

[27060] loss: 0.063 


  8%|████████▊                                                                                                | 844/10000 [00:52<08:41, 17.57it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 793.53it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1152.28it/s][A
  8%|████████▉                                                                                                | 846/10000 [00:52<08:22, 18.20it/s]
                                                                                                                                                  [A
  8%|████████▉                                                                                                | 846/10000 [00:52<08:22, 18.20it/s]
Training Epoch:   0%|                                                                                       

[27080] loss: 0.066 


                                                                                                                                                  
  8%|████████▉                                                                                                | 846/10000 [00:52<08:22, 18.20it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 579.36it/s][A

[27100] loss: 0.077 




Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1364.45it/s][A

                                                                                                                                                  [A
  8%|████████▉                                                                                                | 846/10000 [00:52<08:22, 18.20it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[27120] loss: 0.074 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 857.02it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1755.67it/s][A
  8%|████████▉                                                                                                | 848/10000 [00:52<08:19, 18.32it/s]
                                                                                                                                                  [A
  8%|████████▉                                                                                                | 848/10000 [00:52<08:19, 18.32it/s]
                                                                                                                                                  [A
  8%|████████▉                                                                                              

[27140] loss: 0.038 
[27160] loss: 0.049 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1916.96it/s][A

                                                                                                                                                  [A
  8%|████████▉                                                                                                | 848/10000 [00:52<08:19, 18.32it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[27180] loss: 0.093 


                                                                                                                                                  
  8%|████████▉                                                                                                | 848/10000 [00:53<08:19, 18.32it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 606.42it/s][A


[27200] loss: 0.091 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1319.79it/s][A
  8%|████████▉                                                                                                | 850/10000 [00:53<08:42, 17.50it/s]
                                                                                                                                                  [A
  8%|████████▉                                                                                                | 850/10000 [00:53<08:42, 17.50it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[27220] loss: 0.063 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 608.08it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1569.14it/s][A

                                                                                                                                                  [A
  8%|████████▉                                                                                                | 850/10000 [00:53<08:42, 17.50it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[27240] loss: 0.092 


                                                                                                                                                  
  8%|████████▉                                                                                                | 850/10000 [00:53<08:42, 17.50it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 564.33it/s][A


[27260] loss: 0.066 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1032.57it/s][A
  9%|████████▉                                                                                                | 852/10000 [00:53<09:00, 16.92it/s]
                                                                                                                                                  [A
  9%|████████▉                                                                                                | 852/10000 [00:53<09:00, 16.92it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[27280] loss: 0.079 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 746.83it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2381.77it/s][A

                                                                                                                                                  [A
  9%|████████▉                                                                                                | 852/10000 [00:53<09:00, 16.92it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[27300] loss: 0.058 


                                                                                                                                                  
  9%|████████▉                                                                                                | 852/10000 [00:53<09:00, 16.92it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 606.26it/s][A


[27320] loss: 0.072 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1214.68it/s][A
  9%|████████▉                                                                                                | 854/10000 [00:53<08:48, 17.30it/s]
                                                                                                                                                  [A
  9%|████████▉                                                                                                | 854/10000 [00:53<08:48, 17.30it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[27340] loss: 0.065 


                                                                                                                                                  
  9%|████████▉                                                                                                | 854/10000 [00:53<08:48, 17.30it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 653.50it/s][A


[27360] loss: 0.127 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1302.17it/s][A

                                                                                                                                                  [A
  9%|████████▉                                                                                                | 854/10000 [00:53<08:48, 17.30it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 762.18it/s][A


[27380] loss: 0.092 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2111.94it/s][A
  9%|████████▉                                                                                                | 856/10000 [00:53<08:37, 17.67it/s]
                                                                                                                                                  [A
  9%|████████▉                                                                                                | 856/10000 [00:53<08:37, 17.67it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[27400] loss: 0.053 


                                                                                                                                                  
  9%|████████▉                                                                                                | 856/10000 [00:53<08:37, 17.67it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 625.37it/s][A


[27420] loss: 0.080 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1134.82it/s][A

                                                                                                                                                  [A
  9%|████████▉                                                                                                | 856/10000 [00:53<08:37, 17.67it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 643.10it/s][A


[27440] loss: 0.067 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1556.91it/s][A
  9%|█████████                                                                                                | 858/10000 [00:53<08:42, 17.49it/s]
                                                                                                                                                  [A
  9%|█████████                                                                                                | 858/10000 [00:53<08:42, 17.49it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[27460] loss: 0.096 


                                                                                                                                                  
  9%|█████████                                                                                                | 858/10000 [00:53<08:42, 17.49it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 642.53it/s][A


[27480] loss: 0.048 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1569.14it/s][A

                                                                                                                                                  [A
  9%|█████████                                                                                                | 858/10000 [00:53<08:42, 17.49it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[27500] loss: 0.096 


                                                                                                                                                  
  9%|█████████                                                                                                | 858/10000 [00:53<08:42, 17.49it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 542.73it/s][A


[27520] loss: 0.028 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1231.08it/s][A
  9%|█████████                                                                                                | 860/10000 [00:53<09:02, 16.85it/s]
                                                                                                                                                  [A
  9%|█████████                                                                                                | 860/10000 [00:53<09:02, 16.85it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[27540] loss: 0.063 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 688.68it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1898.73it/s][A

                                                                                                                                                  [A
  9%|█████████                                                                                                | 860/10000 [00:53<09:02, 16.85it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[27560] loss: 0.049 


                                                                                                                                                  
  9%|█████████                                                                                                | 860/10000 [00:53<09:02, 16.85it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[27580] loss: 0.113 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 589.72it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1359.58it/s][A
  9%|█████████                                                                                                | 862/10000 [00:53<09:04, 16.79it/s]
                                                                                                                                                  [A
  9%|█████████                                                                                                | 862/10000 [00:53<09:04, 16.79it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[27600] loss: 0.117 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 762.47it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 754.78it/s][A

                                                                                                                                                  [A
  9%|█████████                                                                                                | 862/10000 [00:53<09:04, 16.79it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[27620] loss: 0.048 


                                                                                                                                                  
  9%|█████████                                                                                                | 862/10000 [00:53<09:04, 16.79it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 671.45it/s][A


[27640] loss: 0.074 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1818.87it/s][A
  9%|█████████                                                                                                | 864/10000 [00:53<08:48, 17.27it/s]
                                                                                                                                                  [A
  9%|█████████                                                                                                | 864/10000 [00:53<08:48, 17.27it/s]
                                                                                                                                                  [A
  9%|█████████                                                                                                | 864/10000 [00:53<08:48, 17.27it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[27660] loss: 0.056 
[27680] loss: 0.021 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 349.79it/s][A

                                                                                                                                                  [A
  9%|█████████                                                                                                | 864/10000 [00:53<08:48, 17.27it/s]

[27700] loss: 0.067 



Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 944.87it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2379.07it/s][A

                                                                                                                                                  [A
  9%|█████████                                                                                                | 864/10000 [00:53<08:48, 17.27it/s]
                                                                                                                                                  [A
  9%|█████████                                                                                                | 864/10000 [00:53<08:48, 17.27it/s]
Training Epoch: 100%|██████████████████████████████████████████████████████████████████████████████████

[27720] loss: 0.081 
[27740] loss: 0.040 




Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1271.00it/s][A
  9%|█████████                                                                                                | 867/10000 [00:53<08:36, 17.70it/s]
                                                                                                                                                  [A
  9%|█████████                                                                                                | 867/10000 [00:54<08:36, 17.70it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 725.98it/s][A


[27760] loss: 0.049 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 570.96it/s][A

                                                                                                                                                  [A
  9%|█████████                                                                                                | 867/10000 [00:54<08:36, 17.70it/s]
                                                                                                                                                  [A
  9%|█████████                                                                                                | 867/10000 [00:54<08:36, 17.70it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 650.19it/s][A


[27780] loss: 0.055 
[27800] loss: 0.043 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 575.43it/s][A
  9%|█████████                                                                                                | 869/10000 [00:54<08:39, 17.59it/s]
                                                                                                                                                  [A
  9%|█████████                                                                                                | 869/10000 [00:54<08:39, 17.59it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[27820] loss: 0.083 


                                                                                                                                                  
  9%|█████████                                                                                                | 869/10000 [00:54<08:39, 17.59it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 517.60it/s][A


[27840] loss: 0.042 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 985.50it/s][A

                                                                                                                                                  [A
  9%|█████████                                                                                                | 869/10000 [00:54<08:39, 17.59it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[27860] loss: 0.044 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 778.94it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1393.46it/s][A
  9%|█████████▏                                                                                               | 871/10000 [00:54<08:48, 17.28it/s]
                                                                                                                                                  [A
  9%|█████████▏                                                                                               | 871/10000 [00:54<08:48, 17.28it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[27880] loss: 0.062 


                                                                                                                                                  
  9%|█████████▏                                                                                               | 871/10000 [00:54<08:48, 17.28it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 596.81it/s][A


[27900] loss: 0.063 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1344.76it/s][A

                                                                                                                                                  [A
  9%|█████████▏                                                                                               | 871/10000 [00:54<08:48, 17.28it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 808.10it/s][A

[27920] loss: 0.062 




Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1185.84it/s][A
  9%|█████████▏                                                                                               | 873/10000 [00:54<08:44, 17.41it/s]
                                                                                                                                                  [A
  9%|█████████▏                                                                                               | 873/10000 [00:54<08:44, 17.41it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[27940] loss: 0.054 


                                                                                                                                                  
  9%|█████████▏                                                                                               | 873/10000 [00:54<08:44, 17.41it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 546.27it/s][A


[27960] loss: 0.074 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 929.59it/s][A

                                                                                                                                                  [A
  9%|█████████▏                                                                                               | 873/10000 [00:54<08:44, 17.41it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[27980] loss: 0.060 


                                                                                                                                                  
  9%|█████████▏                                                                                               | 873/10000 [00:54<08:44, 17.41it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 644.61it/s][A


[28000] loss: 0.024 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 639.28it/s][A
  9%|█████████▏                                                                                               | 875/10000 [00:54<09:04, 16.76it/s]
                                                                                                                                                  [A
  9%|█████████▏                                                                                               | 875/10000 [00:54<09:04, 16.76it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[28020] loss: 0.069 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 732.83it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1201.12it/s][A

                                                                                                                                                  [A
  9%|█████████▏                                                                                               | 875/10000 [00:54<09:04, 16.76it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[28040] loss: 0.047 


                                                                                                                                                  
  9%|█████████▏                                                                                               | 875/10000 [00:54<09:04, 16.76it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 536.30it/s][A


[28060] loss: 0.065 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1390.68it/s][A
  9%|█████████▏                                                                                               | 877/10000 [00:54<09:03, 16.77it/s]
                                                                                                                                                  [A
  9%|█████████▏                                                                                               | 877/10000 [00:54<09:03, 16.77it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[28080] loss: 0.065 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 675.53it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 671.30it/s][A

                                                                                                                                                  [A
  9%|█████████▏                                                                                               | 877/10000 [00:54<09:03, 16.77it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[28100] loss: 0.032 


                                                                                                                                                  
  9%|█████████▏                                                                                               | 877/10000 [00:54<09:03, 16.77it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[28120] loss: 0.059 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 606.44it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1181.16it/s][A
  9%|█████████▏                                                                                               | 879/10000 [00:54<09:05, 16.71it/s]
                                                                                                                                                  [A
  9%|█████████▏                                                                                               | 879/10000 [00:54<09:05, 16.71it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[28140] loss: 0.030 


                                                                                                                                                  
  9%|█████████▏                                                                                               | 879/10000 [00:54<09:05, 16.71it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 662.25it/s][A


[28160] loss: 0.068 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 281.36it/s][A

                                                                                                                                                  [A
  9%|█████████▏                                                                                               | 879/10000 [00:54<09:05, 16.71it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 703.45it/s][A


[28180] loss: 0.086 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1974.72it/s][A
  9%|█████████▎                                                                                               | 881/10000 [00:54<08:53, 17.10it/s]
                                                                                                                                                  [A
  9%|█████████▎                                                                                               | 881/10000 [00:54<08:53, 17.10it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[28200] loss: 0.080 


                                                                                                                                                  
  9%|█████████▎                                                                                               | 881/10000 [00:54<08:53, 17.10it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 628.35it/s][A


[28220] loss: 0.078 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1219.98it/s][A

                                                                                                                                                  [A
  9%|█████████▎                                                                                               | 881/10000 [00:54<08:53, 17.10it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 813.83it/s][A


[28240] loss: 0.053 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1326.89it/s][A
  9%|█████████▎                                                                                               | 883/10000 [00:54<08:42, 17.44it/s]
                                                                                                                                                  [A
  9%|█████████▎                                                                                               | 883/10000 [00:54<08:42, 17.44it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[28260] loss: 0.079 


                                                                                                                                                  
  9%|█████████▎                                                                                               | 883/10000 [00:54<08:42, 17.44it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 642.96it/s][A


[28280] loss: 0.089 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1345.19it/s][A

                                                                                                                                                  [A
  9%|█████████▎                                                                                               | 883/10000 [00:55<08:42, 17.44it/s]
                                                                                                                                                  [A
  9%|█████████▎                                                                                               | 883/10000 [00:55<08:42, 17.44it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 741.35it/s][A


[28300] loss: 0.065 
[28320] loss: 0.049 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 340.81it/s][A
  9%|█████████▎                                                                                               | 885/10000 [00:55<08:38, 17.57it/s]
                                                                                                                                                  [A
  9%|█████████▎                                                                                               | 885/10000 [00:55<08:38, 17.57it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 677.06it/s][A


[28340] loss: 0.084 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 810.34it/s][A

                                                                                                                                                  [A
  9%|█████████▎                                                                                               | 885/10000 [00:55<08:38, 17.57it/s]
                                                                                                                                                  [A
                                                                                                                                                  

[28360] loss: 0.074 


  9%|█████████▎                                                                                               | 885/10000 [00:55<08:38, 17.57it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 602.76it/s][A


[28380] loss: 0.088 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1412.22it/s][A
  9%|█████████▎                                                                                               | 887/10000 [00:55<08:42, 17.43it/s]
                                                                                                                                                  [A
  9%|█████████▎                                                                                               | 887/10000 [00:55<08:42, 17.43it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 728.33it/s][A


[28400] loss: 0.064 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1316.89it/s][A

                                                                                                                                                  [A
  9%|█████████▎                                                                                               | 887/10000 [00:55<08:42, 17.43it/s]
                                                                                                                                                  [A
  9%|█████████▎                                                                                               | 887/10000 [00:55<08:42, 17.43it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[28420] loss: 0.036 
[28440] loss: 0.053 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 570.43it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1116.99it/s][A
  9%|█████████▎                                                                                               | 889/10000 [00:55<08:48, 17.26it/s]
                                                                                                                                                  [A
  9%|█████████▎                                                                                               | 889/10000 [00:55<08:48, 17.26it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[28460] loss: 0.071 


                                                                                                                                                  
  9%|█████████▎                                                                                               | 889/10000 [00:55<08:48, 17.26it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 624.94it/s][A


[28480] loss: 0.050 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 843.25it/s][A

                                                                                                                                                  [A
  9%|█████████▎                                                                                               | 889/10000 [00:55<08:48, 17.26it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[28500] loss: 0.048 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 681.28it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1771.99it/s][A
  9%|█████████▎                                                                                               | 891/10000 [00:55<08:47, 17.28it/s]
                                                                                                                                                  [A
  9%|█████████▎                                                                                               | 891/10000 [00:55<08:47, 17.28it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[28520] loss: 0.028 


                                                                                                                                                  
  9%|█████████▎                                                                                               | 891/10000 [00:55<08:47, 17.28it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 607.07it/s][A


[28540] loss: 0.091 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1411.75it/s][A

                                                                                                                                                  [A
  9%|█████████▎                                                                                               | 891/10000 [00:55<08:47, 17.28it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[28560] loss: 0.049 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 754.00it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 743.67it/s][A
  9%|█████████▍                                                                                               | 893/10000 [00:55<08:44, 17.37it/s]
                                                                                                                                                  [A
  9%|█████████▍                                                                                               | 893/10000 [00:55<08:44, 17.37it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[28580] loss: 0.060 


                                                                                                                                                  
  9%|█████████▍                                                                                               | 893/10000 [00:55<08:44, 17.37it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 601.55it/s][A


[28600] loss: 0.065 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 618.81it/s][A

                                                                                                                                                  [A
  9%|█████████▍                                                                                               | 893/10000 [00:55<08:44, 17.37it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[28620] loss: 0.070 


                                                                                                                                                  
  9%|█████████▍                                                                                               | 893/10000 [00:55<08:44, 17.37it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 570.70it/s][A


[28640] loss: 0.050 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 917.39it/s][A
  9%|█████████▍                                                                                               | 895/10000 [00:55<09:03, 16.76it/s]
                                                                                                                                                  [A
  9%|█████████▍                                                                                               | 895/10000 [00:55<09:03, 16.76it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 787.24it/s][A

[28660] loss: 0.082 




Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1559.22it/s][A

                                                                                                                                                  [A
  9%|█████████▍                                                                                               | 895/10000 [00:55<09:03, 16.76it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[28680] loss: 0.028 


                                                                                                                                                  
  9%|█████████▍                                                                                               | 895/10000 [00:55<09:03, 16.76it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 617.95it/s][A


[28700] loss: 0.048 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 760.53it/s][A
  9%|█████████▍                                                                                               | 897/10000 [00:55<08:44, 17.35it/s]
                                                                                                                                                  [A
  9%|█████████▍                                                                                               | 897/10000 [00:55<08:44, 17.35it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 781.63it/s][A


[28720] loss: 0.034 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 784.57it/s][A

                                                                                                                                                  [A
  9%|█████████▍                                                                                               | 897/10000 [00:55<08:44, 17.35it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[28740] loss: 0.063 


                                                                                                                                                  
  9%|█████████▍                                                                                               | 897/10000 [00:55<08:44, 17.35it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 628.50it/s][A


[28760] loss: 0.022 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 670.02it/s][A
  9%|█████████▍                                                                                               | 899/10000 [00:55<08:35, 17.66it/s]
                                                                                                                                                  [A
  9%|█████████▍                                                                                               | 899/10000 [00:55<08:35, 17.66it/s]
                                                                                                                                                  [A
  9%|█████████▍                                                                                               | 899/10000 [00:55<08:35, 17.66it/s]

[28780] loss: 0.048 
[28800] loss: 0.075 



Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 712.03it/s][A

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 307.52it/s][A

                                                                                                                                                  [A
  9%|█████████▍                                                                                               | 899/10000 [00:55<08:35, 17.66it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 794.47it/s][A


[28820] loss: 0.056 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 714.17it/s][A
  9%|█████████▍                                                                                               | 901/10000 [00:55<08:22, 18.10it/s]
                                                                                                                                                  [A
  9%|█████████▍                                                                                               | 901/10000 [00:55<08:22, 18.10it/s]
                                                                                                                                                  [A

[28840] loss: 0.053 



  9%|█████████▍                                                                                               | 901/10000 [00:56<08:22, 18.10it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 635.56it/s][A


[28860] loss: 0.092 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1198.72it/s][A

                                                                                                                                                  [A
  9%|█████████▍                                                                                               | 901/10000 [00:56<08:22, 18.10it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 729.78it/s][A


[28880] loss: 0.026 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 796.34it/s][A
  9%|█████████▍                                                                                               | 903/10000 [00:56<08:25, 17.99it/s]
                                                                                                                                                  [A
  9%|█████████▍                                                                                               | 903/10000 [00:56<08:25, 17.99it/s]
                                                                                                                                                  [A
  9%|█████████▍                                                                                               | 903/10000 [00:56<08:25, 17.99it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[28900] loss: 0.072 
[28920] loss: 0.074 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1456.36it/s][A

                                                                                                                                                  [A
  9%|█████████▍                                                                                               | 903/10000 [00:56<08:25, 17.99it/s]
                                                                                                                                                  [A
  9%|█████████▍                                                                                               | 903/10000 [00:56<08:25, 17.99it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 678.27it/s][A


[28940] loss: 0.058 
[28960] loss: 0.084 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2340.57it/s][A
  9%|█████████▌                                                                                               | 905/10000 [00:56<08:22, 18.09it/s]
                                                                                                                                                  [A
  9%|█████████▌                                                                                               | 905/10000 [00:56<08:22, 18.09it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 793.34it/s][A


[28980] loss: 0.045 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 596.04it/s][A

                                                                                                                                                  [A
  9%|█████████▌                                                                                               | 905/10000 [00:56<08:22, 18.09it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[29000] loss: 0.051 


                                                                                                                                                  
  9%|█████████▌                                                                                               | 905/10000 [00:56<08:22, 18.09it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 725.65it/s][A


[29020] loss: 0.082 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 892.79it/s][A

                                                                                                                                                  [A
  9%|█████████▌                                                                                               | 905/10000 [00:56<08:22, 18.09it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 843.12it/s][A


[29040] loss: 0.047 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2012.62it/s][A
  9%|█████████▌                                                                                               | 908/10000 [00:56<07:57, 19.04it/s]
                                                                                                                                                  [A
  9%|█████████▌                                                                                               | 908/10000 [00:56<07:57, 19.04it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[29060] loss: 0.062 


                                                                                                                                                  
  9%|█████████▌                                                                                               | 908/10000 [00:56<07:57, 19.04it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 578.60it/s][A


[29080] loss: 0.067 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 641.04it/s][A

                                                                                                                                                  [A
  9%|█████████▌                                                                                               | 908/10000 [00:56<07:57, 19.04it/s]

[29100] loss: 0.074 



                                                                                                                                                  [A
  9%|█████████▌                                                                                               | 908/10000 [00:56<07:57, 19.04it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[29120] loss: 0.041 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 589.26it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1599.66it/s][A
  9%|█████████▌                                                                                               | 910/10000 [00:56<08:24, 18.02it/s]
                                                                                                                                                  [A
  9%|█████████▌                                                                                               | 910/10000 [00:56<08:24, 18.02it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 862.98it/s][A


[29140] loss: 0.067 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2063.11it/s][A

                                                                                                                                                  [A
  9%|█████████▌                                                                                               | 910/10000 [00:56<08:24, 18.02it/s]
                                                                                                                                                  [A

[29160] loss: 0.040 



  9%|█████████▌                                                                                               | 910/10000 [00:56<08:24, 18.02it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 643.01it/s][A


[29180] loss: 0.042 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1514.19it/s][A
  9%|█████████▌                                                                                               | 912/10000 [00:56<08:10, 18.53it/s]
                                                                                                                                                  [A
  9%|█████████▌                                                                                               | 912/10000 [00:56<08:10, 18.53it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 762.04it/s][A


[29200] loss: 0.064 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 564.43it/s][A

                                                                                                                                                  [A
  9%|█████████▌                                                                                               | 912/10000 [00:56<08:10, 18.53it/s]
                                                                                                                                                  [A
  9%|█████████▌                                                                                               | 912/10000 [00:56<08:10, 18.53it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[29220] loss: 0.061 
[29240] loss: 0.055 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 646.42it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1277.97it/s][A
  9%|█████████▌                                                                                               | 914/10000 [00:56<08:13, 18.43it/s]
                                                                                                                                                  [A
  9%|█████████▌                                                                                               | 914/10000 [00:56<08:13, 18.43it/s]
                                                                                                                                                  [A

[29260] loss: 0.043 



  9%|█████████▌                                                                                               | 914/10000 [00:56<08:13, 18.43it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 617.64it/s][A


[29280] loss: 0.035 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1363.11it/s][A

                                                                                                                                                  [A
  9%|█████████▌                                                                                               | 914/10000 [00:56<08:13, 18.43it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 704.37it/s][A


[29300] loss: 0.054 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 603.41it/s][A
  9%|█████████▌                                                                                               | 916/10000 [00:56<08:24, 18.02it/s]
                                                                                                                                                  [A
  9%|█████████▌                                                                                               | 916/10000 [00:56<08:24, 18.02it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[29320] loss: 0.054 


                                                                                                                                                  
  9%|█████████▌                                                                                               | 916/10000 [00:56<08:24, 18.02it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 583.36it/s][A


[29340] loss: 0.041 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1358.70it/s][A

                                                                                                                                                  [A
  9%|█████████▌                                                                                               | 916/10000 [00:56<08:24, 18.02it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[29360] loss: 0.051 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 722.82it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 842.06it/s][A
  9%|█████████▋                                                                                               | 918/10000 [00:56<08:34, 17.67it/s]
                                                                                                                                                  [A
  9%|█████████▋                                                                                               | 918/10000 [00:56<08:34, 17.67it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[29380] loss: 0.040 


                                                                                                                                                  
  9%|█████████▋                                                                                               | 918/10000 [00:56<08:34, 17.67it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[29400] loss: 0.065 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 546.53it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 920.61it/s][A

                                                                                                                                                  [A
  9%|█████████▋                                                                                               | 918/10000 [00:56<08:34, 17.67it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[29420] loss: 0.062 


                                                                                                                                                  
  9%|█████████▋                                                                                               | 918/10000 [00:57<08:34, 17.67it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 572.20it/s][A


[29440] loss: 0.122 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1293.74it/s][A
  9%|█████████▋                                                                                               | 920/10000 [00:57<09:00, 16.79it/s]
                                                                                                                                                  [A
  9%|█████████▋                                                                                               | 920/10000 [00:57<09:00, 16.79it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[29460] loss: 0.061 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 676.43it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1060.51it/s][A

                                                                                                                                                  [A
  9%|█████████▋                                                                                               | 920/10000 [00:57<09:00, 16.79it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[29480] loss: 0.051 


                                                                                                                                                  
  9%|█████████▋                                                                                               | 920/10000 [00:57<09:00, 16.79it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[29500] loss: 0.054 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 575.45it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 959.14it/s][A
  9%|█████████▋                                                                                               | 922/10000 [00:57<09:03, 16.71it/s]
                                                                                                                                                  [A
  9%|█████████▋                                                                                               | 922/10000 [00:57<09:03, 16.71it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[29520] loss: 0.074 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 664.84it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 870.55it/s][A

                                                                                                                                                  [A
  9%|█████████▋                                                                                               | 922/10000 [00:57<09:03, 16.71it/s]
                                                                                                                                                  [A
  9%|█████████▋                                                                                               | 922/10000 [00:57<09:03, 16.71it/s]
Training Epoch:   0%|                                                                                      

[29540] loss: 0.058 
[29560] loss: 0.065 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 552.48it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1105.80it/s][A
  9%|█████████▋                                                                                               | 924/10000 [00:57<09:12, 16.44it/s]
                                                                                                                                                  [A
  9%|█████████▋                                                                                               | 924/10000 [00:57<09:12, 16.44it/s]


[29580] loss: 0.061 


                                                                                                                                                  [A
  9%|█████████▋                                                                                               | 924/10000 [00:57<09:12, 16.44it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 644.02it/s][A


[29600] loss: 0.124 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 577.49it/s][A

                                                                                                                                                  [A
  9%|█████████▋                                                                                               | 924/10000 [00:57<09:12, 16.44it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[29620] loss: 0.075 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 675.80it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 846.65it/s][A
  9%|█████████▋                                                                                               | 926/10000 [00:57<09:02, 16.74it/s]
                                                                                                                                                  [A
  9%|█████████▋                                                                                               | 926/10000 [00:57<09:02, 16.74it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[29640] loss: 0.060 


                                                                                                                                                  
  9%|█████████▋                                                                                               | 926/10000 [00:57<09:02, 16.74it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 634.01it/s][A


[29660] loss: 0.075 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1031.30it/s][A

                                                                                                                                                  [A
  9%|█████████▋                                                                                               | 926/10000 [00:57<09:02, 16.74it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 791.08it/s][A


[29680] loss: 0.051 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 690.99it/s][A
  9%|█████████▋                                                                                               | 928/10000 [00:57<08:48, 17.16it/s]
                                                                                                                                                  [A
  9%|█████████▋                                                                                               | 928/10000 [00:57<08:48, 17.16it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[29700] loss: 0.056 


                                                                                                                                                  
  9%|█████████▋                                                                                               | 928/10000 [00:57<08:48, 17.16it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[29720] loss: 0.054 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 520.93it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1550.00it/s][A

                                                                                                                                                  [A
  9%|█████████▋                                                                                               | 928/10000 [00:57<08:48, 17.16it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[29740] loss: 0.045 


                                                                                                                                                  
  9%|█████████▋                                                                                               | 928/10000 [00:57<08:48, 17.16it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 574.67it/s][A


[29760] loss: 0.048 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1031.56it/s][A
  9%|█████████▊                                                                                               | 930/10000 [00:57<09:19, 16.21it/s]
                                                                                                                                                  [A
[A                                                                                                                                               

[29780] loss: 0.051 


  9%|█████████▊                                                                                               | 930/10000 [00:57<09:19, 16.21it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 603.52it/s][A

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 908.25it/s][A

                                                                                                                                                  [A
[A                                                                                                                                               

[29800] loss: 0.061 

  9%|█████████▊                                                                                               | 930/10000 [00:57<09:19, 16.21it/s]
                                                                                                                                                  [A
  9%|█████████▊                                                                                               | 930/10000 [00:57<09:19, 16.21it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 635.95it/s][A



[29820] loss: 0.039 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1068.88it/s][A
  9%|█████████▊                                                                                               | 932/10000 [00:57<09:14, 16.35it/s]
                                                                                                                                                  [A
  9%|█████████▊                                                                                               | 932/10000 [00:57<09:14, 16.35it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[29840] loss: 0.046 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 756.92it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1164.76it/s][A

                                                                                                                                                  [A
  9%|█████████▊                                                                                               | 932/10000 [00:57<09:14, 16.35it/s]

[29860] loss: 0.035 



                                                                                                                                                  [A
  9%|█████████▊                                                                                               | 932/10000 [00:57<09:14, 16.35it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 606.07it/s][A


[29880] loss: 0.047 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1093.41it/s][A
  9%|█████████▊                                                                                               | 934/10000 [00:57<09:04, 16.65it/s]
                                                                                                                                                  [A
  9%|█████████▊                                                                                               | 934/10000 [00:57<09:04, 16.65it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[29900] loss: 0.047 


                                                                                                                                                  
  9%|█████████▊                                                                                               | 934/10000 [00:57<09:04, 16.65it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 586.85it/s][A


[29920] loss: 0.065 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1032.83it/s][A

                                                                                                                                                  [A
  9%|█████████▊                                                                                               | 934/10000 [00:57<09:04, 16.65it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 790.78it/s][A


[29940] loss: 0.063 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 382.31it/s][A
  9%|█████████▊                                                                                               | 936/10000 [00:57<08:58, 16.84it/s]
                                                                                                                                                  [A
  9%|█████████▊                                                                                               | 936/10000 [00:58<08:58, 16.84it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[29960] loss: 0.066 


                                                                                                                                                  
  9%|█████████▊                                                                                               | 936/10000 [00:58<08:58, 16.84it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 698.74it/s][A


[29980] loss: 0.078 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1018.28it/s][A

                                                                                                                                                  [A
  9%|█████████▊                                                                                               | 936/10000 [00:58<08:58, 16.84it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 805.82it/s][A


[30000] loss: 0.055 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1217.86it/s][A
  9%|█████████▊                                                                                               | 938/10000 [00:58<08:33, 17.65it/s]
                                                                                                                                                  [A
  9%|█████████▊                                                                                               | 938/10000 [00:58<08:33, 17.65it/s]
                                                                                                                                                  [A

[30020] loss: 0.063 



  9%|█████████▊                                                                                               | 938/10000 [00:58<08:33, 17.65it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 660.40it/s][A


[30040] loss: 0.053 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1825.20it/s][A

                                                                                                                                                  [A
  9%|█████████▊                                                                                               | 938/10000 [00:58<08:33, 17.65it/s]
                                                                                                                                                  [A
  9%|█████████▊                                                                                               | 938/10000 [00:58<08:33, 17.65it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 701.12it/s][A


[30060] loss: 0.052 
[30080] loss: 0.130 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 850.08it/s][A
  9%|█████████▊                                                                                               | 940/10000 [00:58<08:27, 17.85it/s]
                                                                                                                                                  [A
  9%|█████████▊                                                                                               | 940/10000 [00:58<08:27, 17.85it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[30100] loss: 0.036 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 790.00it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1580.37it/s][A

                                                                                                                                                  [A
  9%|█████████▊                                                                                               | 940/10000 [00:58<08:27, 17.85it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[30120] loss: 0.115 


                                                                                                                                                  
  9%|█████████▊                                                                                               | 940/10000 [00:58<08:27, 17.85it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 739.80it/s][A


[30140] loss: 0.060 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1111.37it/s][A

                                                                                                                                                  [A
  9%|█████████▊                                                                                               | 940/10000 [00:58<08:27, 17.85it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[30160] loss: 0.104 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 908.55it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1038.71it/s][A
  9%|█████████▉                                                                                               | 943/10000 [00:58<07:56, 19.01it/s]
                                                                                                                                                  [A
  9%|█████████▉                                                                                               | 943/10000 [00:58<07:56, 19.01it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[30180] loss: 0.052 


                                                                                                                                                  
  9%|█████████▉                                                                                               | 943/10000 [00:58<07:56, 19.01it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 621.98it/s][A


[30200] loss: 0.074 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1104.64it/s][A

                                                                                                                                                  [A
  9%|█████████▉                                                                                               | 943/10000 [00:58<07:56, 19.01it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[30220] loss: 0.033 


                                                                                                                                                  
  9%|█████████▉                                                                                               | 943/10000 [00:58<07:56, 19.01it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 678.89it/s][A


[30240] loss: 0.080 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 349.35it/s][A
  9%|█████████▉                                                                                               | 945/10000 [00:58<08:12, 18.37it/s]
                                                                                                                                                  [A
  9%|█████████▉                                                                                               | 945/10000 [00:58<08:12, 18.37it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 720.41it/s][A


[30260] loss: 0.064 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 752.61it/s][A

                                                                                                                                                  [A
  9%|█████████▉                                                                                               | 945/10000 [00:58<08:12, 18.37it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[30280] loss: 0.059 


                                                                                                                                                  
  9%|█████████▉                                                                                               | 945/10000 [00:58<08:12, 18.37it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 577.77it/s][A


[30300] loss: 0.055 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1276.03it/s][A
  9%|█████████▉                                                                                               | 947/10000 [00:58<08:23, 17.98it/s]
                                                                                                                                                  [A
  9%|█████████▉                                                                                               | 947/10000 [00:58<08:23, 17.98it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 730.52it/s][A

[30320] loss: 0.054 




Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1143.49it/s][A

                                                                                                                                                  [A
  9%|█████████▉                                                                                               | 947/10000 [00:58<08:23, 17.98it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[30340] loss: 0.076 


                                                                                                                                                  
  9%|█████████▉                                                                                               | 947/10000 [00:58<08:23, 17.98it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 706.42it/s][A


[30360] loss: 0.068 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2175.47it/s][A
  9%|█████████▉                                                                                               | 949/10000 [00:58<08:14, 18.31it/s]
                                                                                                                                                  [A
  9%|█████████▉                                                                                               | 949/10000 [00:58<08:14, 18.31it/s]
                                                                                                                                                  [A
  9%|█████████▉                                                                                               | 949/10000 [00:58<08:14, 18.31it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[30380] loss: 0.051 
[30400] loss: 0.099 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1369.79it/s][A

                                                                                                                                                  [A
  9%|█████████▉                                                                                               | 949/10000 [00:58<08:14, 18.31it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 768.40it/s][A


[30420] loss: 0.033 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 728.56it/s][A
 10%|█████████▉                                                                                               | 951/10000 [00:58<08:06, 18.60it/s]
                                                                                                                                                  [A
 10%|█████████▉                                                                                               | 951/10000 [00:58<08:06, 18.60it/s]
                                                                                                                                                  [A
 10%|█████████▉                                                                                               | 951/10000 [00:58<08:06, 18.60it/s]
Training Epoch:   0%|                                                                                       

[30440] loss: 0.040 
[30460] loss: 0.061 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 620.55it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1459.40it/s][A

                                                                                                                                                  [A
 10%|█████████▉                                                                                               | 951/10000 [00:58<08:06, 18.60it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 699.36it/s][A


[30480] loss: 0.068 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 559.76it/s][A
 10%|██████████                                                                                               | 953/10000 [00:58<08:16, 18.24it/s]
                                                                                                                                                  [A
 10%|██████████                                                                                               | 953/10000 [00:58<08:16, 18.24it/s]
                                                                                                                                                  [A
 10%|██████████                                                                                               | 953/10000 [00:58<08:16, 18.24it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[30500] loss: 0.055 
[30520] loss: 0.074 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 763.85it/s][A

                                                                                                                                                  [A
 10%|██████████                                                                                               | 953/10000 [00:58<08:16, 18.24it/s]
                                                                                                                                                  [A

[30540] loss: 0.074 



 10%|██████████                                                                                               | 953/10000 [00:59<08:16, 18.24it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 659.82it/s][A


[30560] loss: 0.086 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1342.61it/s][A
 10%|██████████                                                                                               | 955/10000 [00:59<08:23, 17.98it/s]
                                                                                                                                                  [A
 10%|██████████                                                                                               | 955/10000 [00:59<08:23, 17.98it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 819.48it/s][A


[30580] loss: 0.040 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2349.75it/s][A

                                                                                                                                                  [A
 10%|██████████                                                                                               | 955/10000 [00:59<08:23, 17.98it/s]
                                                                                                                                                  [A
 10%|██████████                                                                                               | 955/10000 [00:59<08:23, 17.98it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[30600] loss: 0.049 
[30620] loss: 0.102 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 634.57it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1350.82it/s][A
 10%|██████████                                                                                               | 957/10000 [00:59<08:14, 18.28it/s]
                                                                                                                                                  [A
 10%|██████████                                                                                               | 957/10000 [00:59<08:14, 18.28it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 775.65it/s][A


[30640] loss: 0.015 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1986.88it/s][A

                                                                                                                                                  [A
 10%|██████████                                                                                               | 957/10000 [00:59<08:14, 18.28it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[30660] loss: 0.050 


                                                                                                                                                  
 10%|██████████                                                                                               | 957/10000 [00:59<08:14, 18.28it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 652.41it/s][A


[30680] loss: 0.042 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1190.21it/s][A
 10%|██████████                                                                                               | 959/10000 [00:59<08:12, 18.35it/s]
                                                                                                                                                  [A
 10%|██████████                                                                                               | 959/10000 [00:59<08:12, 18.35it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[30700] loss: 0.053 


                                                                                                                                                  
 10%|██████████                                                                                               | 959/10000 [00:59<08:12, 18.35it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 613.08it/s][A


[30720] loss: 0.044 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1451.32it/s][A

                                                                                                                                                  [A
 10%|██████████                                                                                               | 959/10000 [00:59<08:12, 18.35it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 664.16it/s][A


[30740] loss: 0.034 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1081.01it/s][A
 10%|██████████                                                                                               | 961/10000 [00:59<08:22, 17.99it/s]
                                                                                                                                                  [A
 10%|██████████                                                                                               | 961/10000 [00:59<08:22, 17.99it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[30760] loss: 0.066 


                                                                                                                                                  
 10%|██████████                                                                                               | 961/10000 [00:59<08:22, 17.99it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 631.14it/s][A


[30780] loss: 0.065 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 824.51it/s][A

                                                                                                                                                  [A
 10%|██████████                                                                                               | 961/10000 [00:59<08:22, 17.99it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 709.71it/s][A

[30800] loss: 0.044 




Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 750.32it/s][A
 10%|██████████                                                                                               | 963/10000 [00:59<08:26, 17.84it/s]
                                                                                                                                                  [A
 10%|██████████                                                                                               | 963/10000 [00:59<08:26, 17.84it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[30820] loss: 0.067 


                                                                                                                                                  
 10%|██████████                                                                                               | 963/10000 [00:59<08:26, 17.84it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 627.80it/s][A


[30840] loss: 0.074 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 727.42it/s][A

                                                                                                                                                  [A
 10%|██████████                                                                                               | 963/10000 [00:59<08:26, 17.84it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[30860] loss: 0.066 


                                                                                                                                                  
 10%|██████████                                                                                               | 963/10000 [00:59<08:26, 17.84it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 636.60it/s][A


[30880] loss: 0.055 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1015.57it/s][A
 10%|██████████▏                                                                                              | 965/10000 [00:59<08:37, 17.45it/s]
                                                                                                                                                  [A
 10%|██████████▏                                                                                              | 965/10000 [00:59<08:37, 17.45it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 773.17it/s][A


[30900] loss: 0.048 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 582.22it/s][A

                                                                                                                                                  [A
 10%|██████████▏                                                                                              | 965/10000 [00:59<08:37, 17.45it/s]
                                                                                                                                                  [A

[30920] loss: 0.050 



 10%|██████████▏                                                                                              | 965/10000 [00:59<08:37, 17.45it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 685.87it/s][A


[30940] loss: 0.067 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1300.56it/s][A
 10%|██████████▏                                                                                              | 967/10000 [00:59<08:26, 17.82it/s]
                                                                                                                                                  [A
 10%|██████████▏                                                                                              | 967/10000 [00:59<08:26, 17.82it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 830.38it/s][A


[30960] loss: 0.062 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 674.65it/s][A

                                                                                                                                                  [A
 10%|██████████▏                                                                                              | 967/10000 [00:59<08:26, 17.82it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[30980] loss: 0.049 


                                                                                                                                                  
 10%|██████████▏                                                                                              | 967/10000 [00:59<08:26, 17.82it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 602.29it/s][A


[31000] loss: 0.118 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 631.58it/s][A
 10%|██████████▏                                                                                              | 969/10000 [00:59<08:29, 17.74it/s]
                                                                                                                                                  [A
 10%|██████████▏                                                                                              | 969/10000 [00:59<08:29, 17.74it/s]
                                                                                                                                                  [A
[A                                                                                                                                               

[31020] loss: 0.077 
[31040] loss: 0.013 


 10%|██████████▏                                                                                              | 969/10000 [00:59<08:29, 17.74it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 701.00it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1535.81it/s][A

                                                                                                                                                  [A
 10%|██████████▏                                                                                              | 969/10000 [00:59<08:29, 17.74it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 757.95it/s][A


[31060] loss: 0.054 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1245.71it/s][A
 10%|██████████▏                                                                                              | 971/10000 [00:59<08:21, 18.02it/s]
                                                                                                                                                  [A
 10%|██████████▏                                                                                              | 971/10000 [00:59<08:21, 18.02it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[31080] loss: 0.056 


                                                                                                                                                  
 10%|██████████▏                                                                                              | 971/10000 [00:59<08:21, 18.02it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 603.28it/s][A


[31100] loss: 0.080 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 889.19it/s][A

                                                                                                                                                  [A
 10%|██████████▏                                                                                              | 971/10000 [00:59<08:21, 18.02it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 766.92it/s][A


[31120] loss: 0.053 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 639.67it/s][A
 10%|██████████▏                                                                                              | 973/10000 [01:00<08:26, 17.82it/s]
                                                                                                                                                  [A
 10%|██████████▏                                                                                              | 973/10000 [01:00<08:26, 17.82it/s]
                                                                                                                                                  [A
 10%|██████████▏                                                                                              | 973/10000 [01:00<08:26, 17.82it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[31140] loss: 0.057 
[31160] loss: 0.044 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1342.18it/s][A

                                                                                                                                                  [A
 10%|██████████▏                                                                                              | 973/10000 [01:00<08:26, 17.82it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[31180] loss: 0.055 


                                                                                                                                                  
 10%|██████████▏                                                                                              | 973/10000 [01:00<08:26, 17.82it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 622.15it/s][A


[31200] loss: 0.040 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 347.82it/s][A
 10%|██████████▏                                                                                              | 975/10000 [01:00<08:47, 17.12it/s]
                                                                                                                                                  [A
 10%|██████████▏                                                                                              | 975/10000 [01:00<08:47, 17.12it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 849.96it/s][A


[31220] loss: 0.095 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2219.21it/s][A

                                                                                                                                                  [A
 10%|██████████▏                                                                                              | 975/10000 [01:00<08:47, 17.12it/s]
                                                                                                                                                  [A
 10%|██████████▏                                                                                              | 975/10000 [01:00<08:47, 17.12it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[31240] loss: 0.049 
[31260] loss: 0.103 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 706.82it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1407.01it/s][A

                                                                                                                                                  [A
 10%|██████████▏                                                                                              | 975/10000 [01:00<08:47, 17.12it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 795.31it/s][A


[31280] loss: 0.036 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 621.93it/s][A
 10%|██████████▎                                                                                              | 978/10000 [01:00<08:09, 18.43it/s]
                                                                                                                                                  [A
 10%|██████████▎                                                                                              | 978/10000 [01:00<08:09, 18.43it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[31300] loss: 0.052 


                                                                                                                                                  
 10%|██████████▎                                                                                              | 978/10000 [01:00<08:09, 18.43it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[31320] loss: 0.069 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 678.96it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1459.40it/s][A

                                                                                                                                                  [A
 10%|██████████▎                                                                                              | 978/10000 [01:00<08:09, 18.43it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[31340] loss: 0.047 


                                                                                                                                                  
 10%|██████████▎                                                                                              | 978/10000 [01:00<08:09, 18.43it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 689.02it/s][A


[31360] loss: 0.031 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 764.83it/s][A
 10%|██████████▎                                                                                              | 980/10000 [01:00<08:09, 18.43it/s]
                                                                                                                                                  [A
 10%|██████████▎                                                                                              | 980/10000 [01:00<08:09, 18.43it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 732.93it/s][A


[31380] loss: 0.032 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 642.51it/s][A

                                                                                                                                                  [A
 10%|██████████▎                                                                                              | 980/10000 [01:00<08:09, 18.43it/s]


[31400] loss: 0.058 


                                                                                                                                                  [A
 10%|██████████▎                                                                                              | 980/10000 [01:00<08:09, 18.43it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[31420] loss: 0.043 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 631.92it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1437.39it/s][A
 10%|██████████▎                                                                                              | 982/10000 [01:00<08:12, 18.32it/s]
                                                                                                                                                  [A
 10%|██████████▎                                                                                              | 982/10000 [01:00<08:12, 18.32it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 759.99it/s][A


[31440] loss: 0.076 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 727.55it/s][A

                                                                                                                                                  [A
 10%|██████████▎                                                                                              | 982/10000 [01:00<08:12, 18.32it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[31460] loss: 0.075 


                                                                                                                                                  
 10%|██████████▎                                                                                              | 982/10000 [01:00<08:12, 18.32it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 634.11it/s][A


[31480] loss: 0.054 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1365.33it/s][A
 10%|██████████▎                                                                                              | 984/10000 [01:00<08:12, 18.31it/s]
                                                                                                                                                  [A
 10%|██████████▎                                                                                              | 984/10000 [01:00<08:12, 18.31it/s]
                                                                                                                                                  [A
 10%|██████████▎                                                                                              | 984/10000 [01:00<08:12, 18.31it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[31500] loss: 0.056 
[31520] loss: 0.072 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2128.01it/s][A

                                                                                                                                                  [A
 10%|██████████▎                                                                                              | 984/10000 [01:00<08:12, 18.31it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[31540] loss: 0.046 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 978.62it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2186.81it/s][A

                                                                                                                                                  [A
 10%|██████████▎                                                                                              | 984/10000 [01:00<08:12, 18.31it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[31560] loss: 0.054 


                                                                                                                                                  
 10%|██████████▎                                                                                              | 984/10000 [01:00<08:12, 18.31it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 740.84it/s][A


[31580] loss: 0.062 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1334.07it/s][A
 10%|██████████▎                                                                                              | 987/10000 [01:00<07:43, 19.43it/s]
                                                                                                                                                  [A
 10%|██████████▎                                                                                              | 987/10000 [01:00<07:43, 19.43it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[31600] loss: 0.068 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 784.61it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2235.77it/s][A

                                                                                                                                                  [A
 10%|██████████▎                                                                                              | 987/10000 [01:00<07:43, 19.43it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[31620] loss: 0.045 


                                                                                                                                                  
 10%|██████████▎                                                                                              | 987/10000 [01:00<07:43, 19.43it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 652.79it/s][A


[31640] loss: 0.044 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2404.99it/s][A
 10%|██████████▍                                                                                              | 989/10000 [01:00<07:42, 19.48it/s]
                                                                                                                                                  [A
 10%|██████████▍                                                                                              | 989/10000 [01:00<07:42, 19.48it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[31660] loss: 0.055 


                                                                                                                                                  
 10%|██████████▍                                                                                              | 989/10000 [01:00<07:42, 19.48it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 724.64it/s][A


[31680] loss: 0.055 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 997.69it/s][A

                                                                                                                                                  [A
 10%|██████████▍                                                                                              | 989/10000 [01:00<07:42, 19.48it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[31700] loss: 0.050 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 769.94it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1678.39it/s][A

                                                                                                                                                  [A
 10%|██████████▍                                                                                              | 989/10000 [01:00<07:42, 19.48it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[31720] loss: 0.049 


                                                                                                                                                  
 10%|██████████▍                                                                                              | 989/10000 [01:01<07:42, 19.48it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 768.39it/s][A


[31740] loss: 0.064 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1469.11it/s][A
 10%|██████████▍                                                                                              | 992/10000 [01:01<07:35, 19.79it/s]
                                                                                                                                                  [A
 10%|██████████▍                                                                                              | 992/10000 [01:01<07:35, 19.79it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[31760] loss: 0.057 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 797.55it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 981.12it/s][A

                                                                                                                                                  [A
 10%|██████████▍                                                                                              | 992/10000 [01:01<07:35, 19.79it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[31780] loss: 0.054 


                                                                                                                                                  
 10%|██████████▍                                                                                              | 992/10000 [01:01<07:35, 19.79it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[31800] loss: 0.040 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 631.02it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1470.14it/s][A
 10%|██████████▍                                                                                              | 994/10000 [01:01<07:41, 19.50it/s]
                                                                                                                                                  [A
 10%|██████████▍                                                                                              | 994/10000 [01:01<07:41, 19.50it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[31820] loss: 0.053 


                                                                                                                                                  
 10%|██████████▍                                                                                              | 994/10000 [01:01<07:41, 19.50it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 683.65it/s][A


[31840] loss: 0.059 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1455.85it/s][A

                                                                                                                                                  [A
 10%|██████████▍                                                                                              | 994/10000 [01:01<07:41, 19.50it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 778.52it/s][A


[31860] loss: 0.087 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 592.25it/s][A
 10%|██████████▍                                                                                              | 996/10000 [01:01<07:43, 19.42it/s]
                                                                                                                                                  [A
 10%|██████████▍                                                                                              | 996/10000 [01:01<07:43, 19.42it/s]
                                                                                                                                                  [A
[A                                                                                                                                               

[31880] loss: 0.052 
[31900] loss: 0.092 


 10%|██████████▍                                                                                              | 996/10000 [01:01<07:43, 19.42it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 579.49it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1432.48it/s][A

                                                                                                                                                  [A
 10%|██████████▍                                                                                              | 996/10000 [01:01<07:43, 19.42it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 678.80it/s][A


[31920] loss: 0.063 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2091.92it/s][A
 10%|██████████▍                                                                                              | 998/10000 [01:01<08:03, 18.63it/s]
                                                                                                                                                  [A
 10%|██████████▍                                                                                              | 998/10000 [01:01<08:03, 18.63it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[31940] loss: 0.050 


                                                                                                                                                  
 10%|██████████▍                                                                                              | 998/10000 [01:01<08:03, 18.63it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 632.94it/s][A


[31960] loss: 0.030 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 597.39it/s][A

                                                                                                                                                  [A
 10%|██████████▍                                                                                              | 998/10000 [01:01<08:03, 18.63it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[31980] loss: 0.051 


                                                                                                                                                  
 10%|██████████▍                                                                                              | 998/10000 [01:01<08:03, 18.63it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 632.36it/s][A


[32000] loss: 0.077 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1176.19it/s][A
 10%|██████████▍                                                                                             | 1000/10000 [01:01<08:18, 18.07it/s]
                                                                                                                                                  [A
 10%|██████████▍                                                                                             | 1000/10000 [01:01<08:18, 18.07it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 733.04it/s][A


[32020] loss: 0.045 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1818.87it/s][A

                                                                                                                                                  [A
 10%|██████████▍                                                                                             | 1000/10000 [01:01<08:18, 18.07it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[32040] loss: 0.051 


                                                                                                                                                  
 10%|██████████▍                                                                                             | 1000/10000 [01:01<08:18, 18.07it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 586.39it/s][A


[32060] loss: 0.057 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 702.68it/s][A
 10%|██████████▍                                                                                             | 1002/10000 [01:01<08:25, 17.81it/s]
                                                                                                                                                  [A
 10%|██████████▍                                                                                             | 1002/10000 [01:01<08:25, 17.81it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 775.84it/s][A

[32080] loss: 0.051 




Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1259.55it/s][A

                                                                                                                                                  [A
 10%|██████████▍                                                                                             | 1002/10000 [01:01<08:25, 17.81it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[32100] loss: 0.058 


                                                                                                                                                  
 10%|██████████▍                                                                                             | 1002/10000 [01:01<08:25, 17.81it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 637.16it/s][A


[32120] loss: 0.038 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 831.71it/s][A
 10%|██████████▍                                                                                             | 1004/10000 [01:01<08:22, 17.90it/s]
                                                                                                                                                  [A
 10%|██████████▍                                                                                             | 1004/10000 [01:01<08:22, 17.90it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[32140] loss: 0.039 


                                                                                                                                                  
 10%|██████████▍                                                                                             | 1004/10000 [01:01<08:22, 17.90it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 670.04it/s][A


[32160] loss: 0.041 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1119.38it/s][A

                                                                                                                                                  [A
 10%|██████████▍                                                                                             | 1004/10000 [01:01<08:22, 17.90it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 725.55it/s][A


[32180] loss: 0.063 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 643.10it/s][A
 10%|██████████▍                                                                                             | 1006/10000 [01:01<08:21, 17.92it/s]
                                                                                                                                                  [A
 10%|██████████▍                                                                                             | 1006/10000 [01:01<08:21, 17.92it/s]
                                                                                                                                                  [A

[32200] loss: 0.045 



 10%|██████████▍                                                                                             | 1006/10000 [01:01<08:21, 17.92it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 616.69it/s][A


[32220] loss: 0.056 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1300.16it/s][A

                                                                                                                                                  [A
 10%|██████████▍                                                                                             | 1006/10000 [01:01<08:21, 17.92it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[32240] loss: 0.053 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 708.39it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1790.14it/s][A
 10%|██████████▍                                                                                             | 1008/10000 [01:01<08:28, 17.68it/s]
                                                                                                                                                  [A
 10%|██████████▍                                                                                             | 1008/10000 [01:01<08:28, 17.68it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[32260] loss: 0.047 


                                                                                                                                                  
 10%|██████████▍                                                                                             | 1008/10000 [01:01<08:28, 17.68it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 660.28it/s][A


[32280] loss: 0.048 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1154.18it/s][A

                                                                                                                                                  [A
 10%|██████████▍                                                                                             | 1008/10000 [01:02<08:28, 17.68it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[32300] loss: 0.075 


                                                                                                                                                  
 10%|██████████▍                                                                                             | 1008/10000 [01:02<08:28, 17.68it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 607.12it/s][A


[32320] loss: 0.031 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 457.54it/s][A
 10%|██████████▌                                                                                             | 1010/10000 [01:02<08:40, 17.27it/s]
                                                                                                                                                  [A
 10%|██████████▌                                                                                             | 1010/10000 [01:02<08:40, 17.27it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 729.38it/s][A


[32340] loss: 0.055 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1078.23it/s][A

                                                                                                                                                  [A
 10%|██████████▌                                                                                             | 1010/10000 [01:02<08:40, 17.27it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[32360] loss: 0.045 


                                                                                                                                                  
 10%|██████████▌                                                                                             | 1010/10000 [01:02<08:40, 17.27it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 623.35it/s][A


[32380] loss: 0.060 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1075.19it/s][A
 10%|██████████▌                                                                                             | 1012/10000 [01:02<08:40, 17.27it/s]
                                                                                                                                                  [A
 10%|██████████▌                                                                                             | 1012/10000 [01:02<08:40, 17.27it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[32400] loss: 0.039 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 661.74it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1903.91it/s][A

                                                                                                                                                  [A
 10%|██████████▌                                                                                             | 1012/10000 [01:02<08:40, 17.27it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[32420] loss: 0.059 


                                                                                                                                                  
 10%|██████████▌                                                                                             | 1012/10000 [01:02<08:40, 17.27it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[32440] loss: 0.042 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 573.85it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 857.38it/s][A
 10%|██████████▌                                                                                             | 1014/10000 [01:02<08:49, 16.96it/s]
                                                                                                                                                  [A
 10%|██████████▌                                                                                             | 1014/10000 [01:02<08:49, 16.96it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[32460] loss: 0.026 


                                                                                                                                                  
 10%|██████████▌                                                                                             | 1014/10000 [01:02<08:49, 16.96it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 630.76it/s][A


[32480] loss: 0.082 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1450.31it/s][A

                                                                                                                                                  [A
 10%|██████████▌                                                                                             | 1014/10000 [01:02<08:49, 16.96it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[32500] loss: 0.049 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 705.18it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1215.04it/s][A
 10%|██████████▌                                                                                             | 1016/10000 [01:02<08:42, 17.20it/s]
                                                                                                                                                  [A
 10%|██████████▌                                                                                             | 1016/10000 [01:02<08:42, 17.20it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[32520] loss: 0.061 


                                                                                                                                                  
 10%|██████████▌                                                                                             | 1016/10000 [01:02<08:42, 17.20it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 605.20it/s][A


[32540] loss: 0.092 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 729.44it/s][A

                                                                                                                                                  [A
 10%|██████████▌                                                                                             | 1016/10000 [01:02<08:42, 17.20it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[32560] loss: 0.033 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 635.18it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1257.29it/s][A
 10%|██████████▌                                                                                             | 1018/10000 [01:02<08:49, 16.95it/s]
                                                                                                                                                  [A
 10%|██████████▌                                                                                             | 1018/10000 [01:02<08:49, 16.95it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[32580] loss: 0.068 


                                                                                                                                                  
 10%|██████████▌                                                                                             | 1018/10000 [01:02<08:49, 16.95it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 686.08it/s][A


[32600] loss: 0.072 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 747.65it/s][A

                                                                                                                                                  [A
 10%|██████████▌                                                                                             | 1018/10000 [01:02<08:49, 16.95it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[32620] loss: 0.070 


                                                                                                                                                  
 10%|██████████▌                                                                                             | 1018/10000 [01:02<08:49, 16.95it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 577.34it/s][A


[32640] loss: 0.057 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1368.90it/s][A
 10%|██████████▌                                                                                             | 1020/10000 [01:02<08:52, 16.86it/s]
                                                                                                                                                  [A
 10%|██████████▌                                                                                             | 1020/10000 [01:02<08:52, 16.86it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[32660] loss: 0.038 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 699.52it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1556.91it/s][A

                                                                                                                                                  [A
 10%|██████████▌                                                                                             | 1020/10000 [01:02<08:52, 16.86it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[32680] loss: 0.024 


                                                                                                                                                  
 10%|██████████▌                                                                                             | 1020/10000 [01:02<08:52, 16.86it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 581.25it/s][A


[32700] loss: 0.051 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1328.57it/s][A
 10%|██████████▋                                                                                             | 1022/10000 [01:02<08:50, 16.93it/s]
                                                                                                                                                  [A
 10%|██████████▋                                                                                             | 1022/10000 [01:02<08:50, 16.93it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[32720] loss: 0.042 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 707.94it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 746.18it/s][A

                                                                                                                                                  [A
 10%|██████████▋                                                                                             | 1022/10000 [01:02<08:50, 16.93it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[32740] loss: 0.058 


                                                                                                                                                  
 10%|██████████▋                                                                                             | 1022/10000 [01:02<08:50, 16.93it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[32760] loss: 0.051 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 556.50it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1427.12it/s][A
 10%|██████████▋                                                                                             | 1024/10000 [01:02<08:54, 16.81it/s]
                                                                                                                                                  [A
 10%|██████████▋                                                                                             | 1024/10000 [01:02<08:54, 16.81it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[32780] loss: 0.047 


                                                                                                                                                  
 10%|██████████▋                                                                                             | 1024/10000 [01:02<08:54, 16.81it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 589.40it/s][A


[32800] loss: 0.041 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1425.18it/s][A

                                                                                                                                                  [A
 10%|██████████▋                                                                                             | 1024/10000 [01:02<08:54, 16.81it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[32820] loss: 0.082 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 791.50it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1150.70it/s][A
 10%|██████████▋                                                                                             | 1026/10000 [01:02<08:43, 17.15it/s]
                                                                                                                                                  [A
 10%|██████████▋                                                                                             | 1026/10000 [01:02<08:43, 17.15it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[32840] loss: 0.062 


                                                                                                                                                  
 10%|██████████▋                                                                                             | 1026/10000 [01:03<08:43, 17.15it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 686.58it/s][A


[32860] loss: 0.044 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1493.17it/s][A

                                                                                                                                                  [A
 10%|██████████▋                                                                                             | 1026/10000 [01:03<08:43, 17.15it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 778.20it/s][A


[32880] loss: 0.071 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1103.47it/s][A
 10%|██████████▋                                                                                             | 1028/10000 [01:03<08:22, 17.84it/s]
                                                                                                                                                  [A
 10%|██████████▋                                                                                             | 1028/10000 [01:03<08:22, 17.84it/s]
                                                                                                                                                  [A
 10%|██████████▋                                                                                             | 1028/10000 [01:03<08:22, 17.84it/s]


[32900] loss: 0.037 
[32920] loss: 0.081 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 612.02it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1422.76it/s][A

                                                                                                                                                  [A
 10%|██████████▋                                                                                             | 1028/10000 [01:03<08:22, 17.84it/s]
                                                                                                                                                  [A
[A                                                                                                                                               

[32940] loss: 0.059 


 10%|██████████▋                                                                                             | 1028/10000 [01:03<08:22, 17.84it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 637.61it/s][A


[32960] loss: 0.072 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1151.65it/s][A
 10%|██████████▋                                                                                             | 1030/10000 [01:03<08:35, 17.39it/s]
                                                                                                                                                  [A
 10%|██████████▋                                                                                             | 1030/10000 [01:03<08:35, 17.39it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 719.57it/s][A


[32980] loss: 0.053 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1325.63it/s][A

                                                                                                                                                  [A
 10%|██████████▋                                                                                             | 1030/10000 [01:03<08:35, 17.39it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[33000] loss: 0.055 


                                                                                                                                                  
 10%|██████████▋                                                                                             | 1030/10000 [01:03<08:35, 17.39it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 597.35it/s][A


[33020] loss: 0.076 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 275.74it/s][A
 10%|██████████▋                                                                                             | 1032/10000 [01:03<08:43, 17.12it/s]
                                                                                                                                                  [A
 10%|██████████▋                                                                                             | 1032/10000 [01:03<08:43, 17.12it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[33040] loss: 0.048 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 804.27it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1869.12it/s][A

                                                                                                                                                  [A
 10%|██████████▋                                                                                             | 1032/10000 [01:03<08:43, 17.12it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[33060] loss: 0.037 


                                                                                                                                                  
 10%|██████████▋                                                                                             | 1032/10000 [01:03<08:43, 17.12it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 678.85it/s][A


[33080] loss: 0.043 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 815.06it/s][A
 10%|██████████▊                                                                                             | 1034/10000 [01:03<08:28, 17.63it/s]
                                                                                                                                                  [A
 10%|██████████▊                                                                                             | 1034/10000 [01:03<08:28, 17.63it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[33100] loss: 0.029 


                                                                                                                                                  
 10%|██████████▊                                                                                             | 1034/10000 [01:03<08:28, 17.63it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 622.02it/s][A


[33120] loss: 0.131 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 718.69it/s][A

                                                                                                                                                  [A
 10%|██████████▊                                                                                             | 1034/10000 [01:03<08:28, 17.63it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 777.35it/s][A


[33140] loss: 0.049 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 770.30it/s][A
 10%|██████████▊                                                                                             | 1036/10000 [01:03<08:27, 17.67it/s]
                                                                                                                                                  [A
 10%|██████████▊                                                                                             | 1036/10000 [01:03<08:27, 17.67it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[33160] loss: 0.048 


                                                                                                                                                  
 10%|██████████▊                                                                                             | 1036/10000 [01:03<08:27, 17.67it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 569.58it/s][A


[33180] loss: 0.070 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1428.09it/s][A

                                                                                                                                                  [A
 10%|██████████▊                                                                                             | 1036/10000 [01:03<08:27, 17.67it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[33200] loss: 0.055 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 719.30it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2172.09it/s][A
 10%|██████████▊                                                                                             | 1038/10000 [01:03<08:34, 17.41it/s]
                                                                                                                                                  [A
 10%|██████████▊                                                                                             | 1038/10000 [01:03<08:34, 17.41it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[33220] loss: 0.077 


                                                                                                                                                  
 10%|██████████▊                                                                                             | 1038/10000 [01:03<08:34, 17.41it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 733.41it/s][A


[33240] loss: 0.032 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1356.94it/s][A

                                                                                                                                                  [A
 10%|██████████▊                                                                                             | 1038/10000 [01:03<08:34, 17.41it/s]
                                                                                                                                                  [A
 10%|██████████▊                                                                                             | 1038/10000 [01:03<08:34, 17.41it/s]


[33260] loss: 0.054 
[33280] loss: 0.004 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 705.71it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2136.68it/s][A
 10%|██████████▊                                                                                             | 1040/10000 [01:03<08:19, 17.93it/s]
                                                                                                                                                  [A
 10%|██████████▊                                                                                             | 1040/10000 [01:03<08:19, 17.93it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[33300] loss: 0.054 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 852.22it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2179.99it/s][A

                                                                                                                                                  [A
 10%|██████████▊                                                                                             | 1040/10000 [01:03<08:19, 17.93it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[33320] loss: 0.059 


                                                                                                                                                  
 10%|██████████▊                                                                                             | 1040/10000 [01:03<08:19, 17.93it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 702.92it/s][A


[33340] loss: 0.060 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1339.61it/s][A

                                                                                                                                                  [A
 10%|██████████▊                                                                                             | 1040/10000 [01:03<08:19, 17.93it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[33360] loss: 0.048 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 772.40it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 868.39it/s][A
 10%|██████████▊                                                                                             | 1043/10000 [01:03<07:56, 18.80it/s]
                                                                                                                                                  [A
 10%|██████████▊                                                                                             | 1043/10000 [01:03<07:56, 18.80it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[33380] loss: 0.067 


                                                                                                                                                  
 10%|██████████▊                                                                                             | 1043/10000 [01:03<07:56, 18.80it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 701.12it/s][A


[33400] loss: 0.083 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1433.46it/s][A

                                                                                                                                                  [A
 10%|██████████▊                                                                                             | 1043/10000 [01:03<07:56, 18.80it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[33420] loss: 0.044 


                                                                                                                                                  
 10%|██████████▊                                                                                             | 1043/10000 [01:04<07:56, 18.80it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 796.20it/s][A


[33440] loss: 0.033 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 695.80it/s][A
 10%|██████████▊                                                                                             | 1045/10000 [01:04<07:50, 19.03it/s]
                                                                                                                                                  [A
 10%|██████████▊                                                                                             | 1045/10000 [01:04<07:50, 19.03it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 1036.38it/s][A


[33460] loss: 0.068 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2250.16it/s][A

                                                                                                                                                  [A
 10%|██████████▊                                                                                             | 1045/10000 [01:04<07:50, 19.03it/s]
                                                                                                                                                  [A
 10%|██████████▊                                                                                             | 1045/10000 [01:04<07:50, 19.03it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[33480] loss: 0.030 
[33500] loss: 0.053 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 982.72it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2360.33it/s][A

                                                                                                                                                  [A
 10%|██████████▊                                                                                             | 1045/10000 [01:04<07:50, 19.03it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[33520] loss: 0.053 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 866.78it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2313.46it/s][A
 10%|██████████▉                                                                                             | 1048/10000 [01:04<07:04, 21.10it/s]
                                                                                                                                                  [A
 10%|██████████▉                                                                                             | 1048/10000 [01:04<07:04, 21.10it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[33540] loss: 0.057 


                                                                                                                                                  
 10%|██████████▉                                                                                             | 1048/10000 [01:04<07:04, 21.10it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 670.77it/s][A


[33560] loss: 0.068 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 975.42it/s][A

                                                                                                                                                  [A
 10%|██████████▉                                                                                             | 1048/10000 [01:04<07:04, 21.10it/s]


[33580] loss: 0.048 


                                                                                                                                                  [A
 10%|██████████▉                                                                                             | 1048/10000 [01:04<07:04, 21.10it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[33600] loss: 0.053 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 715.69it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1748.36it/s][A

                                                                                                                                                  [A
 10%|██████████▉                                                                                             | 1048/10000 [01:04<07:04, 21.10it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 764.36it/s][A


[33620] loss: 0.054 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 557.31it/s][A
 11%|██████████▉                                                                                             | 1051/10000 [01:04<07:24, 20.15it/s]
                                                                                                                                                  [A
 11%|██████████▉                                                                                             | 1051/10000 [01:04<07:24, 20.15it/s]
                                                                                                                                                  [A
 11%|██████████▉                                                                                             | 1051/10000 [01:04<07:24, 20.15it/s]
Training Epoch:   0%|                                                                                       

[33640] loss: 0.039 
[33660] loss: 0.054 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 684.22it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1386.09it/s][A

                                                                                                                                                  [A
 11%|██████████▉                                                                                             | 1051/10000 [01:04<07:24, 20.15it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 655.23it/s][A


[33680] loss: 0.093 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1092.84it/s][A

                                                                                                                                                  [A
 11%|██████████▉                                                                                             | 1051/10000 [01:04<07:24, 20.15it/s]
                                                                                                                                                  [A

[33700] loss: 0.043 



 11%|██████████▉                                                                                             | 1051/10000 [01:04<07:24, 20.15it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 798.66it/s][A


[33720] loss: 0.059 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2065.14it/s][A
 11%|██████████▉                                                                                             | 1054/10000 [01:04<07:32, 19.76it/s]
                                                                                                                                                  [A
 11%|██████████▉                                                                                             | 1054/10000 [01:04<07:32, 19.76it/s]
                                                                                                                                                  [A
 11%|██████████▉                                                                                             | 1054/10000 [01:04<07:32, 19.76it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[33740] loss: 0.032 
[33760] loss: 0.035 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1995.39it/s][A

                                                                                                                                                  [A
 11%|██████████▉                                                                                             | 1054/10000 [01:04<07:32, 19.76it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 769.50it/s][A


[33780] loss: 0.088 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2072.28it/s][A

                                                                                                                                                  [A
 11%|██████████▉                                                                                             | 1054/10000 [01:04<07:32, 19.76it/s]
                                                                                                                                                  [A

[33800] loss: 0.052 



 11%|██████████▉                                                                                             | 1054/10000 [01:04<07:32, 19.76it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 751.65it/s][A


[33820] loss: 0.047 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 737.01it/s][A
 11%|██████████▉                                                                                             | 1057/10000 [01:04<07:27, 19.99it/s]
                                                                                                                                                  [A
 11%|██████████▉                                                                                             | 1057/10000 [01:04<07:27, 19.99it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[33840] loss: 0.054 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 736.40it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 689.74it/s][A

                                                                                                                                                  [A
 11%|██████████▉                                                                                             | 1057/10000 [01:04<07:27, 19.99it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[33860] loss: 0.031 


                                                                                                                                                  
 11%|██████████▉                                                                                             | 1057/10000 [01:04<07:27, 19.99it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 610.77it/s][A


[33880] loss: 0.066 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 713.68it/s][A

                                                                                                                                                  [A
 11%|██████████▉                                                                                             | 1057/10000 [01:04<07:27, 19.99it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[33900] loss: 0.064 


                                                                                                                                                  
 11%|██████████▉                                                                                             | 1057/10000 [01:04<07:27, 19.99it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 588.76it/s][A


[33920] loss: 0.049 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 226.23it/s][A
 11%|███████████                                                                                             | 1060/10000 [01:04<08:00, 18.61it/s]
                                                                                                                                                  [A
 11%|███████████                                                                                             | 1060/10000 [01:04<08:00, 18.61it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[33940] loss: 0.047 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 691.27it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1009.46it/s][A

                                                                                                                                                  [A
 11%|███████████                                                                                             | 1060/10000 [01:04<08:00, 18.61it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[33960] loss: 0.047 


                                                                                                                                                  
 11%|███████████                                                                                             | 1060/10000 [01:04<08:00, 18.61it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[33980] loss: 0.073 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 610.46it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1277.58it/s][A
 11%|███████████                                                                                             | 1062/10000 [01:04<08:10, 18.20it/s]
                                                                                                                                                  [A
 11%|███████████                                                                                             | 1062/10000 [01:04<08:10, 18.20it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[34000] loss: 0.033 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 669.40it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2328.88it/s][A

                                                                                                                                                  [A
 11%|███████████                                                                                             | 1062/10000 [01:04<08:10, 18.20it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[34020] loss: 0.066 


                                                                                                                                                  
 11%|███████████                                                                                             | 1062/10000 [01:05<08:10, 18.20it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 587.44it/s][A

[34040] loss: 0.037 




Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1153.87it/s][A
 11%|███████████                                                                                             | 1064/10000 [01:05<08:22, 17.78it/s]
                                                                                                                                                  [A
 11%|███████████                                                                                             | 1064/10000 [01:05<08:22, 17.78it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[34060] loss: 0.045 


                                                                                                                                                  
 11%|███████████                                                                                             | 1064/10000 [01:05<08:22, 17.78it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 620.73it/s][A


[34080] loss: 0.274 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1336.19it/s][A

                                                                                                                                                  [A
 11%|███████████                                                                                             | 1064/10000 [01:05<08:22, 17.78it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 790.27it/s][A


[34100] loss: 0.065 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 697.89it/s][A
 11%|███████████                                                                                             | 1066/10000 [01:05<08:19, 17.89it/s]
                                                                                                                                                  [A
 11%|███████████                                                                                             | 1066/10000 [01:05<08:19, 17.89it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[34120] loss: 0.040 


                                                                                                                                                  
 11%|███████████                                                                                             | 1066/10000 [01:05<08:19, 17.89it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 608.36it/s][A


[34140] loss: 0.066 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1085.76it/s][A

                                                                                                                                                  [A
 11%|███████████                                                                                             | 1066/10000 [01:05<08:19, 17.89it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 726.46it/s][A


[34160] loss: 0.044 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1271.00it/s][A
 11%|███████████                                                                                             | 1068/10000 [01:05<08:26, 17.62it/s]
                                                                                                                                                  [A
 11%|███████████                                                                                             | 1068/10000 [01:05<08:26, 17.62it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[34180] loss: 0.052 


                                                                                                                                                  
 11%|███████████                                                                                             | 1068/10000 [01:05<08:26, 17.62it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 611.92it/s][A


[34200] loss: 0.057 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 670.02it/s][A

                                                                                                                                                  [A
 11%|███████████                                                                                             | 1068/10000 [01:05<08:26, 17.62it/s]
                                                                                                                                                  [A
 11%|███████████                                                                                             | 1068/10000 [01:05<08:26, 17.62it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[34220] loss: 0.050 
[34240] loss: 0.054 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 826.52it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 312.26it/s][A
 11%|███████████▏                                                                                            | 1070/10000 [01:05<08:23, 17.75it/s]
                                                                                                                                                  [A
 11%|███████████▏                                                                                            | 1070/10000 [01:05<08:23, 17.75it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 822.90it/s][A


[34260] loss: 0.029 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1326.89it/s][A

                                                                                                                                                  [A
 11%|███████████▏                                                                                            | 1070/10000 [01:05<08:23, 17.75it/s]


[34280] loss: 0.056 


                                                                                                                                                  [A
 11%|███████████▏                                                                                            | 1070/10000 [01:05<08:23, 17.75it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 741.16it/s][A


[34300] loss: 0.077 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 672.60it/s][A

                                                                                                                                                  [A
 11%|███████████▏                                                                                            | 1070/10000 [01:05<08:23, 17.75it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[34320] loss: 0.064 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 704.19it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1386.55it/s][A
 11%|███████████▏                                                                                            | 1073/10000 [01:05<08:03, 18.48it/s]
                                                                                                                                                  [A
 11%|███████████▏                                                                                            | 1073/10000 [01:05<08:03, 18.48it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[34340] loss: 0.039 


                                                                                                                                                  
 11%|███████████▏                                                                                            | 1073/10000 [01:05<08:03, 18.48it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 635.35it/s][A


[34360] loss: 0.102 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 945.30it/s][A

                                                                                                                                                  [A
 11%|███████████▏                                                                                            | 1073/10000 [01:05<08:03, 18.48it/s]
                                                                                                                                                  [A


[34380] loss: 0.032 


 11%|███████████▏                                                                                            | 1073/10000 [01:05<08:03, 18.48it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 637.87it/s][A


[34400] loss: 0.164 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 519.68it/s][A
 11%|███████████▏                                                                                            | 1075/10000 [01:05<08:14, 18.03it/s]
                                                                                                                                                  [A
 11%|███████████▏                                                                                            | 1075/10000 [01:05<08:14, 18.03it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 707.10it/s][A


[34420] loss: 0.050 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1603.94it/s][A

                                                                                                                                                  [A
 11%|███████████▏                                                                                            | 1075/10000 [01:05<08:14, 18.03it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[34440] loss: 0.081 


                                                                                                                                                  
 11%|███████████▏                                                                                            | 1075/10000 [01:05<08:14, 18.03it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 558.72it/s][A


[34460] loss: 0.052 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1776.49it/s][A
 11%|███████████▏                                                                                            | 1077/10000 [01:05<08:27, 17.59it/s]
                                                                                                                                                  [A
 11%|███████████▏                                                                                            | 1077/10000 [01:05<08:27, 17.59it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[34480] loss: 0.114 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 653.46it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1113.43it/s][A

                                                                                                                                                  [A
 11%|███████████▏                                                                                            | 1077/10000 [01:05<08:27, 17.59it/s]
                                                                                                                                                  [A
 11%|███████████▏                                                                                            | 1077/10000 [01:05<08:27, 17.59it/s]
Training Epoch:   0%|                                                                                      

[34500] loss: 0.065 
[34520] loss: 0.046 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 555.19it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1327.31it/s][A
 11%|███████████▏                                                                                            | 1079/10000 [01:05<08:46, 16.93it/s]
                                                                                                                                                  [A
 11%|███████████▏                                                                                            | 1079/10000 [01:05<08:46, 16.93it/s]
                                                                                                                                                  [A
 11%|███████████▏                                                                                           

[34540] loss: 0.037 
[34560] loss: 0.040 



Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 609.26it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1203.88it/s][A

                                                                                                                                                  [A
 11%|███████████▏                                                                                            | 1079/10000 [01:05<08:46, 16.93it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[34580] loss: 0.038 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 785.56it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 915.39it/s][A
 11%|███████████▏                                                                                            | 1081/10000 [01:05<08:44, 17.02it/s]
                                                                                                                                                  [A
 11%|███████████▏                                                                                            | 1081/10000 [01:06<08:44, 17.02it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[34600] loss: 0.071 


                                                                                                                                                  
 11%|███████████▏                                                                                            | 1081/10000 [01:06<08:44, 17.02it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 564.46it/s][A


[34620] loss: 0.063 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1247.93it/s][A

                                                                                                                                                  [A
 11%|███████████▏                                                                                            | 1081/10000 [01:06<08:44, 17.02it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[34640] loss: 0.066 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 681.59it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 900.26it/s][A
 11%|███████████▎                                                                                            | 1083/10000 [01:06<08:55, 16.66it/s]
                                                                                                                                                  [A
 11%|███████████▎                                                                                            | 1083/10000 [01:06<08:55, 16.66it/s]
                                                                                                                                                  [A
 11%|███████████▎                                                                                           

[34660] loss: 0.059 
[34680] loss: 0.070 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 580.80it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 930.00it/s][A

                                                                                                                                                  [A
 11%|███████████▎                                                                                            | 1083/10000 [01:06<08:55, 16.66it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[34700] loss: 0.029 


                                                                                                                                                  
 11%|███████████▎                                                                                            | 1083/10000 [01:06<08:55, 16.66it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 635.59it/s][A


[34720] loss: 0.077 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1859.18it/s][A
 11%|███████████▎                                                                                            | 1085/10000 [01:06<09:00, 16.51it/s]
                                                                                                                                                  [A
 11%|███████████▎                                                                                            | 1085/10000 [01:06<09:00, 16.51it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[34740] loss: 0.045 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 632.52it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1859.18it/s][A

                                                                                                                                                  [A
 11%|███████████▎                                                                                            | 1085/10000 [01:06<09:00, 16.51it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[34760] loss: 0.046 


                                                                                                                                                  
 11%|███████████▎                                                                                            | 1085/10000 [01:06<09:00, 16.51it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 602.80it/s][A


[34780] loss: 0.074 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1290.95it/s][A
 11%|███████████▎                                                                                            | 1087/10000 [01:06<09:01, 16.47it/s]
                                                                                                                                                  [A
 11%|███████████▎                                                                                            | 1087/10000 [01:06<09:01, 16.47it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[34800] loss: 0.051 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 665.59it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1817.29it/s][A

                                                                                                                                                  [A
 11%|███████████▎                                                                                            | 1087/10000 [01:06<09:01, 16.47it/s]


[34820] loss: 0.064 


                                                                                                                                                  [A
 11%|███████████▎                                                                                            | 1087/10000 [01:06<09:01, 16.47it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[34840] loss: 0.085 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 526.74it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1839.61it/s][A
 11%|███████████▎                                                                                            | 1089/10000 [01:06<09:10, 16.18it/s]
                                                                                                                                                  [A
 11%|███████████▎                                                                                            | 1089/10000 [01:06<09:10, 16.18it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[34860] loss: 0.040 


                                                                                                                                                  
 11%|███████████▎                                                                                            | 1089/10000 [01:06<09:10, 16.18it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[34880] loss: 0.073 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 605.16it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1250.91it/s][A

                                                                                                                                                  [A
 11%|███████████▎                                                                                            | 1089/10000 [01:06<09:10, 16.18it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[34900] loss: 0.058 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 602.04it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1481.56it/s][A
 11%|███████████▎                                                                                            | 1091/10000 [01:06<09:09, 16.20it/s]
                                                                                                                                                  [A
 11%|███████████▎                                                                                            | 1091/10000 [01:06<09:09, 16.20it/s]

[34920] loss: 0.073 



                                                                                                                                                  [A
 11%|███████████▎                                                                                            | 1091/10000 [01:06<09:09, 16.20it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[34940] loss: 0.079 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 580.78it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1217.15it/s][A

                                                                                                                                                  [A
 11%|███████████▎                                                                                            | 1091/10000 [01:06<09:09, 16.20it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[34960] loss: 0.048 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 746.94it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 796.79it/s][A
 11%|███████████▎                                                                                            | 1093/10000 [01:06<09:05, 16.34it/s]
                                                                                                                                                  [A
 11%|███████████▎                                                                                            | 1093/10000 [01:06<09:05, 16.34it/s]
                                                                                                                                                  [A
 11%|███████████▎                                                                                           

[34980] loss: 0.056 
[35000] loss: 0.105 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1821.23it/s][A

                                                                                                                                                  [A
 11%|███████████▎                                                                                            | 1093/10000 [01:06<09:05, 16.34it/s]
                                                                                                                                                  [A
 11%|███████████▎                                                                                            | 1093/10000 [01:06<09:05, 16.34it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 746.60it/s][A

[35020] loss: 0.036 
[35040] loss: 0.043 




Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1962.71it/s][A
 11%|███████████▍                                                                                            | 1095/10000 [01:06<08:41, 17.09it/s]
                                                                                                                                                  [A
 11%|███████████▍                                                                                            | 1095/10000 [01:06<08:41, 17.09it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[35060] loss: 0.091 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 937.85it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 879.12it/s][A

                                                                                                                                                  [A
 11%|███████████▍                                                                                            | 1095/10000 [01:06<08:41, 17.09it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[35080] loss: 0.048 


                                                                                                                                                  
 11%|███████████▍                                                                                            | 1095/10000 [01:06<08:41, 17.09it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 660.04it/s][A


[35100] loss: 0.074 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1332.37it/s][A
 11%|███████████▍                                                                                            | 1097/10000 [01:06<08:19, 17.81it/s]
                                                                                                                                                  [A
 11%|███████████▍                                                                                            | 1097/10000 [01:06<08:19, 17.81it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 711.13it/s][A


[35120] loss: 0.043 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1356.50it/s][A

                                                                                                                                                  [A
 11%|███████████▍                                                                                            | 1097/10000 [01:07<08:19, 17.81it/s]
                                                                                                                                                  [A
 11%|███████████▍                                                                                            | 1097/10000 [01:07<08:19, 17.81it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 648.64it/s][A


[35140] loss: 0.061 
[35160] loss: 0.028 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 631.86it/s][A
 11%|███████████▍                                                                                            | 1099/10000 [01:07<08:25, 17.60it/s]
                                                                                                                                                  [A
 11%|███████████▍                                                                                            | 1099/10000 [01:07<08:25, 17.60it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[35180] loss: 0.053 


                                                                                                                                                  
 11%|███████████▍                                                                                            | 1099/10000 [01:07<08:25, 17.60it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 575.74it/s][A


[35200] loss: 0.140 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 875.09it/s][A

                                                                                                                                                  [A
 11%|███████████▍                                                                                            | 1099/10000 [01:07<08:25, 17.60it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[35220] loss: 0.063 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 723.24it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2155.35it/s][A
 11%|███████████▍                                                                                            | 1101/10000 [01:07<08:31, 17.39it/s]
                                                                                                                                                  [A
 11%|███████████▍                                                                                            | 1101/10000 [01:07<08:31, 17.39it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[35240] loss: 0.040 


                                                                                                                                                  
 11%|███████████▍                                                                                            | 1101/10000 [01:07<08:31, 17.39it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 622.21it/s][A


[35260] loss: 0.097 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1635.21it/s][A

                                                                                                                                                  [A
 11%|███████████▍                                                                                            | 1101/10000 [01:07<08:31, 17.39it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[35280] loss: 0.064 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 668.93it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 910.62it/s][A
 11%|███████████▍                                                                                            | 1103/10000 [01:07<08:36, 17.23it/s]
                                                                                                                                                  [A
 11%|███████████▍                                                                                            | 1103/10000 [01:07<08:36, 17.23it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[35300] loss: 0.055 


                                                                                                                                                  
 11%|███████████▍                                                                                            | 1103/10000 [01:07<08:36, 17.23it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 620.69it/s][A


[35320] loss: 0.080 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 422.22it/s][A

                                                                                                                                                  [A
 11%|███████████▍                                                                                            | 1103/10000 [01:07<08:36, 17.23it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[35340] loss: 0.045 


                                                                                                                                                  
 11%|███████████▍                                                                                            | 1103/10000 [01:07<08:36, 17.23it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 618.76it/s][A


[35360] loss: 0.079 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 774.86it/s][A
 11%|███████████▍                                                                                            | 1105/10000 [01:07<08:51, 16.74it/s]
                                                                                                                                                  [A
 11%|███████████▍                                                                                            | 1105/10000 [01:07<08:51, 16.74it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[35380] loss: 0.059 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 765.32it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1397.17it/s][A

                                                                                                                                                  [A
 11%|███████████▍                                                                                            | 1105/10000 [01:07<08:51, 16.74it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[35400] loss: 0.070 


                                                                                                                                                  
 11%|███████████▍                                                                                            | 1105/10000 [01:07<08:51, 16.74it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 676.18it/s][A


[35420] loss: 0.044 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1444.82it/s][A
 11%|███████████▌                                                                                            | 1107/10000 [01:07<08:32, 17.35it/s]
                                                                                                                                                  [A
 11%|███████████▌                                                                                            | 1107/10000 [01:07<08:32, 17.35it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 704.02it/s][A


[35440] loss: 0.048 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1450.31it/s][A

                                                                                                                                                  [A
 11%|███████████▌                                                                                            | 1107/10000 [01:07<08:32, 17.35it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[35460] loss: 0.058 


                                                                                                                                                  
 11%|███████████▌                                                                                            | 1107/10000 [01:07<08:32, 17.35it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 617.36it/s][A


[35480] loss: 0.055 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 632.24it/s][A
 11%|███████████▌                                                                                            | 1109/10000 [01:07<08:30, 17.41it/s]
                                                                                                                                                  [A
 11%|███████████▌                                                                                            | 1109/10000 [01:07<08:30, 17.41it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[35500] loss: 0.038 


                                                                                                                                                  
 11%|███████████▌                                                                                            | 1109/10000 [01:07<08:30, 17.41it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 629.13it/s][A


[35520] loss: 0.099 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 991.09it/s][A

                                                                                                                                                  [A
 11%|███████████▌                                                                                            | 1109/10000 [01:07<08:30, 17.41it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[35540] loss: 0.070 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 612.99it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1031.05it/s][A
 11%|███████████▌                                                                                            | 1111/10000 [01:07<08:46, 16.88it/s]
                                                                                                                                                  [A
 11%|███████████▌                                                                                            | 1111/10000 [01:07<08:46, 16.88it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[35560] loss: 0.072 


                                                                                                                                                  
 11%|███████████▌                                                                                            | 1111/10000 [01:07<08:46, 16.88it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[35580] loss: 0.034 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 581.78it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 939.16it/s][A

                                                                                                                                                  [A
 11%|███████████▌                                                                                            | 1111/10000 [01:07<08:46, 16.88it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[35600] loss: 0.078 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 829.48it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1263.73it/s][A
 11%|███████████▌                                                                                            | 1113/10000 [01:07<08:41, 17.03it/s]
                                                                                                                                                  [A
 11%|███████████▌                                                                                            | 1113/10000 [01:07<08:41, 17.03it/s]
                                                                                                                                                  [A
 11%|███████████▌                                                                                           

[35620] loss: 0.060 
[35640] loss: 0.040 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 621.01it/s][A

                                                                                                                                                  [A
 11%|███████████▌                                                                                            | 1113/10000 [01:07<08:41, 17.03it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[35660] loss: 0.050 


                                                                                                                                                  
 11%|███████████▌                                                                                            | 1113/10000 [01:08<08:41, 17.03it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 623.71it/s][A


[35680] loss: 0.056 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 242.25it/s][A
 11%|███████████▌                                                                                            | 1115/10000 [01:08<08:58, 16.50it/s]
                                                                                                                                                  [A
 11%|███████████▌                                                                                            | 1115/10000 [01:08<08:58, 16.50it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 740.81it/s][A


[35700] loss: 0.067 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 801.82it/s][A

                                                                                                                                                  [A
 11%|███████████▌                                                                                            | 1115/10000 [01:08<08:58, 16.50it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[35720] loss: 0.045 


                                                                                                                                                  
 11%|███████████▌                                                                                            | 1115/10000 [01:08<08:58, 16.50it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 593.67it/s][A


[35740] loss: 0.034 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1556.91it/s][A
 11%|███████████▌                                                                                            | 1117/10000 [01:08<08:53, 16.66it/s]
                                                                                                                                                  [A
 11%|███████████▌                                                                                            | 1117/10000 [01:08<08:53, 16.66it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[35760] loss: 0.050 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 747.20it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1082.40it/s][A

                                                                                                                                                  [A
 11%|███████████▌                                                                                            | 1117/10000 [01:08<08:53, 16.66it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[35780] loss: 0.050 


                                                                                                                                                  
 11%|███████████▌                                                                                            | 1117/10000 [01:08<08:53, 16.66it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 602.55it/s][A


[35800] loss: 0.064 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 784.86it/s][A
 11%|███████████▋                                                                                            | 1119/10000 [01:08<08:47, 16.84it/s]
                                                                                                                                                  [A
 11%|███████████▋                                                                                            | 1119/10000 [01:08<08:47, 16.84it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[35820] loss: 0.065 


                                                                                                                                                  
 11%|███████████▋                                                                                            | 1119/10000 [01:08<08:47, 16.84it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 635.44it/s][A


[35840] loss: 0.041 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 797.40it/s][A

                                                                                                                                                  [A
 11%|███████████▋                                                                                            | 1119/10000 [01:08<08:47, 16.84it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 711.38it/s][A

[35860] loss: 0.040 




Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1040.77it/s][A
 11%|███████████▋                                                                                            | 1121/10000 [01:08<08:41, 17.02it/s]
                                                                                                                                                  [A
 11%|███████████▋                                                                                            | 1121/10000 [01:08<08:41, 17.02it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[35880] loss: 0.071 


                                                                                                                                                  
 11%|███████████▋                                                                                            | 1121/10000 [01:08<08:41, 17.02it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 569.50it/s][A


[35900] loss: 0.086 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1384.26it/s][A

                                                                                                                                                  [A
 11%|███████████▋                                                                                            | 1121/10000 [01:08<08:41, 17.02it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[35920] loss: 0.067 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 722.58it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 722.28it/s][A
 11%|███████████▋                                                                                            | 1123/10000 [01:08<08:43, 16.96it/s]
                                                                                                                                                  [A
 11%|███████████▋                                                                                            | 1123/10000 [01:08<08:43, 16.96it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[35940] loss: 0.061 


                                                                                                                                                  
 11%|███████████▋                                                                                            | 1123/10000 [01:08<08:43, 16.96it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[35960] loss: 0.054 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 621.11it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 900.45it/s][A

                                                                                                                                                  [A
 11%|███████████▋                                                                                            | 1123/10000 [01:08<08:43, 16.96it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[35980] loss: 0.037 


                                                                                                                                                  
 11%|███████████▋                                                                                            | 1123/10000 [01:08<08:43, 16.96it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 610.61it/s][A


[36000] loss: 0.117 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1111.07it/s][A
 11%|███████████▋                                                                                            | 1125/10000 [01:08<08:50, 16.72it/s]
                                                                                                                                                  [A
 11%|███████████▋                                                                                            | 1125/10000 [01:08<08:50, 16.72it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[36020] loss: 0.059 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 686.46it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1345.62it/s][A

                                                                                                                                                  [A
 11%|███████████▋                                                                                            | 1125/10000 [01:08<08:50, 16.72it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[36040] loss: 0.082 


                                                                                                                                                  
 11%|███████████▋                                                                                            | 1125/10000 [01:08<08:50, 16.72it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 572.79it/s][A


[36060] loss: 0.039 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1388.84it/s][A
 11%|███████████▋                                                                                            | 1127/10000 [01:08<08:51, 16.68it/s]
                                                                                                                                                  [A
 11%|███████████▋                                                                                            | 1127/10000 [01:08<08:51, 16.68it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[36080] loss: 0.057 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 712.81it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1020.76it/s][A

                                                                                                                                                  [A
 11%|███████████▋                                                                                            | 1127/10000 [01:08<08:51, 16.68it/s]


[36100] loss: 0.044 


                                                                                                                                                  [A
 11%|███████████▋                                                                                            | 1127/10000 [01:08<08:51, 16.68it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[36120] loss: 0.075 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 602.95it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1272.16it/s][A
 11%|███████████▋                                                                                            | 1129/10000 [01:08<08:49, 16.75it/s]
                                                                                                                                                  [A
 11%|███████████▋                                                                                            | 1129/10000 [01:08<08:49, 16.75it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[36140] loss: 0.023 


                                                                                                                                                  
 11%|███████████▋                                                                                            | 1129/10000 [01:08<08:49, 16.75it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 637.08it/s][A


[36160] loss: 0.072 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 931.65it/s][A

                                                                                                                                                  [A
 11%|███████████▋                                                                                            | 1129/10000 [01:08<08:49, 16.75it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 746.52it/s][A


[36180] loss: 0.067 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1858.35it/s][A
 11%|███████████▊                                                                                            | 1131/10000 [01:08<08:36, 17.17it/s]
                                                                                                                                                  [A
 11%|███████████▊                                                                                            | 1131/10000 [01:08<08:36, 17.17it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[36200] loss: 0.039 


                                                                                                                                                  
 11%|███████████▊                                                                                            | 1131/10000 [01:09<08:36, 17.17it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 627.90it/s][A


[36220] loss: 0.076 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1356.94it/s][A

                                                                                                                                                  [A
 11%|███████████▊                                                                                            | 1131/10000 [01:09<08:36, 17.17it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 715.01it/s][A


[36240] loss: 0.037 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1333.22it/s][A
 11%|███████████▊                                                                                            | 1133/10000 [01:09<08:32, 17.30it/s]
                                                                                                                                                  [A
 11%|███████████▊                                                                                            | 1133/10000 [01:09<08:32, 17.30it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[36260] loss: 0.051 


                                                                                                                                                  
 11%|███████████▊                                                                                            | 1133/10000 [01:09<08:32, 17.30it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 558.26it/s][A


[36280] loss: 0.039 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1597.83it/s][A

                                                                                                                                                  [A
 11%|███████████▊                                                                                            | 1133/10000 [01:09<08:32, 17.30it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[36300] loss: 0.038 


                                                                                                                                                  
 11%|███████████▊                                                                                            | 1133/10000 [01:09<08:32, 17.30it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 626.11it/s][A


[36320] loss: 0.079 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 635.89it/s][A
 11%|███████████▊                                                                                            | 1135/10000 [01:09<08:48, 16.78it/s]
                                                                                                                                                  [A
 11%|███████████▊                                                                                            | 1135/10000 [01:09<08:48, 16.78it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[36340] loss: 0.111 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 733.24it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 894.88it/s][A

                                                                                                                                                  [A
 11%|███████████▊                                                                                            | 1135/10000 [01:09<08:48, 16.78it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[36360] loss: 0.060 


                                                                                                                                                  
 11%|███████████▊                                                                                            | 1135/10000 [01:09<08:48, 16.78it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 686.82it/s][A


[36380] loss: 0.082 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 613.74it/s][A
 11%|███████████▊                                                                                            | 1137/10000 [01:09<08:35, 17.18it/s]
                                                                                                                                                  [A
 11%|███████████▊                                                                                            | 1137/10000 [01:09<08:35, 17.18it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[36400] loss: 0.026 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 639.01it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1914.33it/s][A

                                                                                                                                                  [A
 11%|███████████▊                                                                                            | 1137/10000 [01:09<08:35, 17.18it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[36420] loss: 0.045 


                                                                                                                                                  
 11%|███████████▊                                                                                            | 1137/10000 [01:09<08:35, 17.18it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 609.80it/s][A


[36440] loss: 0.056 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 670.12it/s][A
 11%|███████████▊                                                                                            | 1139/10000 [01:09<08:42, 16.95it/s]
                                                                                                                                                  [A
 11%|███████████▊                                                                                            | 1139/10000 [01:09<08:42, 16.95it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[36460] loss: 0.051 


                                                                                                                                                  
 11%|███████████▊                                                                                            | 1139/10000 [01:09<08:42, 16.95it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 618.59it/s][A


[36480] loss: 0.070 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 782.81it/s][A

                                                                                                                                                  [A
 11%|███████████▊                                                                                            | 1139/10000 [01:09<08:42, 16.95it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 1023.00it/s][A


[36500] loss: 0.075 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 810.65it/s][A

                                                                                                                                                  [A
 11%|███████████▊                                                                                            | 1139/10000 [01:09<08:42, 16.95it/s]
                                                                                                                                                  [A
 11%|███████████▊                                                                                            | 1139/10000 [01:09<08:42, 16.95it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 823.84it/s][A


[36520] loss: 0.081 
[36540] loss: 0.064 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2160.90it/s][A
 11%|███████████▉                                                                                            | 1142/10000 [01:09<08:05, 18.26it/s]
                                                                                                                                                  [A
 11%|███████████▉                                                                                            | 1142/10000 [01:09<08:05, 18.26it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[36560] loss: 0.038 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 859.15it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1597.83it/s][A

                                                                                                                                                  [A
 11%|███████████▉                                                                                            | 1142/10000 [01:09<08:05, 18.26it/s]
                                                                                                                                                  [A
                                                                                                                                                  

[36580] loss: 0.055 


 11%|███████████▉                                                                                            | 1142/10000 [01:09<08:05, 18.26it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 810.30it/s][A


[36600] loss: 0.065 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1940.01it/s][A

                                                                                                                                                  [A
 11%|███████████▉                                                                                            | 1142/10000 [01:09<08:05, 18.26it/s]
                                                                                                                                                  [A
 11%|███████████▉                                                                                            | 1142/10000 [01:09<08:05, 18.26it/s]

[36620] loss: 0.100 
[36640] loss: 0.069 



Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 781.23it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2047.00it/s][A
 11%|███████████▉                                                                                            | 1145/10000 [01:09<07:44, 19.06it/s]
                                                                                                                                                  [A
 11%|███████████▉                                                                                            | 1145/10000 [01:09<07:44, 19.06it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 972.16it/s][A


[36660] loss: 0.053 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 663.24it/s][A

                                                                                                                                                  [A
 11%|███████████▉                                                                                            | 1145/10000 [01:09<07:44, 19.06it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[36680] loss: 0.072 


                                                                                                                                                  
 11%|███████████▉                                                                                            | 1145/10000 [01:09<07:44, 19.06it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 807.03it/s][A


[36700] loss: 0.039 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2610.02it/s][A

                                                                                                                                                  [A
 11%|███████████▉                                                                                            | 1145/10000 [01:09<07:44, 19.06it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 767.16it/s][A


[36720] loss: 0.058 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1137.59it/s][A
 11%|███████████▉                                                                                            | 1148/10000 [01:09<07:29, 19.71it/s]
                                                                                                                                                  [A
 11%|███████████▉                                                                                            | 1148/10000 [01:09<07:29, 19.71it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[36740] loss: 0.032 


                                                                                                                                                  
 11%|███████████▉                                                                                            | 1148/10000 [01:09<07:29, 19.71it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 646.13it/s][A


[36760] loss: 0.103 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1125.69it/s][A

                                                                                                                                                  [A
 11%|███████████▉                                                                                            | 1148/10000 [01:09<07:29, 19.71it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[36780] loss: 0.040 


                                                                                                                                                  
 11%|███████████▉                                                                                            | 1148/10000 [01:09<07:29, 19.71it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 695.64it/s][A


[36800] loss: 0.044 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 350.93it/s][A
 12%|███████████▉                                                                                            | 1150/10000 [01:09<07:43, 19.09it/s]
                                                                                                                                                  [A
 12%|███████████▉                                                                                            | 1150/10000 [01:10<07:43, 19.09it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 795.44it/s][A


[36820] loss: 0.030 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 725.66it/s][A

                                                                                                                                                  [A
 12%|███████████▉                                                                                            | 1150/10000 [01:10<07:43, 19.09it/s]
                                                                                                                                                  [A
 12%|███████████▉                                                                                            | 1150/10000 [01:10<07:43, 19.09it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[36840] loss: 0.070 
[36860] loss: 0.091 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 673.15it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1432.97it/s][A
 12%|███████████▉                                                                                            | 1152/10000 [01:10<07:42, 19.13it/s]
                                                                                                                                                  [A
 12%|███████████▉                                                                                            | 1152/10000 [01:10<07:42, 19.13it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 795.04it/s][A


[36880] loss: 0.048 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 694.08it/s][A

                                                                                                                                                  [A
 12%|███████████▉                                                                                            | 1152/10000 [01:10<07:42, 19.13it/s]

[36900] loss: 0.027 



                                                                                                                                                  [A
[A                                                                                                                                               

[36920] loss: 0.055 

 12%|███████████▉                                                                                            | 1152/10000 [01:10<07:42, 19.13it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 709.47it/s][A






Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1408.43it/s][A
 12%|████████████                                                                                            | 1154/10000 [01:10<07:41, 19.18it/s]
                                                                                                                                                  [A
 12%|████████████                                                                                            | 1154/10000 [01:10<07:41, 19.18it/s]
                                                                                                                                                  [A
 12%|████████████                                                                                            | 1154/10000 [01:10<07:41, 19.18it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[36940] loss: 0.051 
[36960] loss: 0.147 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 319.40it/s][A

                                                                                                                                                  [A
 12%|████████████                                                                                            | 1154/10000 [01:10<07:41, 19.18it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 946.43it/s][A


[36980] loss: 0.079 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1413.65it/s][A
 12%|████████████                                                                                            | 1156/10000 [01:10<07:36, 19.36it/s]
                                                                                                                                                  [A
 12%|████████████                                                                                            | 1156/10000 [01:10<07:36, 19.36it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[37000] loss: 0.029 


                                                                                                                                                  
 12%|████████████                                                                                            | 1156/10000 [01:10<07:36, 19.36it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 698.86it/s][A


[37020] loss: 0.065 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1529.65it/s][A

                                                                                                                                                  [A
 12%|████████████                                                                                            | 1156/10000 [01:10<07:36, 19.36it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[37040] loss: 0.056 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 825.18it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1107.26it/s][A
 12%|████████████                                                                                            | 1158/10000 [01:10<07:33, 19.50it/s]
                                                                                                                                                  [A
 12%|████████████                                                                                            | 1158/10000 [01:10<07:33, 19.50it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[37060] loss: 0.066 


                                                                                                                                                  
 12%|████████████                                                                                            | 1158/10000 [01:10<07:33, 19.50it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 633.31it/s][A


[37080] loss: 0.028 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 344.47it/s][A

                                                                                                                                                  [A
 12%|████████████                                                                                            | 1158/10000 [01:10<07:33, 19.50it/s]

[37100] loss: 0.055 



                                                                                                                                                  [A
 12%|████████████                                                                                            | 1158/10000 [01:10<07:33, 19.50it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 562.31it/s][A


[37120] loss: 0.093 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1897.02it/s][A
 12%|████████████                                                                                            | 1160/10000 [01:10<08:06, 18.19it/s]
                                                                                                                                                  [A
 12%|████████████                                                                                            | 1160/10000 [01:10<08:06, 18.19it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 732.97it/s][A


[37140] loss: 0.060 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 894.69it/s][A

                                                                                                                                                  [A
 12%|████████████                                                                                            | 1160/10000 [01:10<08:06, 18.19it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[37160] loss: 0.030 


                                                                                                                                                  
 12%|████████████                                                                                            | 1160/10000 [01:10<08:06, 18.19it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[37180] loss: 0.063 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 556.64it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 937.27it/s][A
 12%|████████████                                                                                            | 1162/10000 [01:10<08:19, 17.70it/s]
                                                                                                                                                  [A
 12%|████████████                                                                                            | 1162/10000 [01:10<08:19, 17.70it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[37200] loss: 0.054 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 703.61it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1949.93it/s][A

                                                                                                                                                  [A
 12%|████████████                                                                                            | 1162/10000 [01:10<08:19, 17.70it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[37220] loss: 0.046 


                                                                                                                                                  
 12%|████████████                                                                                            | 1162/10000 [01:10<08:19, 17.70it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[37240] loss: 0.052 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 596.23it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 931.03it/s][A
 12%|████████████                                                                                            | 1164/10000 [01:10<08:22, 17.58it/s]
                                                                                                                                                  [A
 12%|████████████                                                                                            | 1164/10000 [01:10<08:22, 17.58it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[37260] loss: 0.037 


                                                                                                                                                  
 12%|████████████                                                                                            | 1164/10000 [01:10<08:22, 17.58it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 602.73it/s][A


[37280] loss: 0.122 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1179.50it/s][A

                                                                                                                                                  [A
 12%|████████████                                                                                            | 1164/10000 [01:10<08:22, 17.58it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 726.70it/s][A


[37300] loss: 0.051 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 711.02it/s][A
 12%|████████████▏                                                                                           | 1166/10000 [01:10<08:26, 17.43it/s]
                                                                                                                                                  [A
 12%|████████████▏                                                                                           | 1166/10000 [01:10<08:26, 17.43it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[37320] loss: 0.060 


                                                                                                                                                  
 12%|████████████▏                                                                                           | 1166/10000 [01:10<08:26, 17.43it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 773.54it/s][A


[37340] loss: 0.065 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1945.41it/s][A

                                                                                                                                                  [A
 12%|████████████▏                                                                                           | 1166/10000 [01:10<08:26, 17.43it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 909.82it/s][A


[37360] loss: 0.038 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1714.76it/s][A

                                                                                                                                                  [A
 12%|████████████▏                                                                                           | 1166/10000 [01:10<08:26, 17.43it/s]
                                                                                                                                                  [A
 12%|████████████▏                                                                                           | 1166/10000 [01:10<08:26, 17.43it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[37380] loss: 0.071 
[37400] loss: 0.046 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 759.92it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1133.29it/s][A
 12%|████████████▏                                                                                           | 1169/10000 [01:11<07:54, 18.60it/s]
                                                                                                                                                  [A
 12%|████████████▏                                                                                           | 1169/10000 [01:11<07:54, 18.60it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[37420] loss: 0.066 


                                                                                                                                                  
 12%|████████████▏                                                                                           | 1169/10000 [01:11<07:54, 18.60it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 864.11it/s][A


[37440] loss: 0.114 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 450.13it/s][A

                                                                                                                                                  [A
 12%|████████████▏                                                                                           | 1169/10000 [01:11<07:54, 18.60it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 806.01it/s][A


[37460] loss: 0.037 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1748.36it/s][A

                                                                                                                                                  [A
 12%|████████████▏                                                                                           | 1169/10000 [01:11<07:54, 18.60it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[37480] loss: 0.060 


                                                                                                                                                  
 12%|████████████▏                                                                                           | 1169/10000 [01:11<07:54, 18.60it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 643.78it/s][A


[37500] loss: 0.060 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1286.20it/s][A
 12%|████████████▏                                                                                           | 1172/10000 [01:11<07:46, 18.93it/s]
                                                                                                                                                  [A
 12%|████████████▏                                                                                           | 1172/10000 [01:11<07:46, 18.93it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 678.93it/s][A


[37520] loss: 0.033 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 436.50it/s][A

                                                                                                                                                  [A
 12%|████████████▏                                                                                           | 1172/10000 [01:11<07:46, 18.93it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[37540] loss: 0.071 


                                                                                                                                                  
 12%|████████████▏                                                                                           | 1172/10000 [01:11<07:46, 18.93it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 634.36it/s][A


[37560] loss: 0.039 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1230.00it/s][A
 12%|████████████▏                                                                                           | 1174/10000 [01:11<07:59, 18.43it/s]
                                                                                                                                                  [A
 12%|████████████▏                                                                                           | 1174/10000 [01:11<07:59, 18.43it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[37580] loss: 0.046 


                                                                                                                                                  
 12%|████████████▏                                                                                           | 1174/10000 [01:11<07:59, 18.43it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 604.33it/s][A


[37600] loss: 0.092 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 706.35it/s][A

                                                                                                                                                  [A
 12%|████████████▏                                                                                           | 1174/10000 [01:11<07:59, 18.43it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 779.75it/s][A


[37620] loss: 0.031 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 928.15it/s][A
 12%|████████████▏                                                                                           | 1176/10000 [01:11<08:03, 18.27it/s]
                                                                                                                                                  [A
 12%|████████████▏                                                                                           | 1176/10000 [01:11<08:03, 18.27it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[37640] loss: 0.058 


                                                                                                                                                  
 12%|████████████▏                                                                                           | 1176/10000 [01:11<08:03, 18.27it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 622.08it/s][A


[37660] loss: 0.070 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1039.74it/s][A

                                                                                                                                                  [A
 12%|████████████▏                                                                                           | 1176/10000 [01:11<08:03, 18.27it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 776.42it/s][A


[37680] loss: 0.035 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1823.61it/s][A
 12%|████████████▎                                                                                           | 1178/10000 [01:11<08:04, 18.20it/s]
                                                                                                                                                  [A
 12%|████████████▎                                                                                           | 1178/10000 [01:11<08:04, 18.20it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[37700] loss: 0.038 


                                                                                                                                                  
 12%|████████████▎                                                                                           | 1178/10000 [01:11<08:04, 18.20it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 616.03it/s][A


[37720] loss: 0.040 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1931.97it/s][A

                                                                                                                                                  [A
 12%|████████████▎                                                                                           | 1178/10000 [01:11<08:04, 18.20it/s]
                                                                                                                                                  [A
 12%|████████████▎                                                                                           | 1178/10000 [01:11<08:04, 18.20it/s]

[37740] loss: 0.067 
[37760] loss: 0.061 



Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 668.84it/s][A

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 927.53it/s][A
 12%|████████████▎                                                                                           | 1180/10000 [01:11<08:12, 17.90it/s]
                                                                                                                                                  [A
 12%|████████████▎                                                                                           | 1180/10000 [01:11<08:12, 17.90it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 780.31it/s][A


[37780] loss: 0.067 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1902.18it/s][A

                                                                                                                                                  [A
 12%|████████████▎                                                                                           | 1180/10000 [01:11<08:12, 17.90it/s]
                                                                                                                                                  [A
 12%|████████████▎                                                                                           | 1180/10000 [01:11<08:12, 17.90it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[37800] loss: 0.040 
[37820] loss: 0.066 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 694.12it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1397.64it/s][A
 12%|████████████▎                                                                                           | 1182/10000 [01:11<07:58, 18.44it/s]
                                                                                                                                                  [A
 12%|████████████▎                                                                                           | 1182/10000 [01:11<07:58, 18.44it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[37840] loss: 0.071 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 839.52it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2156.45it/s][A

                                                                                                                                                  [A
 12%|████████████▎                                                                                           | 1182/10000 [01:11<07:58, 18.44it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[37860] loss: 0.044 


                                                                                                                                                  
 12%|████████████▎                                                                                           | 1182/10000 [01:11<07:58, 18.44it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 624.52it/s][A


[37880] loss: 0.045 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1301.37it/s][A
 12%|████████████▎                                                                                           | 1184/10000 [01:11<07:50, 18.76it/s]
                                                                                                                                                  [A
 12%|████████████▎                                                                                           | 1184/10000 [01:11<07:50, 18.76it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[37900] loss: 0.070 


                                                                                                                                                  
 12%|████████████▎                                                                                           | 1184/10000 [01:11<07:50, 18.76it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 673.13it/s][A


[37920] loss: 0.047 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 381.65it/s][A

                                                                                                                                                  [A
 12%|████████████▎                                                                                           | 1184/10000 [01:11<07:50, 18.76it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 891.74it/s][A


[37940] loss: 0.057 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1924.88it/s][A
 12%|████████████▎                                                                                           | 1186/10000 [01:11<07:42, 19.07it/s]
                                                                                                                                                  [A
 12%|████████████▎                                                                                           | 1186/10000 [01:11<07:42, 19.07it/s]


[37960] loss: 0.038 


                                                                                                                                                  [A
 12%|████████████▎                                                                                           | 1186/10000 [01:11<07:42, 19.07it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[37980] loss: 0.079 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 633.28it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1299.35it/s][A

                                                                                                                                                  [A
 12%|████████████▎                                                                                           | 1186/10000 [01:12<07:42, 19.07it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 860.23it/s][A


[38000] loss: 0.067 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2014.56it/s][A
 12%|████████████▎                                                                                           | 1188/10000 [01:12<07:41, 19.08it/s]
                                                                                                                                                  [A
 12%|████████████▎                                                                                           | 1188/10000 [01:12<07:41, 19.08it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[38020] loss: 0.058 


                                                                                                                                                  
 12%|████████████▎                                                                                           | 1188/10000 [01:12<07:41, 19.08it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[38040] loss: 0.086 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 683.44it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1334.07it/s][A

                                                                                                                                                  [A
 12%|████████████▎                                                                                           | 1188/10000 [01:12<07:41, 19.08it/s]
                                                                                                                                                  [A
 12%|████████████▎                                                                                           | 1188/10000 [01:12<07:41, 19.08it/s]
Training Epoch: 100%|██████████████████████████████████████████████████████████████████████████████████████

[38060] loss: 0.062 
[38080] loss: 0.020 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 750.46it/s][A
 12%|████████████▍                                                                                           | 1190/10000 [01:12<07:51, 18.67it/s]
                                                                                                                                                  [A
 12%|████████████▍                                                                                           | 1190/10000 [01:12<07:51, 18.67it/s]

[38100] loss: 0.047 



Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 760.32it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1569.14it/s][A

                                                                                                                                                  [A
 12%|████████████▍                                                                                           | 1190/10000 [01:12<07:51, 18.67it/s]
                                                                                                                                                  [A
 12%|████████████▍                                                                                           | 1190/10000 [01:12<07:51, 18.67it/s]
Training Epoch:   0%|                                                                                  

[38120] loss: 0.054 
[38140] loss: 0.124 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 613.51it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 972.25it/s][A
 12%|████████████▍                                                                                           | 1192/10000 [01:12<07:58, 18.41it/s]
                                                                                                                                                  [A
 12%|████████████▍                                                                                           | 1192/10000 [01:12<07:58, 18.41it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 807.26it/s][A


[38160] loss: 0.041 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1284.23it/s][A

                                                                                                                                                  [A
 12%|████████████▍                                                                                           | 1192/10000 [01:12<07:58, 18.41it/s]
                                                                                                                                                  [A
 12%|████████████▍                                                                                           | 1192/10000 [01:12<07:58, 18.41it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 628.37it/s][A


[38180] loss: 0.073 
[38200] loss: 0.114 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1956.30it/s][A
 12%|████████████▍                                                                                           | 1194/10000 [01:12<07:58, 18.39it/s]
                                                                                                                                                  [A
 12%|████████████▍                                                                                           | 1194/10000 [01:12<07:58, 18.39it/s]
                                                                                                                                                  [A
 12%|████████████▍                                                                                           | 1194/10000 [01:12<07:58, 18.39it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[38220] loss: 0.055 
[38240] loss: 0.018 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 336.62it/s][A

                                                                                                                                                  [A
 12%|████████████▍                                                                                           | 1194/10000 [01:12<07:58, 18.39it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 832.64it/s][A


[38260] loss: 0.055 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1095.12it/s][A

                                                                                                                                                  [A
 12%|████████████▍                                                                                           | 1194/10000 [01:12<07:58, 18.39it/s]
                                                                                                                                                  [A
 12%|████████████▍                                                                                           | 1194/10000 [01:12<07:58, 18.39it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 611.61it/s][A


[38280] loss: 0.047 
[38300] loss: 0.052 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1457.37it/s][A
 12%|████████████▍                                                                                           | 1197/10000 [01:12<07:54, 18.56it/s]
                                                                                                                                                  [A
 12%|████████████▍                                                                                           | 1197/10000 [01:12<07:54, 18.56it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 796.22it/s][A


[38320] loss: 0.039 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 607.43it/s][A

                                                                                                                                                  [A
 12%|████████████▍                                                                                           | 1197/10000 [01:12<07:54, 18.56it/s]
                                                                                                                                                  [A
 12%|████████████▍                                                                                           | 1197/10000 [01:12<07:54, 18.56it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 617.06it/s][A


[38340] loss: 0.092 
[38360] loss: 0.057 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1333.22it/s][A
 12%|████████████▍                                                                                           | 1199/10000 [01:12<07:57, 18.42it/s]
                                                                                                                                                  [A
 12%|████████████▍                                                                                           | 1199/10000 [01:12<07:57, 18.42it/s]
                                                                                                                                                  [A

[38380] loss: 0.055 



 12%|████████████▍                                                                                           | 1199/10000 [01:12<07:57, 18.42it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 676.22it/s][A


[38400] loss: 0.038 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 286.65it/s][A

                                                                                                                                                  [A
 12%|████████████▍                                                                                           | 1199/10000 [01:12<07:57, 18.42it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 753.00it/s][A


[38420] loss: 0.105 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 764.83it/s][A
 12%|████████████▍                                                                                           | 1201/10000 [01:12<07:59, 18.34it/s]
                                                                                                                                                  [A
 12%|████████████▍                                                                                           | 1201/10000 [01:12<07:59, 18.34it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[38440] loss: 0.053 


                                                                                                                                                  
 12%|████████████▍                                                                                           | 1201/10000 [01:12<07:59, 18.34it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 644.67it/s][A


[38460] loss: 0.069 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1412.22it/s][A

                                                                                                                                                  [A
 12%|████████████▍                                                                                           | 1201/10000 [01:12<07:59, 18.34it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 730.43it/s][A


[38480] loss: 0.036 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 783.10it/s][A
 12%|████████████▌                                                                                           | 1203/10000 [01:12<08:00, 18.32it/s]
                                                                                                                                                  [A
 12%|████████████▌                                                                                           | 1203/10000 [01:12<08:00, 18.32it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[38500] loss: 0.049 


                                                                                                                                                  
 12%|████████████▌                                                                                           | 1203/10000 [01:12<08:00, 18.32it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 696.58it/s][A


[38520] loss: 0.081 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1131.46it/s][A

                                                                                                                                                  [A
 12%|████████████▌                                                                                           | 1203/10000 [01:12<08:00, 18.32it/s]
                                                                                                                                                  [A
 12%|████████████▌                                                                                           | 1203/10000 [01:12<08:00, 18.32it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 741.07it/s][A


[38540] loss: 0.068 
[38560] loss: 0.183 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 362.80it/s][A
 12%|████████████▌                                                                                           | 1205/10000 [01:12<07:58, 18.36it/s]
                                                                                                                                                  [A
 12%|████████████▌                                                                                           | 1205/10000 [01:12<07:58, 18.36it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[38580] loss: 0.027 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 739.54it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 603.76it/s][A

                                                                                                                                                  [A
 12%|████████████▌                                                                                           | 1205/10000 [01:13<07:58, 18.36it/s]
                                                                                                                                                  [A
 12%|████████████▌                                                                                           | 1205/10000 [01:13<07:58, 18.36it/s]
Training Epoch:   0%|                                                                                      

[38600] loss: 0.049 
[38620] loss: 0.069 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 617.99it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1467.05it/s][A
 12%|████████████▌                                                                                           | 1207/10000 [01:13<08:06, 18.09it/s]
                                                                                                                                                  [A
 12%|████████████▌                                                                                           | 1207/10000 [01:13<08:06, 18.09it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 902.26it/s][A


[38640] loss: 0.060 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 523.11it/s][A

                                                                                                                                                  [A
 12%|████████████▌                                                                                           | 1207/10000 [01:13<08:06, 18.09it/s]
                                                                                                                                                  [A
 12%|████████████▌                                                                                           | 1207/10000 [01:13<08:06, 18.09it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 722.48it/s][A


[38660] loss: 0.053 
[38680] loss: 0.032 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1007.28it/s][A

                                                                                                                                                  [A
 12%|████████████▌                                                                                           | 1207/10000 [01:13<08:06, 18.09it/s]
                                                                                                                                                  [A
 12%|████████████▌                                                                                           | 1207/10000 [01:13<08:06, 18.09it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 766.43it/s][A


[38700] loss: 0.055 
[38720] loss: 0.061 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 272.82it/s][A
 12%|████████████▌                                                                                           | 1210/10000 [01:13<07:49, 18.71it/s]
                                                                                                                                                  [A
 12%|████████████▌                                                                                           | 1210/10000 [01:13<07:49, 18.71it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 811.99it/s][A


[38740] loss: 0.039 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1123.27it/s][A

                                                                                                                                                  [A
 12%|████████████▌                                                                                           | 1210/10000 [01:13<07:49, 18.71it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[38760] loss: 0.065 


                                                                                                                                                  
 12%|████████████▌                                                                                           | 1210/10000 [01:13<07:49, 18.71it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 640.49it/s][A


[38780] loss: 0.039 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 685.46it/s][A
 12%|████████████▌                                                                                           | 1212/10000 [01:13<07:45, 18.87it/s]
                                                                                                                                                  [A
 12%|████████████▌                                                                                           | 1212/10000 [01:13<07:45, 18.87it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 819.80it/s][A


[38800] loss: 0.057 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 619.73it/s][A

                                                                                                                                                  [A
 12%|████████████▌                                                                                           | 1212/10000 [01:13<07:45, 18.87it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[38820] loss: 0.057 


                                                                                                                                                  
 12%|████████████▌                                                                                           | 1212/10000 [01:13<07:45, 18.87it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 648.42it/s][A


[38840] loss: 0.064 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 787.81it/s][A
 12%|████████████▋                                                                                           | 1214/10000 [01:13<07:43, 18.94it/s]
                                                                                                                                                  [A
 12%|████████████▋                                                                                           | 1214/10000 [01:13<07:43, 18.94it/s]
                                                                                                                                                  [A
 12%|████████████▋                                                                                           | 1214/10000 [01:13<07:43, 18.94it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[38860] loss: 0.038 
[38880] loss: 0.027 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 332.91it/s][A

                                                                                                                                                  [A
 12%|████████████▋                                                                                           | 1214/10000 [01:13<07:43, 18.94it/s]


[38900] loss: 0.062 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 836.74it/s][A

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 992.50it/s][A

                                                                                                                                                  [A
 12%|████████████▋                                                                                           | 1214/10000 [01:13<07:43, 18.94it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[38920] loss: 0.051 


                                                                                                                                                  
 12%|████████████▋                                                                                           | 1214/10000 [01:13<07:43, 18.94it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 642.43it/s][A


[38940] loss: 0.056 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1440.35it/s][A
 12%|████████████▋                                                                                           | 1217/10000 [01:13<07:39, 19.11it/s]
                                                                                                                                                  [A
 12%|████████████▋                                                                                           | 1217/10000 [01:13<07:39, 19.11it/s]

[38960] loss: 0.071 



Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 760.08it/s][A

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 700.80it/s][A

                                                                                                                                                  [A
 12%|████████████▋                                                                                           | 1217/10000 [01:13<07:39, 19.11it/s]

[38980] loss: 0.070 



                                                                                                                                                  [A
 12%|████████████▋                                                                                           | 1217/10000 [01:13<07:39, 19.11it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 649.35it/s][A


[39000] loss: 0.080 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 796.49it/s][A
 12%|████████████▋                                                                                           | 1219/10000 [01:13<07:44, 18.91it/s]
                                                                                                                                                  [A
 12%|████████████▋                                                                                           | 1219/10000 [01:13<07:44, 18.91it/s]
                                                                                                                                                  [A
 12%|████████████▋                                                                                           | 1219/10000 [01:13<07:44, 18.91it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[39020] loss: 0.062 
[39040] loss: 0.044 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1162.18it/s][A

                                                                                                                                                  [A
 12%|████████████▋                                                                                           | 1219/10000 [01:13<07:44, 18.91it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 772.12it/s][A


[39060] loss: 0.051 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 573.70it/s][A
 12%|████████████▋                                                                                           | 1221/10000 [01:13<07:47, 18.79it/s]
                                                                                                                                                  [A
 12%|████████████▋                                                                                           | 1221/10000 [01:13<07:47, 18.79it/s]
                                                                                                                                                  [A
 12%|████████████▋                                                                                           | 1221/10000 [01:13<07:47, 18.79it/s]
Training Epoch:   0%|                                                                                       

[39080] loss: 0.025 
[39100] loss: 0.054 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 611.04it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1515.83it/s][A

                                                                                                                                                  [A
 12%|████████████▋                                                                                           | 1221/10000 [01:13<07:47, 18.79it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 700.83it/s][A


[39120] loss: 0.045 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 683.11it/s][A
 12%|████████████▋                                                                                           | 1223/10000 [01:13<07:53, 18.52it/s]
                                                                                                                                                  [A
 12%|████████████▋                                                                                           | 1223/10000 [01:13<07:53, 18.52it/s]
                                                                                                                                                  [A
 12%|████████████▋                                                                                           | 1223/10000 [01:13<07:53, 18.52it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[39140] loss: 0.034 
[39160] loss: 0.057 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 688.04it/s][A

                                                                                                                                                  [A
 12%|████████████▋                                                                                           | 1223/10000 [01:14<07:53, 18.52it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[39180] loss: 0.070 


                                                                                                                                                  
 12%|████████████▋                                                                                           | 1223/10000 [01:14<07:53, 18.52it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 594.45it/s][A


[39200] loss: 0.117 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 527.52it/s][A
 12%|████████████▋                                                                                           | 1225/10000 [01:14<08:13, 17.77it/s]
                                                                                                                                                  [A
 12%|████████████▋                                                                                           | 1225/10000 [01:14<08:13, 17.77it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 774.41it/s][A


[39220] loss: 0.041 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 765.38it/s][A

                                                                                                                                                  [A
 12%|████████████▋                                                                                           | 1225/10000 [01:14<08:13, 17.77it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[39240] loss: 0.070 


                                                                                                                                                  
 12%|████████████▋                                                                                           | 1225/10000 [01:14<08:13, 17.77it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 592.32it/s][A


[39260] loss: 0.086 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1216.80it/s][A
 12%|████████████▊                                                                                           | 1227/10000 [01:14<08:14, 17.75it/s]
                                                                                                                                                  [A
 12%|████████████▊                                                                                           | 1227/10000 [01:14<08:14, 17.75it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[39280] loss: 0.067 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 667.22it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 490.73it/s][A

                                                                                                                                                  [A
 12%|████████████▊                                                                                           | 1227/10000 [01:14<08:14, 17.75it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[39300] loss: 0.023 


                                                                                                                                                  
 12%|████████████▊                                                                                           | 1227/10000 [01:14<08:14, 17.75it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 611.40it/s][A


[39320] loss: 0.046 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 610.17it/s][A
 12%|████████████▊                                                                                           | 1229/10000 [01:14<08:24, 17.37it/s]
                                                                                                                                                  [A
 12%|████████████▊                                                                                           | 1229/10000 [01:14<08:24, 17.37it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[39340] loss: 0.072 


                                                                                                                                                  
 12%|████████████▊                                                                                           | 1229/10000 [01:14<08:24, 17.37it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 665.61it/s][A


[39360] loss: 0.036 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 419.51it/s][A

                                                                                                                                                  [A
 12%|████████████▊                                                                                           | 1229/10000 [01:14<08:24, 17.37it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 772.35it/s][A


[39380] loss: 0.035 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 805.36it/s][A
 12%|████████████▊                                                                                           | 1231/10000 [01:14<08:12, 17.81it/s]
                                                                                                                                                  [A
 12%|████████████▊                                                                                           | 1231/10000 [01:14<08:12, 17.81it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[39400] loss: 0.088 


                                                                                                                                                  
 12%|████████████▊                                                                                           | 1231/10000 [01:14<08:12, 17.81it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 611.88it/s][A


[39420] loss: 0.081 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1052.52it/s][A

                                                                                                                                                  [A
 12%|████████████▊                                                                                           | 1231/10000 [01:14<08:12, 17.81it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[39440] loss: 0.037 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 560.47it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1607.63it/s][A
 12%|████████████▊                                                                                           | 1233/10000 [01:14<08:31, 17.14it/s]
                                                                                                                                                  [A
 12%|████████████▊                                                                                           | 1233/10000 [01:14<08:31, 17.14it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[39460] loss: 0.028 


                                                                                                                                                  
 12%|████████████▊                                                                                           | 1233/10000 [01:14<08:31, 17.14it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[39480] loss: 0.062 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 642.15it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1362.23it/s][A

                                                                                                                                                  [A
 12%|████████████▊                                                                                           | 1233/10000 [01:14<08:31, 17.14it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[39500] loss: 0.067 


                                                                                                                                                  
 12%|████████████▊                                                                                           | 1233/10000 [01:14<08:31, 17.14it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 632.23it/s][A


[39520] loss: 0.201 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 776.29it/s][A
 12%|████████████▊                                                                                           | 1235/10000 [01:14<08:29, 17.21it/s]
                                                                                                                                                  [A
 12%|████████████▊                                                                                           | 1235/10000 [01:14<08:29, 17.21it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 717.97it/s][A


[39540] loss: 0.019 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1574.44it/s][A

                                                                                                                                                  [A
 12%|████████████▊                                                                                           | 1235/10000 [01:14<08:29, 17.21it/s]
                                                                                                                                                  [A
                                                                                                                                                  

[39560] loss: 0.053 


 12%|████████████▊                                                                                           | 1235/10000 [01:14<08:29, 17.21it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 648.03it/s][A


[39580] loss: 0.029 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1169.63it/s][A
 12%|████████████▊                                                                                           | 1237/10000 [01:14<08:19, 17.55it/s]
                                                                                                                                                  [A
 12%|████████████▊                                                                                           | 1237/10000 [01:14<08:19, 17.55it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 781.39it/s][A


[39600] loss: 0.070 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 650.08it/s][A

                                                                                                                                                  [A
 12%|████████████▊                                                                                           | 1237/10000 [01:14<08:19, 17.55it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[39620] loss: 0.044 


                                                                                                                                                  
 12%|████████████▊                                                                                           | 1237/10000 [01:14<08:19, 17.55it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 580.79it/s][A


[39640] loss: 0.040 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1485.24it/s][A
 12%|████████████▉                                                                                           | 1239/10000 [01:14<08:24, 17.35it/s]
                                                                                                                                                  [A
 12%|████████████▉                                                                                           | 1239/10000 [01:14<08:24, 17.35it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[39660] loss: 0.050 


                                                                                                                                                  
 12%|████████████▉                                                                                           | 1239/10000 [01:14<08:24, 17.35it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 655.86it/s][A


[39680] loss: 0.176 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1129.63it/s][A

                                                                                                                                                  [A
 12%|████████████▉                                                                                           | 1239/10000 [01:14<08:24, 17.35it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 731.54it/s][A

[39700] loss: 0.113 




Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 579.96it/s][A
 12%|████████████▉                                                                                           | 1241/10000 [01:14<08:20, 17.51it/s]
                                                                                                                                                  [A
 12%|████████████▉                                                                                           | 1241/10000 [01:14<08:20, 17.51it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[39720] loss: 0.053 


                                                                                                                                                  
 12%|████████████▉                                                                                           | 1241/10000 [01:15<08:20, 17.51it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 640.39it/s][A


[39740] loss: 0.069 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 914.59it/s][A

                                                                                                                                                  [A
 12%|████████████▉                                                                                           | 1241/10000 [01:15<08:20, 17.51it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 780.56it/s][A


[39760] loss: 0.057 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2001.10it/s][A
 12%|████████████▉                                                                                           | 1243/10000 [01:15<08:08, 17.92it/s]
                                                                                                                                                  [A
 12%|████████████▉                                                                                           | 1243/10000 [01:15<08:08, 17.92it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[39780] loss: 0.042 


                                                                                                                                                  
 12%|████████████▉                                                                                           | 1243/10000 [01:15<08:08, 17.92it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 703.99it/s][A


[39800] loss: 0.080 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1097.41it/s][A

                                                                                                                                                  [A
 12%|████████████▉                                                                                           | 1243/10000 [01:15<08:08, 17.92it/s]
                                                                                                                                                  [A
 12%|████████████▉                                                                                           | 1243/10000 [01:15<08:08, 17.92it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 709.43it/s][A


[39820] loss: 0.041 
[39840] loss: 0.083 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1353.44it/s][A
 12%|████████████▉                                                                                           | 1245/10000 [01:15<08:01, 18.17it/s]
                                                                                                                                                  [A
 12%|████████████▉                                                                                           | 1245/10000 [01:15<08:01, 18.17it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[39860] loss: 0.048 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 824.59it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1880.85it/s][A

                                                                                                                                                  [A
 12%|████████████▉                                                                                           | 1245/10000 [01:15<08:01, 18.17it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[39880] loss: 0.058 


                                                                                                                                                  
 12%|████████████▉                                                                                           | 1245/10000 [01:15<08:01, 18.17it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 717.33it/s][A


[39900] loss: 0.056 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1363.11it/s][A

                                                                                                                                                  [A
 12%|████████████▉                                                                                           | 1245/10000 [01:15<08:01, 18.17it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[39920] loss: 0.051 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 759.70it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1556.33it/s][A
 12%|████████████▉                                                                                           | 1248/10000 [01:15<07:39, 19.03it/s]
                                                                                                                                                  [A
 12%|████████████▉                                                                                           | 1248/10000 [01:15<07:39, 19.03it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[39940] loss: 0.042 


                                                                                                                                                  
 12%|████████████▉                                                                                           | 1248/10000 [01:15<07:39, 19.03it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 644.20it/s][A


[39960] loss: 0.059 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1638.40it/s][A

                                                                                                                                                  [A
 12%|████████████▉                                                                                           | 1248/10000 [01:15<07:39, 19.03it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[39980] loss: 0.077 


                                                                                                                                                  
 12%|████████████▉                                                                                           | 1248/10000 [01:15<07:39, 19.03it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 666.99it/s][A


[40000] loss: 0.067 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1194.96it/s][A
 12%|█████████████                                                                                           | 1250/10000 [01:15<07:47, 18.72it/s]
                                                                                                                                                  [A
 12%|█████████████                                                                                           | 1250/10000 [01:15<07:47, 18.72it/s]


[40020] loss: 0.055 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 802.35it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1277.97it/s][A

                                                                                                                                                  [A
 12%|█████████████                                                                                           | 1250/10000 [01:15<07:47, 18.72it/s]
                                                                                                                                                  [A
 12%|█████████████                                                                                           | 1250/10000 [01:15<07:47, 18.72it/s]


[40040] loss: 0.059 
[40060] loss: 0.068 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 570.17it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1195.30it/s][A
 13%|█████████████                                                                                           | 1252/10000 [01:15<07:55, 18.40it/s]
                                                                                                                                                  [A
 13%|█████████████                                                                                           | 1252/10000 [01:15<07:55, 18.40it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 688.72it/s][A


[40080] loss: 0.072 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 953.68it/s][A

                                                                                                                                                  [A
 13%|█████████████                                                                                           | 1252/10000 [01:15<07:55, 18.40it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[40100] loss: 0.059 


                                                                                                                                                  
 13%|█████████████                                                                                           | 1252/10000 [01:15<07:55, 18.40it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[40120] loss: 0.076 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 575.39it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1848.53it/s][A
 13%|█████████████                                                                                           | 1254/10000 [01:15<08:08, 17.92it/s]
                                                                                                                                                  [A
 13%|█████████████                                                                                           | 1254/10000 [01:15<08:08, 17.92it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[40140] loss: 0.055 


                                                                                                                                                  
 13%|█████████████                                                                                           | 1254/10000 [01:15<08:08, 17.92it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 616.50it/s][A


[40160] loss: 0.046 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1182.83it/s][A

                                                                                                                                                  [A
 13%|█████████████                                                                                           | 1254/10000 [01:15<08:08, 17.92it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 689.18it/s][A


[40180] loss: 0.066 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1453.83it/s][A
 13%|█████████████                                                                                           | 1256/10000 [01:15<08:13, 17.72it/s]
                                                                                                                                                  [A
 13%|█████████████                                                                                           | 1256/10000 [01:15<08:13, 17.72it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[40200] loss: 0.056 


                                                                                                                                                  
 13%|█████████████                                                                                           | 1256/10000 [01:15<08:13, 17.72it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 561.02it/s][A


[40220] loss: 0.073 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1122.67it/s][A

                                                                                                                                                  [A
 13%|█████████████                                                                                           | 1256/10000 [01:15<08:13, 17.72it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[40240] loss: 0.054 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 656.66it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 651.29it/s][A
 13%|█████████████                                                                                           | 1258/10000 [01:15<08:34, 17.00it/s]
                                                                                                                                                  [A
 13%|█████████████                                                                                           | 1258/10000 [01:15<08:34, 17.00it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[40260] loss: 0.041 


                                                                                                                                                  
 13%|█████████████                                                                                           | 1258/10000 [01:15<08:34, 17.00it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 478.49it/s][A


[40280] loss: 0.057 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1037.94it/s][A

                                                                                                                                                  [A
 13%|█████████████                                                                                           | 1258/10000 [01:16<08:34, 17.00it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[40300] loss: 0.047 


                                                                                                                                                  
 13%|█████████████                                                                                           | 1258/10000 [01:16<08:34, 17.00it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 483.49it/s][A


[40320] loss: 0.021 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 755.59it/s][A
 13%|█████████████                                                                                           | 1260/10000 [01:16<09:25, 15.47it/s]
                                                                                                                                                  [A
 13%|█████████████                                                                                           | 1260/10000 [01:16<09:25, 15.47it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 680.16it/s][A


[40340] loss: 0.036 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1782.53it/s][A

                                                                                                                                                  [A
 13%|█████████████                                                                                           | 1260/10000 [01:16<09:25, 15.47it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[40360] loss: 0.067 


                                                                                                                                                  
 13%|█████████████                                                                                           | 1260/10000 [01:16<09:25, 15.47it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 592.09it/s][A


[40380] loss: 0.065 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 627.51it/s][A
 13%|█████████████                                                                                           | 1262/10000 [01:16<09:14, 15.77it/s]
                                                                                                                                                  [A
 13%|█████████████                                                                                           | 1262/10000 [01:16<09:14, 15.77it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[40400] loss: 0.067 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 751.37it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 866.95it/s][A

                                                                                                                                                  [A
 13%|█████████████                                                                                           | 1262/10000 [01:16<09:14, 15.77it/s]

[40420] loss: 0.036 



                                                                                                                                                  [A
 13%|█████████████                                                                                           | 1262/10000 [01:16<09:14, 15.77it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[40440] loss: 0.026 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 467.79it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 918.59it/s][A
 13%|█████████████▏                                                                                          | 1264/10000 [01:16<09:19, 15.62it/s]
                                                                                                                                                  [A
 13%|█████████████▏                                                                                          | 1264/10000 [01:16<09:19, 15.62it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[40460] loss: 0.059 


                                                                                                                                                  
 13%|█████████████▏                                                                                          | 1264/10000 [01:16<09:19, 15.62it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 523.25it/s][A


[40480] loss: 0.092 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 780.34it/s][A

                                                                                                                                                  [A
 13%|█████████████▏                                                                                          | 1264/10000 [01:16<09:19, 15.62it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 604.99it/s][A


[40500] loss: 0.080 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 912.00it/s][A
 13%|█████████████▏                                                                                          | 1266/10000 [01:16<09:21, 15.56it/s]
                                                                                                                                                  [A
 13%|█████████████▏                                                                                          | 1266/10000 [01:16<09:21, 15.56it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[40520] loss: 0.044 


                                                                                                                                                  
 13%|█████████████▏                                                                                          | 1266/10000 [01:16<09:21, 15.56it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 503.77it/s][A


[40540] loss: 0.053 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 733.14it/s][A

                                                                                                                                                  [A
 13%|█████████████▏                                                                                          | 1266/10000 [01:16<09:21, 15.56it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 617.73it/s][A


[40560] loss: 0.057 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 734.17it/s][A
 13%|█████████████▏                                                                                          | 1268/10000 [01:16<09:27, 15.39it/s]
                                                                                                                                                  [A
 13%|█████████████▏                                                                                          | 1268/10000 [01:16<09:27, 15.39it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[40580] loss: 0.060 


                                                                                                                                                  
 13%|█████████████▏                                                                                          | 1268/10000 [01:16<09:27, 15.39it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 534.70it/s][A


[40600] loss: 0.073 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1021.26it/s][A

                                                                                                                                                  [A
 13%|█████████████▏                                                                                          | 1268/10000 [01:16<09:27, 15.39it/s]
                                                                                                                                                  [A

[40620] loss: 0.086 



 13%|█████████████▏                                                                                          | 1268/10000 [01:16<09:27, 15.39it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 555.43it/s][A


[40640] loss: 0.029 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 305.55it/s][A
 13%|█████████████▏                                                                                          | 1270/10000 [01:16<09:33, 15.23it/s]
                                                                                                                                                  [A
 13%|█████████████▏                                                                                          | 1270/10000 [01:16<09:33, 15.23it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[40660] loss: 0.063 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 606.16it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 525.60it/s][A

                                                                                                                                                  [A
 13%|█████████████▏                                                                                          | 1270/10000 [01:16<09:33, 15.23it/s]
                                                                                                                                                  [A


[40680] loss: 0.090 


 13%|█████████████▏                                                                                          | 1270/10000 [01:16<09:33, 15.23it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 504.66it/s][A


[40700] loss: 0.045 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 801.36it/s][A
 13%|█████████████▏                                                                                          | 1272/10000 [01:16<09:36, 15.15it/s]
                                                                                                                                                  [A
 13%|█████████████▏                                                                                          | 1272/10000 [01:16<09:36, 15.15it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 617.80it/s][A


[40720] loss: 0.063 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 632.34it/s][A

                                                                                                                                                  [A
 13%|█████████████▏                                                                                          | 1272/10000 [01:16<09:36, 15.15it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[40740] loss: 0.032 


                                                                                                                                                  
 13%|█████████████▏                                                                                          | 1272/10000 [01:16<09:36, 15.15it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 522.72it/s][A


[40760] loss: 0.036 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 724.40it/s][A
 13%|█████████████▏                                                                                          | 1274/10000 [01:16<09:33, 15.21it/s]
                                                                                                                                                  [A
 13%|█████████████▏                                                                                          | 1274/10000 [01:17<09:33, 15.21it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[40780] loss: 0.035 


                                                                                                                                                  
 13%|█████████████▏                                                                                          | 1274/10000 [01:17<09:33, 15.21it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 494.54it/s][A


[40800] loss: 0.070 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 273.46it/s][A

                                                                                                                                                  [A
 13%|█████████████▏                                                                                          | 1274/10000 [01:17<09:33, 15.21it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 559.97it/s][A


[40820] loss: 0.093 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 503.46it/s][A
 13%|█████████████▎                                                                                          | 1276/10000 [01:17<09:46, 14.88it/s]
                                                                                                                                                  [A
 13%|█████████████▎                                                                                          | 1276/10000 [01:17<09:46, 14.88it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[40840] loss: 0.094 


                                                                                                                                                  
 13%|█████████████▎                                                                                          | 1276/10000 [01:17<09:46, 14.88it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 479.10it/s][A


[40860] loss: 0.045 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 777.88it/s][A

                                                                                                                                                  [A
 13%|█████████████▎                                                                                          | 1276/10000 [01:17<09:46, 14.88it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[40880] loss: 0.115 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 594.94it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 995.80it/s][A
 13%|█████████████▎                                                                                          | 1278/10000 [01:17<09:50, 14.76it/s]
                                                                                                                                                  [A
 13%|█████████████▎                                                                                          | 1278/10000 [01:17<09:50, 14.76it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[40900] loss: 0.068 


                                                                                                                                                  
 13%|█████████████▎                                                                                          | 1278/10000 [01:17<09:50, 14.76it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 521.28it/s][A


[40920] loss: 0.036 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 960.45it/s][A

                                                                                                                                                  [A
 13%|█████████████▎                                                                                          | 1278/10000 [01:17<09:50, 14.76it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[40940] loss: 0.061 


                                                                                                                                                  
 13%|█████████████▎                                                                                          | 1278/10000 [01:17<09:50, 14.76it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 531.77it/s][A


[40960] loss: 0.173 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1316.89it/s][A
 13%|█████████████▎                                                                                          | 1280/10000 [01:17<09:55, 14.64it/s]
                                                                                                                                                  [A
 13%|█████████████▎                                                                                          | 1280/10000 [01:17<09:55, 14.64it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[40980] loss: 0.055 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 836.97it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1839.61it/s][A

                                                                                                                                                  [A
 13%|█████████████▎                                                                                          | 1280/10000 [01:17<09:55, 14.64it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[41000] loss: 0.056 


                                                                                                                                                  
 13%|█████████████▎                                                                                          | 1280/10000 [01:17<09:55, 14.64it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 606.59it/s][A


[41020] loss: 0.088 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 618.26it/s][A
 13%|█████████████▎                                                                                          | 1282/10000 [01:17<09:19, 15.58it/s]
                                                                                                                                                  [A
 13%|█████████████▎                                                                                          | 1282/10000 [01:17<09:19, 15.58it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[41040] loss: 0.040 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 658.19it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 933.31it/s][A

                                                                                                                                                  [A
 13%|█████████████▎                                                                                          | 1282/10000 [01:17<09:19, 15.58it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[41060] loss: 0.059 


                                                                                                                                                  
 13%|█████████████▎                                                                                          | 1282/10000 [01:17<09:19, 15.58it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 621.97it/s][A


[41080] loss: 0.068 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1045.18it/s][A
 13%|█████████████▎                                                                                          | 1284/10000 [01:17<09:05, 15.98it/s]
                                                                                                                                                  [A
 13%|█████████████▎                                                                                          | 1284/10000 [01:17<09:05, 15.98it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[41100] loss: 0.045 


                                                                                                                                                  
 13%|█████████████▎                                                                                          | 1284/10000 [01:17<09:05, 15.98it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 598.34it/s][A


[41120] loss: 0.046 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1219.63it/s][A

                                                                                                                                                  [A
 13%|█████████████▎                                                                                          | 1284/10000 [01:17<09:05, 15.98it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[41140] loss: 0.041 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 591.96it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1408.43it/s][A
 13%|█████████████▎                                                                                          | 1286/10000 [01:17<09:07, 15.93it/s]
                                                                                                                                                  [A
 13%|█████████████▎                                                                                          | 1286/10000 [01:17<09:07, 15.93it/s]
                                                                                                                                                  [A
 13%|█████████████▎                                                                                         

[41160] loss: 0.074 
[41180] loss: 0.093 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 614.49it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1994.44it/s][A

                                                                                                                                                  [A
 13%|█████████████▎                                                                                          | 1286/10000 [01:17<09:07, 15.93it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 1050.36it/s][A


[41200] loss: 0.041 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2020.38it/s][A

                                                                                                                                                  [A
 13%|█████████████▎                                                                                          | 1286/10000 [01:17<09:07, 15.93it/s]
                                                                                                                                                  [A
 13%|█████████████▎                                                                                          | 1286/10000 [01:17<09:07, 15.93it/s]


[41220] loss: 0.058 
[41240] loss: 0.060 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 874.23it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1129.63it/s][A
 13%|█████████████▍                                                                                          | 1289/10000 [01:17<08:11, 17.71it/s]
                                                                                                                                                  [A
 13%|█████████████▍                                                                                          | 1289/10000 [01:17<08:11, 17.71it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[41260] loss: 0.062 


                                                                                                                                                  
 13%|█████████████▍                                                                                          | 1289/10000 [01:17<08:11, 17.71it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 621.20it/s][A


[41280] loss: 0.023 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1369.79it/s][A

                                                                                                                                                  [A
 13%|█████████████▍                                                                                          | 1289/10000 [01:17<08:11, 17.71it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 719.69it/s][A


[41300] loss: 0.110 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1643.54it/s][A
 13%|█████████████▍                                                                                          | 1291/10000 [01:18<08:12, 17.67it/s]
                                                                                                                                                  [A
 13%|█████████████▍                                                                                          | 1291/10000 [01:18<08:12, 17.67it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[41320] loss: 0.058 


                                                                                                                                                  
 13%|█████████████▍                                                                                          | 1291/10000 [01:18<08:12, 17.67it/s]

[41340] loss: 0.113 



Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 575.27it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1330.26it/s][A

                                                                                                                                                  [A
 13%|█████████████▍                                                                                          | 1291/10000 [01:18<08:12, 17.67it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 819.73it/s][A


[41360] loss: 0.055 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1804.78it/s][A
 13%|█████████████▍                                                                                          | 1293/10000 [01:18<08:10, 17.74it/s]
                                                                                                                                                  [A
 13%|█████████████▍                                                                                          | 1293/10000 [01:18<08:10, 17.74it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[41380] loss: 0.044 


                                                                                                                                                  
 13%|█████████████▍                                                                                          | 1293/10000 [01:18<08:10, 17.74it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 812.98it/s][A


[41400] loss: 0.083 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 934.35it/s][A

                                                                                                                                                  [A
 13%|█████████████▍                                                                                          | 1293/10000 [01:18<08:10, 17.74it/s]


[41420] loss: 0.049 


                                                                                                                                                  [A
 13%|█████████████▍                                                                                          | 1293/10000 [01:18<08:10, 17.74it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 683.13it/s][A


[41440] loss: 0.016 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1127.20it/s][A
 13%|█████████████▍                                                                                          | 1295/10000 [01:18<07:58, 18.19it/s]
                                                                                                                                                  [A
 13%|█████████████▍                                                                                          | 1295/10000 [01:18<07:58, 18.19it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[41460] loss: 0.094 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 807.51it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2247.75it/s][A

                                                                                                                                                  [A
 13%|█████████████▍                                                                                          | 1295/10000 [01:18<07:58, 18.19it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[41480] loss: 0.059 


                                                                                                                                                  
 13%|█████████████▍                                                                                          | 1295/10000 [01:18<07:58, 18.19it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 774.71it/s][A


[41500] loss: 0.093 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1363.56it/s][A

                                                                                                                                                  [A
 13%|█████████████▍                                                                                          | 1295/10000 [01:18<07:58, 18.19it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[41520] loss: 0.052 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 705.23it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1657.17it/s][A
 13%|█████████████▍                                                                                          | 1298/10000 [01:18<07:40, 18.91it/s]
                                                                                                                                                  [A
 13%|█████████████▍                                                                                          | 1298/10000 [01:18<07:40, 18.91it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[41540] loss: 0.070 


                                                                                                                                                  
 13%|█████████████▍                                                                                          | 1298/10000 [01:18<07:40, 18.91it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[41560] loss: 0.065 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 654.58it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1500.65it/s][A

                                                                                                                                                  [A
 13%|█████████████▍                                                                                          | 1298/10000 [01:18<07:40, 18.91it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[41580] loss: 0.065 


                                                                                                                                                  
 13%|█████████████▍                                                                                          | 1298/10000 [01:18<07:40, 18.91it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 562.04it/s][A


[41600] loss: 0.059 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 756.00it/s][A
 13%|█████████████▌                                                                                          | 1300/10000 [01:18<08:00, 18.12it/s]
                                                                                                                                                  [A
 13%|█████████████▌                                                                                          | 1300/10000 [01:18<08:00, 18.12it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 687.50it/s][A

[41620] loss: 0.054 




Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1212.23it/s][A

                                                                                                                                                  [A
 13%|█████████████▌                                                                                          | 1300/10000 [01:18<08:00, 18.12it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[41640] loss: 0.059 


                                                                                                                                                  
 13%|█████████████▌                                                                                          | 1300/10000 [01:18<08:00, 18.12it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 658.65it/s][A


[41660] loss: 0.051 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1182.83it/s][A
 13%|█████████████▌                                                                                          | 1302/10000 [01:18<08:08, 17.80it/s]
                                                                                                                                                  [A
 13%|█████████████▌                                                                                          | 1302/10000 [01:18<08:08, 17.80it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[41680] loss: 0.047 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 667.88it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1040.00it/s][A

                                                                                                                                                  [A
 13%|█████████████▌                                                                                          | 1302/10000 [01:18<08:08, 17.80it/s]
                                                                                                                                                  [A
 13%|█████████████▌                                                                                          | 1302/10000 [01:18<08:08, 17.80it/s]
Training Epoch:   0%|                                                                                      

[41700] loss: 0.058 
[41720] loss: 0.039 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 560.74it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 919.60it/s][A
 13%|█████████████▌                                                                                          | 1304/10000 [01:18<08:20, 17.39it/s]
                                                                                                                                                  [A
 13%|█████████████▌                                                                                          | 1304/10000 [01:18<08:20, 17.39it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[41740] loss: 0.032 


                                                                                                                                                  
 13%|█████████████▌                                                                                          | 1304/10000 [01:18<08:20, 17.39it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 590.64it/s][A


[41760] loss: 0.098 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 300.88it/s][A

                                                                                                                                                  [A
 13%|█████████████▌                                                                                          | 1304/10000 [01:18<08:20, 17.39it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[41780] loss: 0.055 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 700.75it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1516.93it/s][A
 13%|█████████████▌                                                                                          | 1306/10000 [01:18<08:26, 17.18it/s]
                                                                                                                                                  [A
 13%|█████████████▌                                                                                          | 1306/10000 [01:18<08:26, 17.18it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[41800] loss: 0.053 


                                                                                                                                                  
 13%|█████████████▌                                                                                          | 1306/10000 [01:18<08:26, 17.18it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 628.92it/s][A


[41820] loss: 0.046 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1779.51it/s][A

                                                                                                                                                  [A
 13%|█████████████▌                                                                                          | 1306/10000 [01:18<08:26, 17.18it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[41840] loss: 0.054 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 662.78it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1498.50it/s][A
 13%|█████████████▌                                                                                          | 1308/10000 [01:18<08:26, 17.17it/s]
                                                                                                                                                  [A
 13%|█████████████▌                                                                                          | 1308/10000 [01:18<08:26, 17.17it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[41860] loss: 0.050 


                                                                                                                                                  
 13%|█████████████▌                                                                                          | 1308/10000 [01:19<08:26, 17.17it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 587.82it/s][A


[41880] loss: 0.081 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1460.92it/s][A

                                                                                                                                                  [A
 13%|█████████████▌                                                                                          | 1308/10000 [01:19<08:26, 17.17it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[41900] loss: 0.084 


                                                                                                                                                  
 13%|█████████████▌                                                                                          | 1308/10000 [01:19<08:26, 17.17it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 648.07it/s][A


[41920] loss: 0.027 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 222.04it/s][A
 13%|█████████████▌                                                                                          | 1310/10000 [01:19<08:38, 16.75it/s]
                                                                                                                                                  [A
 13%|█████████████▌                                                                                          | 1310/10000 [01:19<08:38, 16.75it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[41940] loss: 0.120 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 684.42it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1009.95it/s][A

                                                                                                                                                  [A
 13%|█████████████▌                                                                                          | 1310/10000 [01:19<08:38, 16.75it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[41960] loss: 0.038 


                                                                                                                                                  
 13%|█████████████▌                                                                                          | 1310/10000 [01:19<08:38, 16.75it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 633.62it/s][A


[41980] loss: 0.063 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1398.57it/s][A
 13%|█████████████▋                                                                                          | 1312/10000 [01:19<08:41, 16.65it/s]
                                                                                                                                                  [A
 13%|█████████████▋                                                                                          | 1312/10000 [01:19<08:41, 16.65it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[42000] loss: 0.063 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 585.27it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 857.38it/s][A

                                                                                                                                                  [A
 13%|█████████████▋                                                                                          | 1312/10000 [01:19<08:41, 16.65it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[42020] loss: 0.053 


                                                                                                                                                  
 13%|█████████████▋                                                                                          | 1312/10000 [01:19<08:41, 16.65it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 508.67it/s][A


[42040] loss: 0.049 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 453.49it/s][A
 13%|█████████████▋                                                                                          | 1314/10000 [01:19<09:02, 16.02it/s]
                                                                                                                                                  [A
 13%|█████████████▋                                                                                          | 1314/10000 [01:19<09:02, 16.02it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[42060] loss: 0.046 


                                                                                                                                                  
 13%|█████████████▋                                                                                          | 1314/10000 [01:19<09:02, 16.02it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 569.21it/s][A


[42080] loss: 0.147 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 972.25it/s][A

                                                                                                                                                  [A
 13%|█████████████▋                                                                                          | 1314/10000 [01:19<09:02, 16.02it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 652.91it/s][A


[42100] loss: 0.047 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1011.41it/s][A
 13%|█████████████▋                                                                                          | 1316/10000 [01:19<08:54, 16.25it/s]
                                                                                                                                                  [A
 13%|█████████████▋                                                                                          | 1316/10000 [01:19<08:54, 16.25it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[42120] loss: 0.062 


                                                                                                                                                  
 13%|█████████████▋                                                                                          | 1316/10000 [01:19<08:54, 16.25it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[42140] loss: 0.066 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 524.18it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1329.41it/s][A

                                                                                                                                                  [A
 13%|█████████████▋                                                                                          | 1316/10000 [01:19<08:54, 16.25it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[42160] loss: 0.061 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 601.14it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 574.64it/s][A
 13%|█████████████▋                                                                                          | 1318/10000 [01:19<09:03, 15.99it/s]
                                                                                                                                                  [A
 13%|█████████████▋                                                                                          | 1318/10000 [01:19<09:03, 15.99it/s]
                                                                                                                                                  [A
 13%|█████████████▋                                                                                         

[42180] loss: 0.047 
[42200] loss: 0.063 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 587.48it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 846.14it/s][A

                                                                                                                                                  [A
 13%|█████████████▋                                                                                          | 1318/10000 [01:19<09:03, 15.99it/s]
                                                                                                                                                  [A

[42220] loss: 0.058 



 13%|█████████████▋                                                                                          | 1318/10000 [01:19<09:03, 15.99it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 520.45it/s][A


[42240] loss: 0.021 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 324.06it/s][A
 13%|█████████████▋                                                                                          | 1320/10000 [01:19<09:16, 15.61it/s]
                                                                                                                                                  [A
 13%|█████████████▋                                                                                          | 1320/10000 [01:19<09:16, 15.61it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 538.84it/s][A


[42260] loss: 0.055 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 674.98it/s][A

                                                                                                                                                  [A
 13%|█████████████▋                                                                                          | 1320/10000 [01:19<09:16, 15.61it/s]
                                                                                                                                                  [A
 13%|█████████████▋                                                                                          | 1320/10000 [01:19<09:16, 15.61it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 530.21it/s][A


[42280] loss: 0.067 
[42300] loss: 0.062 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 579.48it/s][A
 13%|█████████████▋                                                                                          | 1322/10000 [01:19<09:26, 15.31it/s]
                                                                                                                                                  [A
 13%|█████████████▋                                                                                          | 1322/10000 [01:19<09:26, 15.31it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[42320] loss: 0.033 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 552.93it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 588.43it/s][A

                                                                                                                                                  [A
 13%|█████████████▋                                                                                          | 1322/10000 [01:19<09:26, 15.31it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[42340] loss: 0.077 


                                                                                                                                                  
 13%|█████████████▋                                                                                          | 1322/10000 [01:19<09:26, 15.31it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 478.67it/s][A


[42360] loss: 0.057 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 532.81it/s][A
 13%|█████████████▊                                                                                          | 1324/10000 [01:20<09:41, 14.91it/s]
                                                                                                                                                  [A
 13%|█████████████▊                                                                                          | 1324/10000 [01:20<09:41, 14.91it/s]
                                                                                                                                                  [A
 13%|█████████████▊                                                                                          | 1324/10000 [01:20<09:41, 14.91it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[42380] loss: 0.068 
[42400] loss: 0.041 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 260.50it/s][A

                                                                                                                                                  [A
 13%|█████████████▊                                                                                          | 1324/10000 [01:20<09:41, 14.91it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 595.78it/s][A


[42420] loss: 0.065 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 490.16it/s][A
 13%|█████████████▊                                                                                          | 1326/10000 [01:20<09:36, 15.05it/s]
                                                                                                                                                  [A
 13%|█████████████▊                                                                                          | 1326/10000 [01:20<09:36, 15.05it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[42440] loss: 0.040 


                                                                                                                                                  
 13%|█████████████▊                                                                                          | 1326/10000 [01:20<09:36, 15.05it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 540.42it/s][A


[42460] loss: 0.050 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 667.46it/s][A

                                                                                                                                                  [A
 13%|█████████████▊                                                                                          | 1326/10000 [01:20<09:36, 15.05it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 598.49it/s][A


[42480] loss: 0.078 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 680.34it/s][A
 13%|█████████████▊                                                                                          | 1328/10000 [01:20<09:33, 15.11it/s]
                                                                                                                                                  [A
 13%|█████████████▊                                                                                          | 1328/10000 [01:20<09:33, 15.11it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[42500] loss: 0.043 


                                                                                                                                                  
 13%|█████████████▊                                                                                          | 1328/10000 [01:20<09:33, 15.11it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 516.24it/s][A


[42520] loss: 0.057 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 899.49it/s][A

                                                                                                                                                  [A
 13%|█████████████▊                                                                                          | 1328/10000 [01:20<09:33, 15.11it/s]
                                                                                                                                                  [A
 13%|█████████████▊                                                                                          | 1328/10000 [01:20<09:33, 15.11it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[42540] loss: 0.050 
[42560] loss: 0.136 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 658.33it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1219.98it/s][A
 13%|█████████████▊                                                                                          | 1330/10000 [01:20<09:29, 15.22it/s]
                                                                                                                                                  [A
 13%|█████████████▊                                                                                          | 1330/10000 [01:20<09:29, 15.22it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[42580] loss: 0.047 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 789.90it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1868.29it/s][A

                                                                                                                                                  [A
 13%|█████████████▊                                                                                          | 1330/10000 [01:20<09:29, 15.22it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[42600] loss: 0.067 


                                                                                                                                                  
 13%|█████████████▊                                                                                          | 1330/10000 [01:20<09:29, 15.22it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 637.97it/s][A


[42620] loss: 0.094 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1042.84it/s][A
 13%|█████████████▊                                                                                          | 1332/10000 [01:20<08:56, 16.16it/s]
                                                                                                                                                  [A
 13%|█████████████▊                                                                                          | 1332/10000 [01:20<08:56, 16.16it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 774.75it/s][A


[42640] loss: 0.049 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 598.67it/s][A

                                                                                                                                                  [A
 13%|█████████████▊                                                                                          | 1332/10000 [01:20<08:56, 16.16it/s]
                                                                                                                                                  [A
 13%|█████████████▊                                                                                          | 1332/10000 [01:20<08:56, 16.16it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 772.38it/s][A


[42660] loss: 0.060 
[42680] loss: 0.119 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 779.76it/s][A
 13%|█████████████▊                                                                                          | 1334/10000 [01:20<08:25, 17.14it/s]
                                                                                                                                                  [A
 13%|█████████████▊                                                                                          | 1334/10000 [01:20<08:25, 17.14it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[42700] loss: 0.057 


                                                                                                                                                  
 13%|█████████████▊                                                                                          | 1334/10000 [01:20<08:25, 17.14it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 868.23it/s][A


[42720] loss: 0.072 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 250.74it/s][A

                                                                                                                                                  [A
 13%|█████████████▊                                                                                          | 1334/10000 [01:20<08:25, 17.14it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[42740] loss: 0.042 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 825.78it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1294.94it/s][A

                                                                                                                                                  [A
 13%|█████████████▊                                                                                          | 1334/10000 [01:20<08:25, 17.14it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[42760] loss: 0.065 


                                                                                                                                                  
 13%|█████████████▊                                                                                          | 1334/10000 [01:20<08:25, 17.14it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 645.90it/s][A


[42780] loss: 0.083 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 886.75it/s][A
 13%|█████████████▉                                                                                          | 1337/10000 [01:20<07:58, 18.09it/s]
                                                                                                                                                  [A
 13%|█████████████▉                                                                                          | 1337/10000 [01:20<07:58, 18.09it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 818.40it/s][A


[42800] loss: 0.046 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 803.66it/s][A

                                                                                                                                                  [A
 13%|█████████████▉                                                                                          | 1337/10000 [01:20<07:58, 18.09it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[42820] loss: 0.069 


                                                                                                                                                  
 13%|█████████████▉                                                                                          | 1337/10000 [01:20<07:58, 18.09it/s]

[42840] loss: 0.041 



Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 671.82it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1037.68it/s][A
 13%|█████████████▉                                                                                          | 1339/10000 [01:20<07:50, 18.43it/s]
                                                                                                                                                  [A
 13%|█████████████▉                                                                                          | 1339/10000 [01:20<07:50, 18.43it/s]
                                                                                                                                                  [A
 13%|█████████████▉                                                                                     

[42860] loss: 0.063 
[42880] loss: 0.056 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1525.20it/s][A

                                                                                                                                                  [A
 13%|█████████████▉                                                                                          | 1339/10000 [01:20<07:50, 18.43it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[42900] loss: 0.029 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 927.38it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1457.37it/s][A

                                                                                                                                                  [A
 13%|█████████████▉                                                                                          | 1339/10000 [01:20<07:50, 18.43it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[42920] loss: 0.066 


                                                                                                                                                  
 13%|█████████████▉                                                                                          | 1339/10000 [01:20<07:50, 18.43it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 864.08it/s][A


[42940] loss: 0.044 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1107.85it/s][A
 13%|█████████████▉                                                                                          | 1342/10000 [01:21<07:27, 19.33it/s]
                                                                                                                                                  [A
 13%|█████████████▉                                                                                          | 1342/10000 [01:21<07:27, 19.33it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[42960] loss: 0.077 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 846.94it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2139.95it/s][A

                                                                                                                                                  [A
 13%|█████████████▉                                                                                          | 1342/10000 [01:21<07:27, 19.33it/s]
                                                                                                                                                  [A
 13%|█████████████▉                                                                                          | 1342/10000 [01:21<07:27, 19.33it/s]
Training Epoch:   0%|                                                                                      

[42980] loss: 0.040 
[43000] loss: 0.059 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 789.80it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1468.08it/s][A

                                                                                                                                                  [A
 13%|█████████████▉                                                                                          | 1342/10000 [01:21<07:27, 19.33it/s]
                                                                                                                                                  [A


[43020] loss: 0.076 


 13%|█████████████▉                                                                                          | 1342/10000 [01:21<07:27, 19.33it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 731.18it/s][A


[43040] loss: 0.084 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 408.13it/s][A
 13%|█████████████▉                                                                                          | 1345/10000 [01:21<07:19, 19.71it/s]
                                                                                                                                                  [A
 13%|█████████████▉                                                                                          | 1345/10000 [01:21<07:19, 19.71it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[43060] loss: 0.077 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 750.33it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1356.06it/s][A

                                                                                                                                                  [A
 13%|█████████████▉                                                                                          | 1345/10000 [01:21<07:19, 19.71it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[43080] loss: 0.094 


                                                                                                                                                  
 13%|█████████████▉                                                                                          | 1345/10000 [01:21<07:19, 19.71it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 681.81it/s][A


[43100] loss: 0.079 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1281.88it/s][A
 13%|██████████████                                                                                          | 1347/10000 [01:21<07:26, 19.37it/s]
                                                                                                                                                  [A
 13%|██████████████                                                                                          | 1347/10000 [01:21<07:26, 19.37it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 721.42it/s][A


[43120] loss: 0.034 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2011.66it/s][A

                                                                                                                                                  [A
 13%|██████████████                                                                                          | 1347/10000 [01:21<07:26, 19.37it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[43140] loss: 0.037 


                                                                                                                                                  
 13%|██████████████                                                                                          | 1347/10000 [01:21<07:26, 19.37it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 656.43it/s][A


[43160] loss: 0.034 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 985.50it/s][A
 13%|██████████████                                                                                          | 1349/10000 [01:21<07:36, 18.96it/s]
                                                                                                                                                  [A
 13%|██████████████                                                                                          | 1349/10000 [01:21<07:36, 18.96it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[43180] loss: 0.048 


                                                                                                                                                  
 13%|██████████████                                                                                          | 1349/10000 [01:21<07:36, 18.96it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 548.76it/s][A


[43200] loss: 0.046 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 828.10it/s][A

                                                                                                                                                  [A
 13%|██████████████                                                                                          | 1349/10000 [01:21<07:36, 18.96it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[43220] loss: 0.096 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 599.58it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 481.66it/s][A
 14%|██████████████                                                                                          | 1351/10000 [01:21<08:02, 17.94it/s]
                                                                                                                                                  [A
 14%|██████████████                                                                                          | 1351/10000 [01:21<08:02, 17.94it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[43240] loss: 0.062 


                                                                                                                                                  
 14%|██████████████                                                                                          | 1351/10000 [01:21<08:02, 17.94it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 481.26it/s][A


[43260] loss: 0.055 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 806.29it/s][A

                                                                                                                                                  [A
 14%|██████████████                                                                                          | 1351/10000 [01:21<08:02, 17.94it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[43280] loss: 0.048 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 568.33it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 623.04it/s][A
 14%|██████████████                                                                                          | 1353/10000 [01:21<08:40, 16.61it/s]
                                                                                                                                                  [A
 14%|██████████████                                                                                          | 1353/10000 [01:21<08:40, 16.61it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[43300] loss: 0.027 


                                                                                                                                                  
 14%|██████████████                                                                                          | 1353/10000 [01:21<08:40, 16.61it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 491.32it/s][A


[43320] loss: 0.037 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 539.95it/s][A

                                                                                                                                                  [A
 14%|██████████████                                                                                          | 1353/10000 [01:21<08:40, 16.61it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[43340] loss: 0.058 


                                                                                                                                                  
 14%|██████████████                                                                                          | 1353/10000 [01:21<08:40, 16.61it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 533.42it/s][A


[43360] loss: 0.018 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 374.26it/s][A
 14%|██████████████                                                                                          | 1355/10000 [01:21<09:09, 15.73it/s]
                                                                                                                                                  [A
 14%|██████████████                                                                                          | 1355/10000 [01:21<09:09, 15.73it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 607.58it/s][A


[43380] loss: 0.088 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 474.63it/s][A

                                                                                                                                                  [A
 14%|██████████████                                                                                          | 1355/10000 [01:21<09:09, 15.73it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[43400] loss: 0.063 


                                                                                                                                                  
 14%|██████████████                                                                                          | 1355/10000 [01:21<09:09, 15.73it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 499.15it/s][A


[43420] loss: 0.068 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 948.94it/s][A
 14%|██████████████                                                                                          | 1357/10000 [01:21<09:23, 15.33it/s]
                                                                                                                                                  [A
 14%|██████████████                                                                                          | 1357/10000 [01:21<09:23, 15.33it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[43440] loss: 0.075 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 527.06it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 967.99it/s][A

                                                                                                                                                  [A
 14%|██████████████                                                                                          | 1357/10000 [01:22<09:23, 15.33it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[43460] loss: 0.066 


                                                                                                                                                  
 14%|██████████████                                                                                          | 1357/10000 [01:22<09:23, 15.33it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 474.94it/s][A


[43480] loss: 0.048 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 950.23it/s][A
 14%|██████████████▏                                                                                         | 1359/10000 [01:22<09:44, 14.79it/s]
                                                                                                                                                  [A
 14%|██████████████▏                                                                                         | 1359/10000 [01:22<09:44, 14.79it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[43500] loss: 0.032 


                                                                                                                                                  
 14%|██████████████▏                                                                                         | 1359/10000 [01:22<09:44, 14.79it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 488.74it/s][A


[43520] loss: 0.029 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 945.09it/s][A

                                                                                                                                                  [A
 14%|██████████████▏                                                                                         | 1359/10000 [01:22<09:44, 14.79it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 567.52it/s][A


[43540] loss: 0.069 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 962.66it/s][A
 14%|██████████████▏                                                                                         | 1361/10000 [01:22<09:46, 14.73it/s]
                                                                                                                                                  [A
 14%|██████████████▏                                                                                         | 1361/10000 [01:22<09:46, 14.73it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[43560] loss: 0.051 


                                                                                                                                                  
 14%|██████████████▏                                                                                         | 1361/10000 [01:22<09:46, 14.73it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 523.49it/s][A


[43580] loss: 0.066 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 761.77it/s][A

                                                                                                                                                  [A
 14%|██████████████▏                                                                                         | 1361/10000 [01:22<09:46, 14.73it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 603.06it/s][A


[43600] loss: 0.039 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 616.45it/s][A
 14%|██████████████▏                                                                                         | 1363/10000 [01:22<09:42, 14.83it/s]
                                                                                                                                                  [A
 14%|██████████████▏                                                                                         | 1363/10000 [01:22<09:42, 14.83it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[43620] loss: 0.043 


                                                                                                                                                  
 14%|██████████████▏                                                                                         | 1363/10000 [01:22<09:42, 14.83it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 474.50it/s][A


[43640] loss: 0.048 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 491.31it/s][A

                                                                                                                                                  [A
 14%|██████████████▏                                                                                         | 1363/10000 [01:22<09:42, 14.83it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[43660] loss: 0.041 


                                                                                                                                                  
 14%|██████████████▏                                                                                         | 1363/10000 [01:22<09:42, 14.83it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 520.16it/s][A


[43680] loss: 0.029 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 331.67it/s][A
 14%|██████████████▏                                                                                         | 1365/10000 [01:22<10:00, 14.39it/s]
                                                                                                                                                  [A
 14%|██████████████▏                                                                                         | 1365/10000 [01:22<10:00, 14.39it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 635.71it/s][A


[43700] loss: 0.077 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 573.07it/s][A

                                                                                                                                                  [A
 14%|██████████████▏                                                                                         | 1365/10000 [01:22<10:00, 14.39it/s]
                                                                                                                                                  [A
 14%|██████████████▏                                                                                         | 1365/10000 [01:22<10:00, 14.39it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[43720] loss: 0.055 
[43740] loss: 0.066 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 614.04it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 706.23it/s][A
 14%|██████████████▏                                                                                         | 1367/10000 [01:22<09:34, 15.02it/s]
                                                                                                                                                  [A
 14%|██████████████▏                                                                                         | 1367/10000 [01:22<09:34, 15.02it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[43760] loss: 0.053 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 669.66it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1594.19it/s][A

                                                                                                                                                  [A
 14%|██████████████▏                                                                                         | 1367/10000 [01:22<09:34, 15.02it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[43780] loss: 0.063 


                                                                                                                                                  
 14%|██████████████▏                                                                                         | 1367/10000 [01:22<09:34, 15.02it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 696.39it/s][A


[43800] loss: 0.053 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1027.51it/s][A
 14%|██████████████▏                                                                                         | 1369/10000 [01:22<09:06, 15.78it/s]
                                                                                                                                                  [A
 14%|██████████████▏                                                                                         | 1369/10000 [01:22<09:06, 15.78it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[43820] loss: 0.073 


                                                                                                                                                  
 14%|██████████████▏                                                                                         | 1369/10000 [01:22<09:06, 15.78it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 635.87it/s][A


[43840] loss: 0.041 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 892.98it/s][A

                                                                                                                                                  [A
 14%|██████████████▏                                                                                         | 1369/10000 [01:22<09:06, 15.78it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 763.62it/s][A


[43860] loss: 0.036 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 668.73it/s][A
 14%|██████████████▎                                                                                         | 1371/10000 [01:22<08:47, 16.36it/s]
                                                                                                                                                  [A
 14%|██████████████▎                                                                                         | 1371/10000 [01:22<08:47, 16.36it/s]
                                                                                                                                                  [A
 14%|██████████████▎                                                                                         | 1371/10000 [01:22<08:47, 16.36it/s]
Training Epoch:   0%|                                                                                       

[43880] loss: 0.048 
[43900] loss: 0.080 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 640.08it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1033.33it/s][A

                                                                                                                                                  [A
 14%|██████████████▎                                                                                         | 1371/10000 [01:22<08:47, 16.36it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[43920] loss: 0.057 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 645.77it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 944.03it/s][A
 14%|██████████████▎                                                                                         | 1373/10000 [01:22<08:42, 16.50it/s]
                                                                                                                                                  [A
 14%|██████████████▎                                                                                         | 1373/10000 [01:22<08:42, 16.50it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[43940] loss: 0.043 


                                                                                                                                                  
 14%|██████████████▎                                                                                         | 1373/10000 [01:23<08:42, 16.50it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[43960] loss: 0.055 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 560.61it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 845.46it/s][A

                                                                                                                                                  [A
 14%|██████████████▎                                                                                         | 1373/10000 [01:23<08:42, 16.50it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[43980] loss: 0.042 


                                                                                                                                                  
 14%|██████████████▎                                                                                         | 1373/10000 [01:23<08:42, 16.50it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 795.89it/s][A


[44000] loss: 0.068 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 439.29it/s][A
 14%|██████████████▎                                                                                         | 1375/10000 [01:23<08:36, 16.71it/s]
                                                                                                                                                  [A
 14%|██████████████▎                                                                                         | 1375/10000 [01:23<08:36, 16.71it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 824.85it/s][A


[44020] loss: 0.036 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1229.28it/s][A

                                                                                                                                                  [A
 14%|██████████████▎                                                                                         | 1375/10000 [01:23<08:36, 16.71it/s]
                                                                                                                                                  [A
 14%|██████████████▎                                                                                         | 1375/10000 [01:23<08:36, 16.71it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[44040] loss: 0.050 
[44060] loss: 0.032 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 612.34it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1234.71it/s][A
 14%|██████████████▎                                                                                         | 1377/10000 [01:23<08:17, 17.35it/s]
                                                                                                                                                  [A
 14%|██████████████▎                                                                                         | 1377/10000 [01:23<08:17, 17.35it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 665.06it/s][A


[44080] loss: 0.061 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 387.61it/s][A

                                                                                                                                                  [A
 14%|██████████████▎                                                                                         | 1377/10000 [01:23<08:17, 17.35it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[44100] loss: 0.087 


                                                                                                                                                  
 14%|██████████████▎                                                                                         | 1377/10000 [01:23<08:17, 17.35it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[44120] loss: 0.082 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 542.07it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1352.56it/s][A
 14%|██████████████▎                                                                                         | 1379/10000 [01:23<08:33, 16.78it/s]
                                                                                                                                                  [A
 14%|██████████████▎                                                                                         | 1379/10000 [01:23<08:33, 16.78it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[44140] loss: 0.065 


                                                                                                                                                  
 14%|██████████████▎                                                                                         | 1379/10000 [01:23<08:33, 16.78it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 685.75it/s][A


[44160] loss: 0.063 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1383.80it/s][A

                                                                                                                                                  [A
 14%|██████████████▎                                                                                         | 1379/10000 [01:23<08:33, 16.78it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[44180] loss: 0.082 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 703.80it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1424.70it/s][A
 14%|██████████████▎                                                                                         | 1381/10000 [01:23<08:19, 17.25it/s]
                                                                                                                                                  [A
 14%|██████████████▎                                                                                         | 1381/10000 [01:23<08:19, 17.25it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[44200] loss: 0.048 


                                                                                                                                                  
 14%|██████████████▎                                                                                         | 1381/10000 [01:23<08:19, 17.25it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 612.66it/s][A


[44220] loss: 0.035 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1455.34it/s][A

                                                                                                                                                  [A
 14%|██████████████▎                                                                                         | 1381/10000 [01:23<08:19, 17.25it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 795.64it/s][A


[44240] loss: 0.041 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1316.48it/s][A
 14%|██████████████▍                                                                                         | 1383/10000 [01:23<08:13, 17.45it/s]
                                                                                                                                                  [A
 14%|██████████████▍                                                                                         | 1383/10000 [01:23<08:13, 17.45it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[44260] loss: 0.060 


                                                                                                                                                  
 14%|██████████████▍                                                                                         | 1383/10000 [01:23<08:13, 17.45it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 659.44it/s][A


[44280] loss: 0.044 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1506.57it/s][A

                                                                                                                                                  [A
 14%|██████████████▍                                                                                         | 1383/10000 [01:23<08:13, 17.45it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[44300] loss: 0.062 


                                                                                                                                                  
 14%|██████████████▍                                                                                         | 1383/10000 [01:23<08:13, 17.45it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 571.87it/s][A


[44320] loss: 0.093 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 206.30it/s][A
 14%|██████████████▍                                                                                         | 1385/10000 [01:23<08:26, 17.02it/s]
                                                                                                                                                  [A
 14%|██████████████▍                                                                                         | 1385/10000 [01:23<08:26, 17.02it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[44340] loss: 0.106 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 594.16it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 555.83it/s][A

                                                                                                                                                  [A
 14%|██████████████▍                                                                                         | 1385/10000 [01:23<08:26, 17.02it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[44360] loss: 0.087 


                                                                                                                                                  
 14%|██████████████▍                                                                                         | 1385/10000 [01:23<08:26, 17.02it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 494.20it/s][A


[44380] loss: 0.097 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 760.39it/s][A
 14%|██████████████▍                                                                                         | 1387/10000 [01:23<08:53, 16.16it/s]
                                                                                                                                                  [A
 14%|██████████████▍                                                                                         | 1387/10000 [01:23<08:53, 16.16it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[44400] loss: 0.045 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 536.52it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 959.36it/s][A

                                                                                                                                                  [A
 14%|██████████████▍                                                                                         | 1387/10000 [01:23<08:53, 16.16it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[44420] loss: 0.028 


                                                                                                                                                  
 14%|██████████████▍                                                                                         | 1387/10000 [01:23<08:53, 16.16it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 454.90it/s][A


[44440] loss: 0.061 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 415.77it/s][A
 14%|██████████████▍                                                                                         | 1389/10000 [01:23<09:32, 15.05it/s]
                                                                                                                                                  [A
 14%|██████████████▍                                                                                         | 1389/10000 [01:23<09:32, 15.05it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[44460] loss: 0.057 


                                                                                                                                                  
 14%|██████████████▍                                                                                         | 1389/10000 [01:24<09:32, 15.05it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 416.54it/s][A


[44480] loss: 0.035 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 290.73it/s][A

                                                                                                                                                  [A
 14%|██████████████▍                                                                                         | 1389/10000 [01:24<09:32, 15.05it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 567.61it/s][A


[44500] loss: 0.043 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 420.95it/s][A
 14%|██████████████▍                                                                                         | 1391/10000 [01:24<10:19, 13.89it/s]
                                                                                                                                                  [A
 14%|██████████████▍                                                                                         | 1391/10000 [01:24<10:19, 13.89it/s]
                                                                                                                                                  [A
 14%|██████████████▍                                                                                         | 1391/10000 [01:24<10:19, 13.89it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[44520] loss: 0.052 
[44540] loss: 0.085 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 812.22it/s][A

                                                                                                                                                  [A
 14%|██████████████▍                                                                                         | 1391/10000 [01:24<10:19, 13.89it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[44560] loss: 0.077 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 502.63it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 733.53it/s][A
 14%|██████████████▍                                                                                         | 1393/10000 [01:24<10:23, 13.80it/s]
                                                                                                                                                  [A
 14%|██████████████▍                                                                                         | 1393/10000 [01:24<10:23, 13.80it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[44580] loss: 0.069 


                                                                                                                                                  
 14%|██████████████▍                                                                                         | 1393/10000 [01:24<10:23, 13.80it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 494.47it/s][A


[44600] loss: 0.064 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 289.66it/s][A

                                                                                                                                                  [A
 14%|██████████████▍                                                                                         | 1393/10000 [01:24<10:23, 13.80it/s]
                                                                                                                                                  [A
 14%|██████████████▍                                                                                         | 1393/10000 [01:24<10:23, 13.80it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 515.85it/s][A


[44620] loss: 0.070 
[44640] loss: 0.030 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 480.39it/s][A
 14%|██████████████▌                                                                                         | 1395/10000 [01:24<10:26, 13.73it/s]
                                                                                                                                                  [A
 14%|██████████████▌                                                                                         | 1395/10000 [01:24<10:26, 13.73it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 586.61it/s][A


[44660] loss: 0.048 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 633.29it/s][A

                                                                                                                                                  [A
 14%|██████████████▌                                                                                         | 1395/10000 [01:24<10:26, 13.73it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[44680] loss: 0.078 


                                                                                                                                                  
 14%|██████████████▌                                                                                         | 1395/10000 [01:24<10:26, 13.73it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 478.92it/s][A


[44700] loss: 0.098 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 619.73it/s][A
 14%|██████████████▌                                                                                         | 1397/10000 [01:24<10:21, 13.85it/s]
                                                                                                                                                  [A
 14%|██████████████▌                                                                                         | 1397/10000 [01:24<10:21, 13.85it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 567.76it/s][A


[44720] loss: 0.112 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 523.83it/s][A

                                                                                                                                                  [A
 14%|██████████████▌                                                                                         | 1397/10000 [01:24<10:21, 13.85it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[44740] loss: 0.073 


                                                                                                                                                  
 14%|██████████████▌                                                                                         | 1397/10000 [01:24<10:21, 13.85it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 496.39it/s][A


[44760] loss: 0.073 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 622.12it/s][A
 14%|██████████████▌                                                                                         | 1399/10000 [01:24<10:16, 13.96it/s]
                                                                                                                                                  [A
 14%|██████████████▌                                                                                         | 1399/10000 [01:24<10:16, 13.96it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[44780] loss: 0.073 


                                                                                                                                                  
 14%|██████████████▌                                                                                         | 1399/10000 [01:24<10:16, 13.96it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 594.84it/s][A


[44800] loss: 0.049 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1015.32it/s][A

                                                                                                                                                  [A
 14%|██████████████▌                                                                                         | 1399/10000 [01:24<10:16, 13.96it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 627.55it/s][A


[44820] loss: 0.073 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 500.45it/s][A
 14%|██████████████▌                                                                                         | 1401/10000 [01:24<09:45, 14.68it/s]
                                                                                                                                                  [A
 14%|██████████████▌                                                                                         | 1401/10000 [01:24<09:45, 14.68it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[44840] loss: 0.085 


                                                                                                                                                  
 14%|██████████████▌                                                                                         | 1401/10000 [01:24<09:45, 14.68it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 726.61it/s][A


[44860] loss: 0.105 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 592.67it/s][A

                                                                                                                                                  [A
 14%|██████████████▌                                                                                         | 1401/10000 [01:24<09:45, 14.68it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 834.02it/s][A


[44880] loss: 0.051 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1121.17it/s][A
 14%|██████████████▌                                                                                         | 1403/10000 [01:24<09:02, 15.84it/s]
                                                                                                                                                  [A
 14%|██████████████▌                                                                                         | 1403/10000 [01:24<09:02, 15.84it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[44900] loss: 0.056 


                                                                                                                                                  
 14%|██████████████▌                                                                                         | 1403/10000 [01:24<09:02, 15.84it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 638.17it/s][A


[44920] loss: 0.038 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1375.63it/s][A

                                                                                                                                                  [A
 14%|██████████████▌                                                                                         | 1403/10000 [01:24<09:02, 15.84it/s]
                                                                                                                                                  [A
 14%|██████████████▌                                                                                         | 1403/10000 [01:25<09:02, 15.84it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 698.66it/s][A


[44940] loss: 0.055 
[44960] loss: 0.086 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 423.28it/s][A
 14%|██████████████▌                                                                                         | 1405/10000 [01:25<08:46, 16.34it/s]
                                                                                                                                                  [A
 14%|██████████████▌                                                                                         | 1405/10000 [01:25<08:46, 16.34it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 762.59it/s][A


[44980] loss: 0.027 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 691.33it/s][A

                                                                                                                                                  [A
 14%|██████████████▌                                                                                         | 1405/10000 [01:25<08:46, 16.34it/s]
                                                                                                                                                  [A
 14%|██████████████▌                                                                                         | 1405/10000 [01:25<08:46, 16.34it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[45000] loss: 0.037 
[45020] loss: 0.050 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 623.68it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1447.31it/s][A
 14%|██████████████▋                                                                                         | 1407/10000 [01:25<08:30, 16.83it/s]
                                                                                                                                                  [A
 14%|██████████████▋                                                                                         | 1407/10000 [01:25<08:30, 16.83it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 767.83it/s][A


[45040] loss: 0.091 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 672.27it/s][A

                                                                                                                                                  [A
 14%|██████████████▋                                                                                         | 1407/10000 [01:25<08:30, 16.83it/s]
                                                                                                                                                  [A
 14%|██████████████▋                                                                                         | 1407/10000 [01:25<08:30, 16.83it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 751.42it/s][A


[45060] loss: 0.062 
[45080] loss: 0.042 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1522.43it/s][A

                                                                                                                                                  [A
 14%|██████████████▋                                                                                         | 1407/10000 [01:25<08:30, 16.83it/s]
                                                                                                                                                  [A
 14%|██████████████▋                                                                                         | 1407/10000 [01:25<08:30, 16.83it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 753.28it/s][A


[45100] loss: 0.066 
[45120] loss: 0.094 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2304.56it/s][A
 14%|██████████████▋                                                                                         | 1410/10000 [01:25<07:55, 18.07it/s]
                                                                                                                                                  [A
 14%|██████████████▋                                                                                         | 1410/10000 [01:25<07:55, 18.07it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 740.04it/s][A


[45140] loss: 0.075 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2150.93it/s][A

                                                                                                                                                  [A
 14%|██████████████▋                                                                                         | 1410/10000 [01:25<07:55, 18.07it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[45160] loss: 0.078 


                                                                                                                                                  
 14%|██████████████▋                                                                                         | 1410/10000 [01:25<07:55, 18.07it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 760.32it/s][A


[45180] loss: 0.069 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1594.19it/s][A

                                                                                                                                                  [A
 14%|██████████████▋                                                                                         | 1410/10000 [01:25<07:55, 18.07it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 880.21it/s][A


[45200] loss: 0.046 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2313.46it/s][A
 14%|██████████████▋                                                                                         | 1413/10000 [01:25<07:27, 19.21it/s]
                                                                                                                                                  [A
 14%|██████████████▋                                                                                         | 1413/10000 [01:25<07:27, 19.21it/s]
                                                                                                                                                  [A
 14%|██████████████▋                                                                                         | 1413/10000 [01:25<07:27, 19.21it/s]

[45220] loss: 0.061 
[45240] loss: 0.082 



Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 775.19it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1155.14it/s][A

                                                                                                                                                  [A
 14%|██████████████▋                                                                                         | 1413/10000 [01:25<07:27, 19.21it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[45260] loss: 0.067 


                                                                                                                                                  
 14%|██████████████▋                                                                                         | 1413/10000 [01:25<07:27, 19.21it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 646.81it/s][A


[45280] loss: 0.027 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1474.27it/s][A
 14%|██████████████▋                                                                                         | 1415/10000 [01:25<07:30, 19.07it/s]
                                                                                                                                                  [A
 14%|██████████████▋                                                                                         | 1415/10000 [01:25<07:30, 19.07it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[45300] loss: 0.045 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 747.59it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 871.09it/s][A

                                                                                                                                                  [A
 14%|██████████████▋                                                                                         | 1415/10000 [01:25<07:30, 19.07it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[45320] loss: 0.091 


                                                                                                                                                  
 14%|██████████████▋                                                                                         | 1415/10000 [01:25<07:30, 19.07it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 711.55it/s][A


[45340] loss: 0.058 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1445.81it/s][A
 14%|██████████████▋                                                                                         | 1417/10000 [01:25<07:30, 19.07it/s]
                                                                                                                                                  [A
 14%|██████████████▋                                                                                         | 1417/10000 [01:25<07:30, 19.07it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 745.49it/s][A


[45360] loss: 0.054 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 622.76it/s][A

                                                                                                                                                  [A
 14%|██████████████▋                                                                                         | 1417/10000 [01:25<07:30, 19.07it/s]
                                                                                                                                                  [A
 14%|██████████████▋                                                                                         | 1417/10000 [01:25<07:30, 19.07it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[45380] loss: 0.033 
[45400] loss: 0.073 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 726.99it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1512.55it/s][A
 14%|██████████████▊                                                                                         | 1419/10000 [01:25<07:27, 19.17it/s]
                                                                                                                                                  [A
 14%|██████████████▊                                                                                         | 1419/10000 [01:25<07:27, 19.17it/s]
                                                                                                                                                  [A
 14%|██████████████▊                                                                                        

[45420] loss: 0.038 
[45440] loss: 0.043 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1513.10it/s][A

                                                                                                                                                  [A
 14%|██████████████▊                                                                                         | 1419/10000 [01:25<07:27, 19.17it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[45460] loss: 0.048 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 836.10it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 727.93it/s][A
 14%|██████████████▊                                                                                         | 1421/10000 [01:25<07:22, 19.39it/s]
                                                                                                                                                  [A
 14%|██████████████▊                                                                                         | 1421/10000 [01:25<07:22, 19.39it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[45480] loss: 0.060 


                                                                                                                                                  
 14%|██████████████▊                                                                                         | 1421/10000 [01:25<07:22, 19.39it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 641.55it/s][A


[45500] loss: 0.058 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 817.44it/s][A

                                                                                                                                                  [A
 14%|██████████████▊                                                                                         | 1421/10000 [01:25<07:22, 19.39it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 584.00it/s][A


[45520] loss: 0.066 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 720.30it/s][A
 14%|██████████████▊                                                                                         | 1423/10000 [01:25<07:46, 18.40it/s]
                                                                                                                                                  [A
 14%|██████████████▊                                                                                         | 1423/10000 [01:25<07:46, 18.40it/s]
                                                                                                                                                  [A
 14%|██████████████▊                                                                                         | 1423/10000 [01:26<07:46, 18.40it/s]
Training Epoch:   0%|                                                                                       

[45540] loss: 0.082 
[45560] loss: 0.079 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 504.73it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 794.23it/s][A

                                                                                                                                                  [A
 14%|██████████████▊                                                                                         | 1423/10000 [01:26<07:46, 18.40it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[45580] loss: 0.055 


                                                                                                                                                  
 14%|██████████████▊                                                                                         | 1423/10000 [01:26<07:46, 18.40it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 566.87it/s][A


[45600] loss: 0.099 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 266.54it/s][A
 14%|██████████████▊                                                                                         | 1425/10000 [01:26<08:20, 17.14it/s]
                                                                                                                                                  [A
 14%|██████████████▊                                                                                         | 1425/10000 [01:26<08:20, 17.14it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 650.17it/s][A


[45620] loss: 0.044 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 607.87it/s][A

                                                                                                                                                  [A
 14%|██████████████▊                                                                                         | 1425/10000 [01:26<08:20, 17.14it/s]
                                                                                                                                                  [A
 14%|██████████████▊                                                                                         | 1425/10000 [01:26<08:20, 17.14it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 512.32it/s][A


[45640] loss: 0.045 
[45660] loss: 0.048 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 852.33it/s][A
 14%|██████████████▊                                                                                         | 1427/10000 [01:26<08:35, 16.64it/s]
                                                                                                                                                  [A
 14%|██████████████▊                                                                                         | 1427/10000 [01:26<08:35, 16.64it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 623.80it/s][A


[45680] loss: 0.049 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 628.64it/s][A

                                                                                                                                                  [A
 14%|██████████████▊                                                                                         | 1427/10000 [01:26<08:35, 16.64it/s]
                                                                                                                                                  [A

[45700] loss: 0.054 



 14%|██████████████▊                                                                                         | 1427/10000 [01:26<08:35, 16.64it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 539.14it/s][A


[45720] loss: 0.112 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 564.66it/s][A
 14%|██████████████▊                                                                                         | 1429/10000 [01:26<08:43, 16.36it/s]
                                                                                                                                                  [A
 14%|██████████████▊                                                                                         | 1429/10000 [01:26<08:43, 16.36it/s]
                                                                                                                                                  [A
 14%|██████████████▊                                                                                         | 1429/10000 [01:26<08:43, 16.36it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[45740] loss: 0.025 
[45760] loss: 0.062 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 288.13it/s][A

                                                                                                                                                  [A
 14%|██████████████▊                                                                                         | 1429/10000 [01:26<08:43, 16.36it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 597.15it/s][A


[45780] loss: 0.052 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1321.87it/s][A
 14%|██████████████▉                                                                                         | 1431/10000 [01:26<08:55, 15.99it/s]
                                                                                                                                                  [A
 14%|██████████████▉                                                                                         | 1431/10000 [01:26<08:55, 15.99it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[45800] loss: 0.047 


                                                                                                                                                  
 14%|██████████████▉                                                                                         | 1431/10000 [01:26<08:55, 15.99it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 516.04it/s][A


[45820] loss: 0.085 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 645.08it/s][A

                                                                                                                                                  [A
 14%|██████████████▉                                                                                         | 1431/10000 [01:26<08:55, 15.99it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 504.96it/s][A


[45840] loss: 0.050 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 751.80it/s][A
 14%|██████████████▉                                                                                         | 1433/10000 [01:26<09:21, 15.25it/s]
                                                                                                                                                  [A
 14%|██████████████▉                                                                                         | 1433/10000 [01:26<09:21, 15.25it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[45860] loss: 0.075 


                                                                                                                                                  
 14%|██████████████▉                                                                                         | 1433/10000 [01:26<09:21, 15.25it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 507.39it/s][A


[45880] loss: 0.070 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 403.49it/s][A

                                                                                                                                                  [A
 14%|██████████████▉                                                                                         | 1433/10000 [01:26<09:21, 15.25it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[45900] loss: 0.063 


                                                                                                                                                  
 14%|██████████████▉                                                                                         | 1433/10000 [01:26<09:21, 15.25it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 508.76it/s][A


[45920] loss: 0.018 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 326.79it/s][A
 14%|██████████████▉                                                                                         | 1435/10000 [01:26<09:40, 14.75it/s]
                                                                                                                                                  [A
 14%|██████████████▉                                                                                         | 1435/10000 [01:26<09:40, 14.75it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 561.57it/s][A


[45940] loss: 0.068 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 488.22it/s][A

                                                                                                                                                  [A
 14%|██████████████▉                                                                                         | 1435/10000 [01:26<09:40, 14.75it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[45960] loss: 0.085 


                                                                                                                                                  
 14%|██████████████▉                                                                                         | 1435/10000 [01:26<09:40, 14.75it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 485.61it/s][A


[45980] loss: 0.035 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 781.35it/s][A
 14%|██████████████▉                                                                                         | 1437/10000 [01:26<09:48, 14.54it/s]
                                                                                                                                                  [A
 14%|██████████████▉                                                                                         | 1437/10000 [01:26<09:48, 14.54it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[46000] loss: 0.074 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 543.72it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 659.59it/s][A

                                                                                                                                                  [A
 14%|██████████████▉                                                                                         | 1437/10000 [01:26<09:48, 14.54it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[46020] loss: 0.044 


                                                                                                                                                  
 14%|██████████████▉                                                                                         | 1437/10000 [01:27<09:48, 14.54it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 486.53it/s][A


[46040] loss: 0.054 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1426.15it/s][A
 14%|██████████████▉                                                                                         | 1439/10000 [01:27<09:59, 14.28it/s]
                                                                                                                                                  [A
 14%|██████████████▉                                                                                         | 1439/10000 [01:27<09:59, 14.28it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[46060] loss: 0.050 


                                                                                                                                                  
 14%|██████████████▉                                                                                         | 1439/10000 [01:27<09:59, 14.28it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 621.44it/s][A


[46080] loss: 0.028 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1156.41it/s][A

                                                                                                                                                  [A
 14%|██████████████▉                                                                                         | 1439/10000 [01:27<09:59, 14.28it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 754.95it/s][A


[46100] loss: 0.059 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1737.49it/s][A
 14%|██████████████▉                                                                                         | 1441/10000 [01:27<09:24, 15.16it/s]
                                                                                                                                                  [A
 14%|██████████████▉                                                                                         | 1441/10000 [01:27<09:24, 15.16it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[46120] loss: 0.094 


                                                                                                                                                  
 14%|██████████████▉                                                                                         | 1441/10000 [01:27<09:24, 15.16it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 623.18it/s][A


[46140] loss: 0.066 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1386.09it/s][A

                                                                                                                                                  [A
 14%|██████████████▉                                                                                         | 1441/10000 [01:27<09:24, 15.16it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 684.61it/s][A


[46160] loss: 0.045 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 918.59it/s][A
 14%|███████████████                                                                                         | 1443/10000 [01:27<09:05, 15.70it/s]
                                                                                                                                                  [A
 14%|███████████████                                                                                         | 1443/10000 [01:27<09:05, 15.70it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[46180] loss: 0.036 


                                                                                                                                                  
 14%|███████████████                                                                                         | 1443/10000 [01:27<09:05, 15.70it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 606.07it/s][A


[46200] loss: 0.047 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 842.06it/s][A

                                                                                                                                                  [A
 14%|███████████████                                                                                         | 1443/10000 [01:27<09:05, 15.70it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[46220] loss: 0.051 


                                                                                                                                                  
 14%|███████████████                                                                                         | 1443/10000 [01:27<09:05, 15.70it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 746.70it/s][A


[46240] loss: 0.096 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1335.77it/s][A
 14%|███████████████                                                                                         | 1445/10000 [01:27<08:44, 16.30it/s]
                                                                                                                                                  [A
 14%|███████████████                                                                                         | 1445/10000 [01:27<08:44, 16.30it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 818.03it/s][A


[46260] loss: 0.036 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1108.72it/s][A

                                                                                                                                                  [A
 14%|███████████████                                                                                         | 1445/10000 [01:27<08:44, 16.30it/s]
                                                                                                                                                  [A
 14%|███████████████                                                                                         | 1445/10000 [01:27<08:44, 16.30it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 683.66it/s][A


[46280] loss: 0.047 
[46300] loss: 0.053 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 693.96it/s][A
 14%|███████████████                                                                                         | 1447/10000 [01:27<08:16, 17.24it/s]
                                                                                                                                                  [A
 14%|███████████████                                                                                         | 1447/10000 [01:27<08:16, 17.24it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[46320] loss: 0.044 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 710.62it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 999.36it/s][A

                                                                                                                                                  [A
 14%|███████████████                                                                                         | 1447/10000 [01:27<08:16, 17.24it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[46340] loss: 0.044 


                                                                                                                                                  
 14%|███████████████                                                                                         | 1447/10000 [01:27<08:16, 17.24it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 640.48it/s][A


[46360] loss: 0.046 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1378.35it/s][A
 14%|███████████████                                                                                         | 1449/10000 [01:27<08:16, 17.23it/s]
                                                                                                                                                  [A
 14%|███████████████                                                                                         | 1449/10000 [01:27<08:16, 17.23it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[46380] loss: 0.055 


                                                                                                                                                  
 14%|███████████████                                                                                         | 1449/10000 [01:27<08:16, 17.23it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 671.40it/s][A


[46400] loss: 0.026 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 924.47it/s][A

                                                                                                                                                  [A
 14%|███████████████                                                                                         | 1449/10000 [01:27<08:16, 17.23it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 743.80it/s][A


[46420] loss: 0.035 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1026.00it/s][A
 15%|███████████████                                                                                         | 1451/10000 [01:27<08:05, 17.61it/s]
                                                                                                                                                  [A
 15%|███████████████                                                                                         | 1451/10000 [01:27<08:05, 17.61it/s]
                                                                                                                                                  [A
 15%|███████████████                                                                                         | 1451/10000 [01:27<08:05, 17.61it/s]
Training Epoch:   0%|                                                                                       

[46440] loss: 0.059 
[46460] loss: 0.051 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 684.15it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1387.92it/s][A

                                                                                                                                                  [A
 15%|███████████████                                                                                         | 1451/10000 [01:27<08:05, 17.61it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 708.77it/s][A


[46480] loss: 0.056 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1092.55it/s][A
 15%|███████████████                                                                                         | 1453/10000 [01:27<07:59, 17.82it/s]
                                                                                                                                                  [A
 15%|███████████████                                                                                         | 1453/10000 [01:27<07:59, 17.82it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[46500] loss: 0.053 


                                                                                                                                                  
 15%|███████████████                                                                                         | 1453/10000 [01:27<07:59, 17.82it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 605.94it/s][A


[46520] loss: 0.023 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1390.68it/s][A

                                                                                                                                                  [A
 15%|███████████████                                                                                         | 1453/10000 [01:27<07:59, 17.82it/s]
                                                                                                                                                  [A
[A                                                                                                                                               

[46540] loss: 0.040 
[46560] loss: 0.033 


 15%|███████████████                                                                                         | 1453/10000 [01:27<07:59, 17.82it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 684.75it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1049.10it/s][A
 15%|███████████████▏                                                                                        | 1455/10000 [01:27<08:05, 17.61it/s]
                                                                                                                                                  [A
 15%|███████████████▏                                                                                        | 1455/10000 [01:27<08:05, 17.61it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[46580] loss: 0.055 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1900.45it/s][A

                                                                                                                                                  [A
 15%|███████████████▏                                                                                        | 1455/10000 [01:28<08:05, 17.61it/s]
                                                                                                                                                  [A
 15%|███████████████▏                                                                                        | 1455/10000 [01:28<08:05, 17.61it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[46600] loss: 0.083 
[46620] loss: 0.049 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 742.54it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1416.52it/s][A
 15%|███████████████▏                                                                                        | 1457/10000 [01:28<07:49, 18.21it/s]
                                                                                                                                                  [A
 15%|███████████████▏                                                                                        | 1457/10000 [01:28<07:49, 18.21it/s]

[46640] loss: 0.072 



Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 773.21it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1410.32it/s][A

                                                                                                                                                  [A
 15%|███████████████▏                                                                                        | 1457/10000 [01:28<07:49, 18.21it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[46660] loss: 0.082 


                                                                                                                                                  
 15%|███████████████▏                                                                                        | 1457/10000 [01:28<07:49, 18.21it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 600.60it/s][A


[46680] loss: 0.058 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 547.63it/s][A
 15%|███████████████▏                                                                                        | 1459/10000 [01:28<07:51, 18.13it/s]
                                                                                                                                                  [A
 15%|███████████████▏                                                                                        | 1459/10000 [01:28<07:51, 18.13it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[46700] loss: 0.042 


                                                                                                                                                  
 15%|███████████████▏                                                                                        | 1459/10000 [01:28<07:51, 18.13it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 541.67it/s][A


[46720] loss: 0.046 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 265.56it/s][A

                                                                                                                                                  [A
 15%|███████████████▏                                                                                        | 1459/10000 [01:28<07:51, 18.13it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[46740] loss: 0.040 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 605.99it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 814.74it/s][A
 15%|███████████████▏                                                                                        | 1461/10000 [01:28<08:17, 17.17it/s]
                                                                                                                                                  [A
 15%|███████████████▏                                                                                        | 1461/10000 [01:28<08:17, 17.17it/s]

[46760] loss: 0.083 



                                                                                                                                                  [A
 15%|███████████████▏                                                                                        | 1461/10000 [01:28<08:17, 17.17it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 493.16it/s][A


[46780] loss: 0.034 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1224.97it/s][A

                                                                                                                                                  [A
 15%|███████████████▏                                                                                        | 1461/10000 [01:28<08:17, 17.17it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[46800] loss: 0.064 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 589.75it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 484.55it/s][A
 15%|███████████████▏                                                                                        | 1463/10000 [01:28<08:44, 16.28it/s]
                                                                                                                                                  [A
 15%|███████████████▏                                                                                        | 1463/10000 [01:28<08:44, 16.28it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[46820] loss: 0.055 


                                                                                                                                                  
 15%|███████████████▏                                                                                        | 1463/10000 [01:28<08:44, 16.28it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 524.34it/s][A


[46840] loss: 0.061 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 992.50it/s][A

                                                                                                                                                  [A
 15%|███████████████▏                                                                                        | 1463/10000 [01:28<08:44, 16.28it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[46860] loss: 0.051 


                                                                                                                                                  
 15%|███████████████▏                                                                                        | 1463/10000 [01:28<08:44, 16.28it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 567.09it/s][A


[46880] loss: 0.104 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 226.29it/s][A
 15%|███████████████▏                                                                                        | 1465/10000 [01:28<09:05, 15.65it/s]
                                                                                                                                                  [A
 15%|███████████████▏                                                                                        | 1465/10000 [01:28<09:05, 15.65it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 678.10it/s][A


[46900] loss: 0.047 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 945.51it/s][A

                                                                                                                                                  [A
 15%|███████████████▏                                                                                        | 1465/10000 [01:28<09:05, 15.65it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[46920] loss: 0.068 


                                                                                                                                                  
 15%|███████████████▏                                                                                        | 1465/10000 [01:28<09:05, 15.65it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[46940] loss: 0.066 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 558.85it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 789.14it/s][A
 15%|███████████████▎                                                                                        | 1467/10000 [01:28<08:55, 15.92it/s]
                                                                                                                                                  [A
 15%|███████████████▎                                                                                        | 1467/10000 [01:28<08:55, 15.92it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[46960] loss: 0.047 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 582.93it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 926.71it/s][A

                                                                                                                                                  [A
 15%|███████████████▎                                                                                        | 1467/10000 [01:28<08:55, 15.92it/s]
                                                                                                                                                  [A


[46980] loss: 0.049 


 15%|███████████████▎                                                                                        | 1467/10000 [01:28<08:55, 15.92it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 501.95it/s][A


[47000] loss: 0.059 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 898.72it/s][A
 15%|███████████████▎                                                                                        | 1469/10000 [01:28<09:10, 15.49it/s]
                                                                                                                                                  [A
 15%|███████████████▎                                                                                        | 1469/10000 [01:28<09:10, 15.49it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[47020] loss: 0.074 


                                                                                                                                                  
 15%|███████████████▎                                                                                        | 1469/10000 [01:28<09:10, 15.49it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 519.33it/s][A


[47040] loss: 0.076 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 544.15it/s][A

                                                                                                                                                  [A
 15%|███████████████▎                                                                                        | 1469/10000 [01:28<09:10, 15.49it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 610.19it/s][A


[47060] loss: 0.051 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 482.99it/s][A
 15%|███████████████▎                                                                                        | 1471/10000 [01:28<09:14, 15.38it/s]
                                                                                                                                                  [A
 15%|███████████████▎                                                                                        | 1471/10000 [01:28<09:14, 15.38it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[47080] loss: 0.077 


                                                                                                                                                  
 15%|███████████████▎                                                                                        | 1471/10000 [01:29<09:14, 15.38it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 504.52it/s][A


[47100] loss: 0.071 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 427.12it/s][A

                                                                                                                                                  [A
 15%|███████████████▎                                                                                        | 1471/10000 [01:29<09:14, 15.38it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[47120] loss: 0.041 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 563.26it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 752.75it/s][A
 15%|███████████████▎                                                                                        | 1473/10000 [01:29<09:26, 15.05it/s]
                                                                                                                                                  [A
 15%|███████████████▎                                                                                        | 1473/10000 [01:29<09:26, 15.05it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[47140] loss: 0.035 


                                                                                                                                                  
 15%|███████████████▎                                                                                        | 1473/10000 [01:29<09:26, 15.05it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 445.66it/s][A


[47160] loss: 0.046 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 815.22it/s][A

                                                                                                                                                  [A
 15%|███████████████▎                                                                                        | 1473/10000 [01:29<09:26, 15.05it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[47180] loss: 0.065 


                                                                                                                                                  
 15%|███████████████▎                                                                                        | 1473/10000 [01:29<09:26, 15.05it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 463.79it/s][A


[47200] loss: 0.016 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 812.53it/s][A
 15%|███████████████▎                                                                                        | 1475/10000 [01:29<10:02, 14.14it/s]
                                                                                                                                                  [A
 15%|███████████████▎                                                                                        | 1475/10000 [01:29<10:02, 14.14it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[47220] loss: 0.060 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 554.99it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 502.37it/s][A

                                                                                                                                                  [A
 15%|███████████████▎                                                                                        | 1475/10000 [01:29<10:02, 14.14it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[47240] loss: 0.052 


                                                                                                                                                  
 15%|███████████████▎                                                                                        | 1475/10000 [01:29<10:02, 14.14it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 529.79it/s][A


[47260] loss: 0.051 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1295.74it/s][A
 15%|███████████████▎                                                                                        | 1477/10000 [01:29<09:58, 14.23it/s]
                                                                                                                                                  [A
 15%|███████████████▎                                                                                        | 1477/10000 [01:29<09:58, 14.23it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 682.74it/s][A


[47280] loss: 0.039 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1564.46it/s][A

                                                                                                                                                  [A
 15%|███████████████▎                                                                                        | 1477/10000 [01:29<09:58, 14.23it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[47300] loss: 0.084 


                                                                                                                                                  
 15%|███████████████▎                                                                                        | 1477/10000 [01:29<09:58, 14.23it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 527.47it/s][A


[47320] loss: 0.074 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 708.02it/s][A
 15%|███████████████▍                                                                                        | 1479/10000 [01:29<09:42, 14.63it/s]
                                                                                                                                                  [A
 15%|███████████████▍                                                                                        | 1479/10000 [01:29<09:42, 14.63it/s]
                                                                                                                                                  [A
 15%|███████████████▍                                                                                        | 1479/10000 [01:29<09:42, 14.63it/s]
Training Epoch:   0%|                                                                                       

[47340] loss: 0.027 
[47360] loss: 0.187 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 595.03it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1238.72it/s][A

                                                                                                                                                  [A
 15%|███████████████▍                                                                                        | 1479/10000 [01:29<09:42, 14.63it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[47380] loss: 0.068 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 651.47it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1891.88it/s][A
 15%|███████████████▍                                                                                        | 1481/10000 [01:29<09:18, 15.26it/s]
                                                                                                                                                  [A
 15%|███████████████▍                                                                                        | 1481/10000 [01:29<09:18, 15.26it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[47400] loss: 0.078 


                                                                                                                                                  
 15%|███████████████▍                                                                                        | 1481/10000 [01:29<09:18, 15.26it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 657.97it/s][A


[47420] loss: 0.051 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1551.15it/s][A

                                                                                                                                                  [A
 15%|███████████████▍                                                                                        | 1481/10000 [01:29<09:18, 15.26it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 908.85it/s][A


[47440] loss: 0.058 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1491.04it/s][A

                                                                                                                                                  [A
 15%|███████████████▍                                                                                        | 1481/10000 [01:29<09:18, 15.26it/s]
                                                                                                                                                  [A
 15%|███████████████▍                                                                                        | 1481/10000 [01:29<09:18, 15.26it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 705.39it/s][A


[47460] loss: 0.036 
[47480] loss: 0.056 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 653.11it/s][A
 15%|███████████████▍                                                                                        | 1484/10000 [01:29<08:30, 16.69it/s]
                                                                                                                                                  [A
 15%|███████████████▍                                                                                        | 1484/10000 [01:29<08:30, 16.69it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[47500] loss: 0.037 


                                                                                                                                                  
 15%|███████████████▍                                                                                        | 1484/10000 [01:29<08:30, 16.69it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 701.16it/s][A


[47520] loss: 0.015 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 502.31it/s][A

                                                                                                                                                  [A
 15%|███████████████▍                                                                                        | 1484/10000 [01:29<08:30, 16.69it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[47540] loss: 0.065 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 803.57it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 656.18it/s][A
 15%|███████████████▍                                                                                        | 1486/10000 [01:29<08:08, 17.44it/s]
                                                                                                                                                  [A
 15%|███████████████▍                                                                                        | 1486/10000 [01:29<08:08, 17.44it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[47560] loss: 0.079 


                                                                                                                                                  
 15%|███████████████▍                                                                                        | 1486/10000 [01:29<08:08, 17.44it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 617.99it/s][A


[47580] loss: 0.057 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1769.75it/s][A

                                                                                                                                                  [A
 15%|███████████████▍                                                                                        | 1486/10000 [01:29<08:08, 17.44it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 812.68it/s][A


[47600] loss: 0.053 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 672.81it/s][A
 15%|███████████████▍                                                                                        | 1488/10000 [01:30<07:56, 17.86it/s]
                                                                                                                                                  [A
 15%|███████████████▍                                                                                        | 1488/10000 [01:30<07:56, 17.86it/s]


[47620] loss: 0.039 


                                                                                                                                                  [A
 15%|███████████████▍                                                                                        | 1488/10000 [01:30<07:56, 17.86it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 620.59it/s][A


[47640] loss: 0.053 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2369.66it/s][A

                                                                                                                                                  [A
 15%|███████████████▍                                                                                        | 1488/10000 [01:30<07:56, 17.86it/s]
                                                                                                                                                  [A
 15%|███████████████▍                                                                                        | 1488/10000 [01:30<07:56, 17.86it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 729.98it/s][A


[47660] loss: 0.047 
[47680] loss: 0.046 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1825.20it/s][A
 15%|███████████████▍                                                                                        | 1490/10000 [01:30<07:53, 17.98it/s]
                                                                                                                                                  [A
 15%|███████████████▍                                                                                        | 1490/10000 [01:30<07:53, 17.98it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[47700] loss: 0.062 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 846.48it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2036.07it/s][A

                                                                                                                                                  [A
 15%|███████████████▍                                                                                        | 1490/10000 [01:30<07:53, 17.98it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[47720] loss: 0.076 


                                                                                                                                                  
 15%|███████████████▍                                                                                        | 1490/10000 [01:30<07:53, 17.98it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 629.27it/s][A


[47740] loss: 0.062 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 523.44it/s][A
 15%|███████████████▌                                                                                        | 1492/10000 [01:30<07:44, 18.32it/s]
                                                                                                                                                  [A
 15%|███████████████▌                                                                                        | 1492/10000 [01:30<07:44, 18.32it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[47760] loss: 0.074 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 757.95it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 764.83it/s][A

                                                                                                                                                  [A
 15%|███████████████▌                                                                                        | 1492/10000 [01:30<07:44, 18.32it/s]
                                                                                                                                                  [A
 15%|███████████████▌                                                                                        | 1492/10000 [01:30<07:44, 18.32it/s]
Training Epoch: 100%|██████████████████████████████████████████████████████████████████████████████████████

[47780] loss: 0.059 
[47800] loss: 0.059 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1405.60it/s][A
 15%|███████████████▌                                                                                        | 1494/10000 [01:30<07:47, 18.19it/s]
                                                                                                                                                  [A
 15%|███████████████▌                                                                                        | 1494/10000 [01:30<07:47, 18.19it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[47820] loss: 0.058 


                                                                                                                                                  
 15%|███████████████▌                                                                                        | 1494/10000 [01:30<07:47, 18.19it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 517.92it/s][A


[47840] loss: 0.133 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 704.10it/s][A

                                                                                                                                                  [A
 15%|███████████████▌                                                                                        | 1494/10000 [01:30<07:47, 18.19it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[47860] loss: 0.087 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 614.80it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 900.65it/s][A
 15%|███████████████▌                                                                                        | 1496/10000 [01:30<08:18, 17.07it/s]
                                                                                                                                                  [A
 15%|███████████████▌                                                                                        | 1496/10000 [01:30<08:18, 17.07it/s]
                                                                                                                                                  [A
 15%|███████████████▌                                                                                       

[47880] loss: 0.047 
[47900] loss: 0.057 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 724.03it/s][A

                                                                                                                                                  [A
 15%|███████████████▌                                                                                        | 1496/10000 [01:30<08:18, 17.07it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[47920] loss: 0.095 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 524.37it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1026.00it/s][A
 15%|███████████████▌                                                                                        | 1498/10000 [01:30<08:56, 15.84it/s]
                                                                                                                                                  [A
 15%|███████████████▌                                                                                        | 1498/10000 [01:30<08:56, 15.84it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[47940] loss: 0.087 


                                                                                                                                                  
 15%|███████████████▌                                                                                        | 1498/10000 [01:30<08:56, 15.84it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[47960] loss: 0.063 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 462.30it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 642.61it/s][A

                                                                                                                                                  [A
 15%|███████████████▌                                                                                        | 1498/10000 [01:30<08:56, 15.84it/s]
                                                                                                                                                  [A
 15%|███████████████▌                                                                                        | 1498/10000 [01:30<08:56, 15.84it/s]
Training Epoch: 100%|██████████████████████████████████████████████████████████████████████████████████████

[47980] loss: 0.048 
[48000] loss: 0.074 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 458.90it/s][A
 15%|███████████████▌                                                                                        | 1500/10000 [01:30<09:29, 14.92it/s]
                                                                                                                                                  [A
 15%|███████████████▌                                                                                        | 1500/10000 [01:30<09:29, 14.92it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 626.45it/s][A


[48020] loss: 0.076 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 434.10it/s][A

                                                                                                                                                  [A
 15%|███████████████▌                                                                                        | 1500/10000 [01:30<09:29, 14.92it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[48040] loss: 0.037 


                                                                                                                                                  
 15%|███████████████▌                                                                                        | 1500/10000 [01:30<09:29, 14.92it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 550.71it/s][A


[48060] loss: 0.045 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 795.88it/s][A
 15%|███████████████▌                                                                                        | 1502/10000 [01:30<09:24, 15.05it/s]
                                                                                                                                                  [A
 15%|███████████████▌                                                                                        | 1502/10000 [01:30<09:24, 15.05it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 599.10it/s][A


[48080] loss: 0.057 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 505.46it/s][A

                                                                                                                                                  [A
 15%|███████████████▌                                                                                        | 1502/10000 [01:30<09:24, 15.05it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[48100] loss: 0.084 


                                                                                                                                                  
 15%|███████████████▌                                                                                        | 1502/10000 [01:31<09:24, 15.05it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 503.09it/s][A


[48120] loss: 0.059 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 494.44it/s][A
 15%|███████████████▋                                                                                        | 1504/10000 [01:31<09:33, 14.83it/s]
                                                                                                                                                  [A
 15%|███████████████▋                                                                                        | 1504/10000 [01:31<09:33, 14.83it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[48140] loss: 0.049 


                                                                                                                                                  
 15%|███████████████▋                                                                                        | 1504/10000 [01:31<09:33, 14.83it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 498.67it/s][A


[48160] loss: 0.077 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 360.49it/s][A

                                                                                                                                                  [A
 15%|███████████████▋                                                                                        | 1504/10000 [01:31<09:33, 14.83it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 527.42it/s][A

[48180] loss: 0.043 




Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 847.33it/s][A
 15%|███████████████▋                                                                                        | 1506/10000 [01:31<09:45, 14.50it/s]
                                                                                                                                                  [A
 15%|███████████████▋                                                                                        | 1506/10000 [01:31<09:45, 14.50it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[48200] loss: 0.057 


                                                                                                                                                  
 15%|███████████████▋                                                                                        | 1506/10000 [01:31<09:45, 14.50it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 529.43it/s][A


[48220] loss: 0.082 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 832.04it/s][A

                                                                                                                                                  [A
 15%|███████████████▋                                                                                        | 1506/10000 [01:31<09:45, 14.50it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[48240] loss: 0.049 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 560.11it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 577.65it/s][A
 15%|███████████████▋                                                                                        | 1508/10000 [01:31<09:43, 14.55it/s]
                                                                                                                                                  [A
 15%|███████████████▋                                                                                        | 1508/10000 [01:31<09:43, 14.55it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[48260] loss: 0.048 


                                                                                                                                                  
 15%|███████████████▋                                                                                        | 1508/10000 [01:31<09:43, 14.55it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 513.89it/s][A


[48280] loss: 0.089 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 642.12it/s][A

                                                                                                                                                  [A
 15%|███████████████▋                                                                                        | 1508/10000 [01:31<09:43, 14.55it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[48300] loss: 0.049 


                                                                                                                                                  
 15%|███████████████▋                                                                                        | 1508/10000 [01:31<09:43, 14.55it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 517.93it/s][A


[48320] loss: 0.062 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1258.79it/s][A
 15%|███████████████▋                                                                                        | 1510/10000 [01:31<09:56, 14.23it/s]
                                                                                                                                                  [A
 15%|███████████████▋                                                                                        | 1510/10000 [01:31<09:56, 14.23it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 610.93it/s][A


[48340] loss: 0.062 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1087.17it/s][A

                                                                                                                                                  [A
 15%|███████████████▋                                                                                        | 1510/10000 [01:31<09:56, 14.23it/s]
                                                                                                                                                  [A
[A                                                                                                                                               

[48360] loss: 0.068 


 15%|███████████████▋                                                                                        | 1510/10000 [01:31<09:56, 14.23it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 648.57it/s][A


[48380] loss: 0.040 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1360.46it/s][A
 15%|███████████████▋                                                                                        | 1512/10000 [01:31<09:26, 14.99it/s]
                                                                                                                                                  [A
 15%|███████████████▋                                                                                        | 1512/10000 [01:31<09:26, 14.99it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[48400] loss: 0.048 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 761.37it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1980.31it/s][A

                                                                                                                                                  [A
 15%|███████████████▋                                                                                        | 1512/10000 [01:31<09:26, 14.99it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[48420] loss: 0.057 


                                                                                                                                                  
 15%|███████████████▋                                                                                        | 1512/10000 [01:31<09:26, 14.99it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 579.05it/s][A


[48440] loss: 0.048 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 809.24it/s][A
 15%|███████████████▋                                                                                        | 1514/10000 [01:31<09:01, 15.67it/s]
                                                                                                                                                  [A
 15%|███████████████▋                                                                                        | 1514/10000 [01:31<09:01, 15.67it/s]
                                                                                                                                                  [A

[48460] loss: 0.067 



 15%|███████████████▋                                                                                        | 1514/10000 [01:31<09:01, 15.67it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 723.94it/s][A


[48480] loss: 0.193 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 634.92it/s][A

                                                                                                                                                  [A
 15%|███████████████▋                                                                                        | 1514/10000 [01:31<09:01, 15.67it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 785.00it/s][A


[48500] loss: 0.035 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1105.51it/s][A

                                                                                                                                                  [A
 15%|███████████████▋                                                                                        | 1514/10000 [01:31<09:01, 15.67it/s]
                                                                                                                                                  [A
 15%|███████████████▋                                                                                        | 1514/10000 [01:31<09:01, 15.67it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[48520] loss: 0.077 
[48540] loss: 0.105 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 614.98it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1389.30it/s][A
 15%|███████████████▊                                                                                        | 1517/10000 [01:31<08:26, 16.74it/s]
                                                                                                                                                  [A
 15%|███████████████▊                                                                                        | 1517/10000 [01:31<08:26, 16.74it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 662.94it/s][A


[48560] loss: 0.074 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 979.29it/s][A

                                                                                                                                                  [A
 15%|███████████████▊                                                                                        | 1517/10000 [01:31<08:26, 16.74it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[48580] loss: 0.042 


                                                                                                                                                  
 15%|███████████████▊                                                                                        | 1517/10000 [01:31<08:26, 16.74it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[48600] loss: 0.084 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 531.74it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1949.03it/s][A
 15%|███████████████▊                                                                                        | 1519/10000 [01:31<08:35, 16.45it/s]
                                                                                                                                                  [A
 15%|███████████████▊                                                                                        | 1519/10000 [01:32<08:35, 16.45it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[48620] loss: 0.037 


                                                                                                                                                  
 15%|███████████████▊                                                                                        | 1519/10000 [01:32<08:35, 16.45it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 726.36it/s][A


[48640] loss: 0.080 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1235.07it/s][A

                                                                                                                                                  [A
 15%|███████████████▊                                                                                        | 1519/10000 [01:32<08:35, 16.45it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 816.98it/s][A


[48660] loss: 0.048 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 845.63it/s][A
 15%|███████████████▊                                                                                        | 1521/10000 [01:32<08:09, 17.31it/s]
                                                                                                                                                  [A
 15%|███████████████▊                                                                                        | 1521/10000 [01:32<08:09, 17.31it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[48680] loss: 0.048 


                                                                                                                                                  
 15%|███████████████▊                                                                                        | 1521/10000 [01:32<08:09, 17.31it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 531.24it/s][A


[48700] loss: 0.097 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1236.89it/s][A

                                                                                                                                                  [A
 15%|███████████████▊                                                                                        | 1521/10000 [01:32<08:09, 17.31it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 713.70it/s][A

[48720] loss: 0.058 




Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 784.86it/s][A
 15%|███████████████▊                                                                                        | 1523/10000 [01:32<08:21, 16.89it/s]
                                                                                                                                                  [A
 15%|███████████████▊                                                                                        | 1523/10000 [01:32<08:21, 16.89it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[48740] loss: 0.079 


                                                                                                                                                  
 15%|███████████████▊                                                                                        | 1523/10000 [01:32<08:21, 16.89it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[48760] loss: 0.062 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 584.72it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1290.56it/s][A

                                                                                                                                                  [A
 15%|███████████████▊                                                                                        | 1523/10000 [01:32<08:21, 16.89it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[48780] loss: 0.062 


                                                                                                                                                  
 15%|███████████████▊                                                                                        | 1523/10000 [01:32<08:21, 16.89it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 667.04it/s][A


[48800] loss: 0.097 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 459.45it/s][A
 15%|███████████████▊                                                                                        | 1525/10000 [01:32<08:24, 16.79it/s]
                                                                                                                                                  [A
 15%|███████████████▊                                                                                        | 1525/10000 [01:32<08:24, 16.79it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 767.16it/s][A


[48820] loss: 0.026 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 804.74it/s][A

                                                                                                                                                  [A
 15%|███████████████▊                                                                                        | 1525/10000 [01:32<08:24, 16.79it/s]
                                                                                                                                                  [A
 15%|███████████████▊                                                                                        | 1525/10000 [01:32<08:24, 16.79it/s]


[48840] loss: 0.062 
[48860] loss: 0.061 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 648.21it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1364.45it/s][A
 15%|███████████████▉                                                                                        | 1527/10000 [01:32<08:09, 17.31it/s]
                                                                                                                                                  [A
 15%|███████████████▉                                                                                        | 1527/10000 [01:32<08:09, 17.31it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 731.15it/s][A


[48880] loss: 0.053 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 701.39it/s][A

                                                                                                                                                  [A
 15%|███████████████▉                                                                                        | 1527/10000 [01:32<08:09, 17.31it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[48900] loss: 0.054 


                                                                                                                                                  
 15%|███████████████▉                                                                                        | 1527/10000 [01:32<08:09, 17.31it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 617.36it/s][A


[48920] loss: 0.088 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 892.79it/s][A
 15%|███████████████▉                                                                                        | 1529/10000 [01:32<08:06, 17.43it/s]
                                                                                                                                                  [A
 15%|███████████████▉                                                                                        | 1529/10000 [01:32<08:06, 17.43it/s]
                                                                                                                                                  [A
 15%|███████████████▉                                                                                        | 1529/10000 [01:32<08:06, 17.43it/s]

[48940] loss: 0.029 
[48960] loss: 0.063 



Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 696.06it/s][A

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 682.89it/s][A

                                                                                                                                                  [A
 15%|███████████████▉                                                                                        | 1529/10000 [01:32<08:06, 17.43it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[48980] loss: 0.029 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 569.08it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 660.10it/s][A
 15%|███████████████▉                                                                                        | 1531/10000 [01:32<08:13, 17.17it/s]
                                                                                                                                                  [A
 15%|███████████████▉                                                                                        | 1531/10000 [01:32<08:13, 17.17it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[49000] loss: 0.039 


                                                                                                                                                  
 15%|███████████████▉                                                                                        | 1531/10000 [01:32<08:13, 17.17it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[49020] loss: 0.085 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 503.27it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 689.06it/s][A

                                                                                                                                                  [A
 15%|███████████████▉                                                                                        | 1531/10000 [01:32<08:13, 17.17it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 574.05it/s][A


[49040] loss: 0.042 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 445.40it/s][A
 15%|███████████████▉                                                                                        | 1533/10000 [01:32<08:41, 16.25it/s]
                                                                                                                                                  [A
 15%|███████████████▉                                                                                        | 1533/10000 [01:32<08:41, 16.25it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[49060] loss: 0.078 


                                                                                                                                                  
 15%|███████████████▉                                                                                        | 1533/10000 [01:32<08:41, 16.25it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 496.57it/s][A


[49080] loss: 0.058 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 446.20it/s][A

                                                                                                                                                  [A
 15%|███████████████▉                                                                                        | 1533/10000 [01:32<08:41, 16.25it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[49100] loss: 0.062 


                                                                                                                                                  
 15%|███████████████▉                                                                                        | 1533/10000 [01:32<08:41, 16.25it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 513.33it/s][A


[49120] loss: 0.016 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 735.97it/s][A
 15%|███████████████▉                                                                                        | 1535/10000 [01:32<09:10, 15.37it/s]
                                                                                                                                                  [A
 15%|███████████████▉                                                                                        | 1535/10000 [01:32<09:10, 15.37it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 563.08it/s][A


[49140] loss: 0.049 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 795.88it/s][A

                                                                                                                                                  [A
 15%|███████████████▉                                                                                        | 1535/10000 [01:33<09:10, 15.37it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[49160] loss: 0.072 


                                                                                                                                                  
 15%|███████████████▉                                                                                        | 1535/10000 [01:33<09:10, 15.37it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 453.08it/s][A


[49180] loss: 0.034 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 264.96it/s][A
 15%|███████████████▉                                                                                        | 1537/10000 [01:33<09:30, 14.83it/s]
                                                                                                                                                  [A
 15%|███████████████▉                                                                                        | 1537/10000 [01:33<09:30, 14.83it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[49200] loss: 0.039 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 536.89it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 531.19it/s][A

                                                                                                                                                  [A
 15%|███████████████▉                                                                                        | 1537/10000 [01:33<09:30, 14.83it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[49220] loss: 0.060 


                                                                                                                                                  
 15%|███████████████▉                                                                                        | 1537/10000 [01:33<09:30, 14.83it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[49240] loss: 0.062 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 484.79it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 581.25it/s][A
 15%|████████████████                                                                                        | 1539/10000 [01:33<09:41, 14.56it/s]
                                                                                                                                                  [A
 15%|████████████████                                                                                        | 1539/10000 [01:33<09:41, 14.56it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[49260] loss: 0.067 


                                                                                                                                                  
 15%|████████████████                                                                                        | 1539/10000 [01:33<09:41, 14.56it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 464.07it/s][A


[49280] loss: 0.016 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 571.04it/s][A

                                                                                                                                                  [A
 15%|████████████████                                                                                        | 1539/10000 [01:33<09:41, 14.56it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[49300] loss: 0.051 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 511.90it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 495.25it/s][A
 15%|████████████████                                                                                        | 1541/10000 [01:33<09:53, 14.25it/s]
                                                                                                                                                  [A
 15%|████████████████                                                                                        | 1541/10000 [01:33<09:53, 14.25it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[49320] loss: 0.044 


                                                                                                                                                  
 15%|████████████████                                                                                        | 1541/10000 [01:33<09:53, 14.25it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 528.84it/s][A


[49340] loss: 0.064 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 688.95it/s][A

                                                                                                                                                  [A
 15%|████████████████                                                                                        | 1541/10000 [01:33<09:53, 14.25it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[49360] loss: 0.063 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 598.47it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 740.91it/s][A
 15%|████████████████                                                                                        | 1543/10000 [01:33<09:42, 14.51it/s]
                                                                                                                                                  [A
 15%|████████████████                                                                                        | 1543/10000 [01:33<09:42, 14.51it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[49380] loss: 0.053 


                                                                                                                                                  
 15%|████████████████                                                                                        | 1543/10000 [01:33<09:42, 14.51it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 485.88it/s][A


[49400] loss: 0.062 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 621.75it/s][A

                                                                                                                                                  [A
 15%|████████████████                                                                                        | 1543/10000 [01:33<09:42, 14.51it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[49420] loss: 0.042 


                                                                                                                                                  
 15%|████████████████                                                                                        | 1543/10000 [01:33<09:42, 14.51it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 459.88it/s][A


[49440] loss: 0.040 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 682.22it/s][A
 15%|████████████████                                                                                        | 1545/10000 [01:33<10:03, 14.00it/s]
                                                                                                                                                  [A
 15%|████████████████                                                                                        | 1545/10000 [01:33<10:03, 14.00it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[49460] loss: 0.036 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 503.98it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 858.08it/s][A

                                                                                                                                                  [A
 15%|████████████████                                                                                        | 1545/10000 [01:33<10:03, 14.00it/s]
                                                                                                                                                  [A
 15%|████████████████                                                                                        | 1545/10000 [01:33<10:03, 14.00it/s]
Training Epoch:   0%|                                                                                      

[49480] loss: 0.054 
[49500] loss: 0.070 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 455.24it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1276.03it/s][A
 15%|████████████████                                                                                        | 1547/10000 [01:33<10:17, 13.70it/s]
                                                                                                                                                  [A
 15%|████████████████                                                                                        | 1547/10000 [01:33<10:17, 13.70it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[49520] loss: 0.071 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 720.14it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1238.35it/s][A

                                                                                                                                                  [A
 15%|████████████████                                                                                        | 1547/10000 [01:33<10:17, 13.70it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[49540] loss: 0.042 


                                                                                                                                                  
 15%|████████████████                                                                                        | 1547/10000 [01:33<10:17, 13.70it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 489.95it/s][A


[49560] loss: 0.096 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 555.91it/s][A
 15%|████████████████                                                                                        | 1549/10000 [01:33<09:59, 14.11it/s]
                                                                                                                                                  [A
 15%|████████████████                                                                                        | 1549/10000 [01:33<09:59, 14.11it/s]
                                                                                                                                                  [A
 15%|████████████████                                                                                        | 1549/10000 [01:34<09:59, 14.11it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[49580] loss: 0.054 
[49600] loss: 0.050 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 861.96it/s][A

                                                                                                                                                  [A
 15%|████████████████                                                                                        | 1549/10000 [01:34<09:59, 14.11it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 628.92it/s][A


[49620] loss: 0.059 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1818.87it/s][A
 16%|████████████████▏                                                                                       | 1551/10000 [01:34<09:40, 14.55it/s]
                                                                                                                                                  [A
 16%|████████████████▏                                                                                       | 1551/10000 [01:34<09:40, 14.55it/s]
                                                                                                                                                  [A
[A                                                                                                                                               

[49640] loss: 0.054 


 16%|████████████████▏                                                                                       | 1551/10000 [01:34<09:40, 14.55it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 628.35it/s][A


[49660] loss: 0.058 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1372.93it/s][A

                                                                                                                                                  [A
 16%|████████████████▏                                                                                       | 1551/10000 [01:34<09:40, 14.55it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[49680] loss: 0.047 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 780.58it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1810.23it/s][A
 16%|████████████████▏                                                                                       | 1553/10000 [01:34<09:04, 15.51it/s]
                                                                                                                                                  [A
 16%|████████████████▏                                                                                       | 1553/10000 [01:34<09:04, 15.51it/s]
                                                                                                                                                  [A
 16%|████████████████▏                                                                                      

[49700] loss: 0.072 
[49720] loss: 0.032 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1738.21it/s][A

                                                                                                                                                  [A
 16%|████████████████▏                                                                                       | 1553/10000 [01:34<09:04, 15.51it/s]
                                                                                                                                                  [A
 16%|████████████████▏                                                                                       | 1553/10000 [01:34<09:04, 15.51it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 725.91it/s][A


[49740] loss: 0.036 
[49760] loss: 0.174 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1664.41it/s][A
 16%|████████████████▏                                                                                       | 1555/10000 [01:34<08:33, 16.46it/s]
                                                                                                                                                  [A
 16%|████████████████▏                                                                                       | 1555/10000 [01:34<08:33, 16.46it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[49780] loss: 0.079 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 733.55it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1266.40it/s][A

                                                                                                                                                  [A
 16%|████████████████▏                                                                                       | 1555/10000 [01:34<08:33, 16.46it/s]
                                                                                                                                                  [A
 16%|████████████████▏                                                                                       | 1555/10000 [01:34<08:33, 16.46it/s]
Training Epoch:   0%|                                                                                      

[49800] loss: 0.080 
[49820] loss: 0.040 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 557.29it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1382.89it/s][A
 16%|████████████████▏                                                                                       | 1557/10000 [01:34<08:29, 16.57it/s]
                                                                                                                                                  [A
 16%|████████████████▏                                                                                       | 1557/10000 [01:34<08:29, 16.57it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[49840] loss: 0.033 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 640.58it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1288.18it/s][A

                                                                                                                                                  [A
 16%|████████████████▏                                                                                       | 1557/10000 [01:34<08:29, 16.57it/s]
                                                                                                                                                  [A

[49860] loss: 0.049 



 16%|████████████████▏                                                                                       | 1557/10000 [01:34<08:29, 16.57it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 525.27it/s][A


[49880] loss: 0.072 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1020.51it/s][A
 16%|████████████████▏                                                                                       | 1559/10000 [01:34<08:43, 16.13it/s]
                                                                                                                                                  [A
 16%|████████████████▏                                                                                       | 1559/10000 [01:34<08:43, 16.13it/s]

[49900] loss: 0.047 



                                                                                                                                                  [A
 16%|████████████████▏                                                                                       | 1559/10000 [01:34<08:43, 16.13it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 598.32it/s][A


[49920] loss: 0.062 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 780.77it/s][A

                                                                                                                                                  [A
 16%|████████████████▏                                                                                       | 1559/10000 [01:34<08:43, 16.13it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[49940] loss: 0.047 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 766.12it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1381.07it/s][A
 16%|████████████████▏                                                                                       | 1561/10000 [01:34<08:31, 16.50it/s]
                                                                                                                                                  [A
 16%|████████████████▏                                                                                       | 1561/10000 [01:34<08:31, 16.50it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[49960] loss: 0.069 


                                                                                                                                                  
 16%|████████████████▏                                                                                       | 1561/10000 [01:34<08:31, 16.50it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 604.41it/s][A


[49980] loss: 0.035 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1311.54it/s][A

                                                                                                                                                  [A
 16%|████████████████▏                                                                                       | 1561/10000 [01:34<08:31, 16.50it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[50000] loss: 0.039 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 577.37it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1774.24it/s][A
 16%|████████████████▎                                                                                       | 1563/10000 [01:34<08:35, 16.37it/s]
                                                                                                                                                  [A
 16%|████████████████▎                                                                                       | 1563/10000 [01:34<08:35, 16.37it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[50020] loss: 0.067 


                                                                                                                                                  
 16%|████████████████▎                                                                                       | 1563/10000 [01:34<08:35, 16.37it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[50040] loss: 0.086 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 646.40it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2268.42it/s][A

                                                                                                                                                  [A
 16%|████████████████▎                                                                                       | 1563/10000 [01:34<08:35, 16.37it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[50060] loss: 0.078 


                                                                                                                                                  
 16%|████████████████▎                                                                                       | 1563/10000 [01:34<08:35, 16.37it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 665.42it/s][A


[50080] loss: 0.062 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 452.85it/s][A
 16%|████████████████▎                                                                                       | 1565/10000 [01:34<08:24, 16.71it/s]
                                                                                                                                                  [A
 16%|████████████████▎                                                                                       | 1565/10000 [01:34<08:24, 16.71it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 674.50it/s][A


[50100] loss: 0.032 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 809.40it/s][A

                                                                                                                                                  [A
 16%|████████████████▎                                                                                       | 1565/10000 [01:34<08:24, 16.71it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[50120] loss: 0.019 


                                                                                                                                                  
 16%|████████████████▎                                                                                       | 1565/10000 [01:35<08:24, 16.71it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[50140] loss: 0.041 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 459.58it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 732.37it/s][A
 16%|████████████████▎                                                                                       | 1567/10000 [01:35<08:48, 15.97it/s]
                                                                                                                                                  [A
 16%|████████████████▎                                                                                       | 1567/10000 [01:35<08:48, 15.97it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[50160] loss: 0.036 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 512.10it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 644.29it/s][A

                                                                                                                                                  [A
 16%|████████████████▎                                                                                       | 1567/10000 [01:35<08:48, 15.97it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[50180] loss: 0.047 


                                                                                                                                                  
 16%|████████████████▎                                                                                       | 1567/10000 [01:35<08:48, 15.97it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 487.31it/s][A

[50200] loss: 0.098 




Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 791.83it/s][A
 16%|████████████████▎                                                                                       | 1569/10000 [01:35<09:18, 15.10it/s]
                                                                                                                                                  [A
 16%|████████████████▎                                                                                       | 1569/10000 [01:35<09:18, 15.10it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[50220] loss: 0.067 


                                                                                                                                                  
 16%|████████████████▎                                                                                       | 1569/10000 [01:35<09:18, 15.10it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 510.09it/s][A


[50240] loss: 0.070 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1763.05it/s][A

                                                                                                                                                  [A
 16%|████████████████▎                                                                                       | 1569/10000 [01:35<09:18, 15.10it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 605.59it/s][A


[50260] loss: 0.059 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1011.16it/s][A
 16%|████████████████▎                                                                                       | 1571/10000 [01:35<09:15, 15.19it/s]
                                                                                                                                                  [A
 16%|████████████████▎                                                                                       | 1571/10000 [01:35<09:15, 15.19it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[50280] loss: 0.048 


                                                                                                                                                  
 16%|████████████████▎                                                                                       | 1571/10000 [01:35<09:15, 15.19it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 558.03it/s][A


[50300] loss: 0.091 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 745.52it/s][A

                                                                                                                                                  [A
 16%|████████████████▎                                                                                       | 1571/10000 [01:35<09:15, 15.19it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 578.51it/s][A


[50320] loss: 0.078 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1002.70it/s][A
 16%|████████████████▎                                                                                       | 1573/10000 [01:35<09:12, 15.27it/s]
                                                                                                                                                  [A
 16%|████████████████▎                                                                                       | 1573/10000 [01:35<09:12, 15.27it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[50340] loss: 0.059 


                                                                                                                                                  
 16%|████████████████▎                                                                                       | 1573/10000 [01:35<09:12, 15.27it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 522.02it/s][A


[50360] loss: 0.068 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 970.45it/s][A

                                                                                                                                                  [A
 16%|████████████████▎                                                                                       | 1573/10000 [01:35<09:12, 15.27it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[50380] loss: 0.059 


                                                                                                                                                  
 16%|████████████████▎                                                                                       | 1573/10000 [01:35<09:12, 15.27it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 503.88it/s][A


[50400] loss: 0.015 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 768.33it/s][A
 16%|████████████████▍                                                                                       | 1575/10000 [01:35<09:22, 14.97it/s]
                                                                                                                                                  [A
 16%|████████████████▍                                                                                       | 1575/10000 [01:35<09:22, 14.97it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 587.09it/s][A


[50420] loss: 0.025 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 946.15it/s][A

                                                                                                                                                  [A
 16%|████████████████▍                                                                                       | 1575/10000 [01:35<09:22, 14.97it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[50440] loss: 0.043 


                                                                                                                                                  
 16%|████████████████▍                                                                                       | 1575/10000 [01:35<09:22, 14.97it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 484.56it/s][A


[50460] loss: 0.029 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 551.30it/s][A
 16%|████████████████▍                                                                                       | 1577/10000 [01:35<09:28, 14.81it/s]
                                                                                                                                                  [A
 16%|████████████████▍                                                                                       | 1577/10000 [01:35<09:28, 14.81it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[50480] loss: 0.046 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 599.09it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 795.13it/s][A

                                                                                                                                                  [A
 16%|████████████████▍                                                                                       | 1577/10000 [01:35<09:28, 14.81it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[50500] loss: 0.052 


                                                                                                                                                  
 16%|████████████████▍                                                                                       | 1577/10000 [01:35<09:28, 14.81it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 491.40it/s][A


[50520] loss: 0.079 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 662.40it/s][A
 16%|████████████████▍                                                                                       | 1579/10000 [01:35<09:34, 14.66it/s]
                                                                                                                                                  [A
 16%|████████████████▍                                                                                       | 1579/10000 [01:35<09:34, 14.66it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[50540] loss: 0.065 


                                                                                                                                                  
 16%|████████████████▍                                                                                       | 1579/10000 [01:35<09:34, 14.66it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 534.20it/s][A


[50560] loss: 0.057 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 198.33it/s][A

                                                                                                                                                  [A
 16%|████████████████▍                                                                                       | 1579/10000 [01:35<09:34, 14.66it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[50580] loss: 0.047 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 518.19it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 703.51it/s][A
 16%|████████████████▍                                                                                       | 1581/10000 [01:36<09:45, 14.39it/s]
                                                                                                                                                  [A
 16%|████████████████▍                                                                                       | 1581/10000 [01:36<09:45, 14.39it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[50600] loss: 0.056 


                                                                                                                                                  
 16%|████████████████▍                                                                                       | 1581/10000 [01:36<09:45, 14.39it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 492.10it/s][A


[50620] loss: 0.035 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 777.44it/s][A

                                                                                                                                                  [A
 16%|████████████████▍                                                                                       | 1581/10000 [01:36<09:45, 14.39it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[50640] loss: 0.057 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 630.02it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 993.91it/s][A
 16%|████████████████▍                                                                                       | 1583/10000 [01:36<09:36, 14.60it/s]
                                                                                                                                                  [A
 16%|████████████████▍                                                                                       | 1583/10000 [01:36<09:36, 14.60it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[50660] loss: 0.075 


                                                                                                                                                  
 16%|████████████████▍                                                                                       | 1583/10000 [01:36<09:36, 14.60it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 550.43it/s][A


[50680] loss: 0.069 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1429.06it/s][A

                                                                                                                                                  [A
 16%|████████████████▍                                                                                       | 1583/10000 [01:36<09:36, 14.60it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[50700] loss: 0.065 


                                                                                                                                                  
 16%|████████████████▍                                                                                       | 1583/10000 [01:36<09:36, 14.60it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 681.47it/s][A


[50720] loss: 0.015 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1143.80it/s][A
 16%|████████████████▍                                                                                       | 1585/10000 [01:36<09:14, 15.17it/s]
                                                                                                                                                  [A
 16%|████████████████▍                                                                                       | 1585/10000 [01:36<09:14, 15.17it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 772.24it/s][A


[50740] loss: 0.059 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 762.88it/s][A

                                                                                                                                                  [A
 16%|████████████████▍                                                                                       | 1585/10000 [01:36<09:14, 15.17it/s]
                                                                                                                                                  [A

[50760] loss: 0.042 



 16%|████████████████▍                                                                                       | 1585/10000 [01:36<09:14, 15.17it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 616.19it/s][A


[50780] loss: 0.074 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 656.18it/s][A
 16%|████████████████▌                                                                                       | 1587/10000 [01:36<08:46, 15.97it/s]
                                                                                                                                                  [A
 16%|████████████████▌                                                                                       | 1587/10000 [01:36<08:46, 15.97it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 747.63it/s][A


[50800] loss: 0.051 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 848.02it/s][A

                                                                                                                                                  [A
 16%|████████████████▌                                                                                       | 1587/10000 [01:36<08:46, 15.97it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[50820] loss: 0.044 


                                                                                                                                                  
 16%|████████████████▌                                                                                       | 1587/10000 [01:36<08:46, 15.97it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 664.42it/s][A


[50840] loss: 0.050 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1006.07it/s][A
 16%|████████████████▌                                                                                       | 1589/10000 [01:36<08:22, 16.74it/s]
                                                                                                                                                  [A
 16%|████████████████▌                                                                                       | 1589/10000 [01:36<08:22, 16.74it/s]
                                                                                                                                                  [A
 16%|████████████████▌                                                                                       | 1589/10000 [01:36<08:22, 16.74it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[50860] loss: 0.033 
[50880] loss: 0.049 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1261.07it/s][A

                                                                                                                                                  [A
 16%|████████████████▌                                                                                       | 1589/10000 [01:36<08:22, 16.74it/s]

[50900] loss: 0.037 



Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 706.33it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2272.10it/s][A

                                                                                                                                                  [A
 16%|████████████████▌                                                                                       | 1589/10000 [01:36<08:22, 16.74it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[50920] loss: 0.079 


                                                                                                                                                  
 16%|████████████████▌                                                                                       | 1589/10000 [01:36<08:22, 16.74it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 772.43it/s][A


[50940] loss: 0.048 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1516.38it/s][A
 16%|████████████████▌                                                                                       | 1592/10000 [01:36<07:46, 18.02it/s]
                                                                                                                                                  [A
 16%|████████████████▌                                                                                       | 1592/10000 [01:36<07:46, 18.02it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[50960] loss: 0.074 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 862.07it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2300.77it/s][A

                                                                                                                                                  [A
 16%|████████████████▌                                                                                       | 1592/10000 [01:36<07:46, 18.02it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[50980] loss: 0.054 


                                                                                                                                                  
 16%|████████████████▌                                                                                       | 1592/10000 [01:36<07:46, 18.02it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 723.71it/s][A


[51000] loss: 0.055 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1089.71it/s][A

                                                                                                                                                  [A
 16%|████████████████▌                                                                                       | 1592/10000 [01:36<07:46, 18.02it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[51020] loss: 0.035 


                                                                                                                                                  
 16%|████████████████▌                                                                                       | 1592/10000 [01:36<07:46, 18.02it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 644.20it/s][A


[51040] loss: 0.005 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1302.17it/s][A
 16%|████████████████▌                                                                                       | 1595/10000 [01:36<07:32, 18.57it/s]
                                                                                                                                                  [A
 16%|████████████████▌                                                                                       | 1595/10000 [01:36<07:32, 18.57it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[51060] loss: 0.054 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 770.44it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1931.08it/s][A

                                                                                                                                                  [A
 16%|████████████████▌                                                                                       | 1595/10000 [01:36<07:32, 18.57it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[51080] loss: 0.030 


                                                                                                                                                  
 16%|████████████████▌                                                                                       | 1595/10000 [01:36<07:32, 18.57it/s]


[51100] loss: 0.050 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 643.57it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1454.34it/s][A
 16%|████████████████▌                                                                                       | 1597/10000 [01:36<07:33, 18.54it/s]
                                                                                                                                                  [A
 16%|████████████████▌                                                                                       | 1597/10000 [01:36<07:33, 18.54it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 718.51it/s][A


[51120] loss: 0.059 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 608.40it/s][A

                                                                                                                                                  [A
 16%|████████████████▌                                                                                       | 1597/10000 [01:36<07:33, 18.54it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[51140] loss: 0.066 


                                                                                                                                                  
 16%|████████████████▌                                                                                       | 1597/10000 [01:36<07:33, 18.54it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 684.18it/s][A


[51160] loss: 0.065 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 498.55it/s][A
 16%|████████████████▋                                                                                       | 1599/10000 [01:37<07:36, 18.42it/s]
                                                                                                                                                  [A
 16%|████████████████▋                                                                                       | 1599/10000 [01:37<07:36, 18.42it/s]
                                                                                                                                                  [A
 16%|████████████████▋                                                                                       | 1599/10000 [01:37<07:36, 18.42it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[51180] loss: 0.034 
[51200] loss: 0.040 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1065.63it/s][A

                                                                                                                                                  [A
 16%|████████████████▋                                                                                       | 1599/10000 [01:37<07:36, 18.42it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[51220] loss: 0.065 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 874.41it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1328.57it/s][A

                                                                                                                                                  [A
 16%|████████████████▋                                                                                       | 1599/10000 [01:37<07:36, 18.42it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[51240] loss: 0.059 


                                                                                                                                                  
 16%|████████████████▋                                                                                       | 1599/10000 [01:37<07:36, 18.42it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 733.69it/s][A


[51260] loss: 0.042 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1425.18it/s][A
 16%|████████████████▋                                                                                       | 1602/10000 [01:37<07:20, 19.07it/s]
                                                                                                                                                  [A
 16%|████████████████▋                                                                                       | 1602/10000 [01:37<07:20, 19.07it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[51280] loss: 0.082 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 763.68it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 717.59it/s][A

                                                                                                                                                  [A
 16%|████████████████▋                                                                                       | 1602/10000 [01:37<07:20, 19.07it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[51300] loss: 0.045 


                                                                                                                                                  
 16%|████████████████▋                                                                                       | 1602/10000 [01:37<07:20, 19.07it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 651.32it/s][A


[51320] loss: 0.019 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 595.19it/s][A
 16%|████████████████▋                                                                                       | 1604/10000 [01:37<07:22, 18.98it/s]
                                                                                                                                                  [A
 16%|████████████████▋                                                                                       | 1604/10000 [01:37<07:22, 18.98it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[51340] loss: 0.051 


                                                                                                                                                  
 16%|████████████████▋                                                                                       | 1604/10000 [01:37<07:22, 18.98it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 666.30it/s][A


[51360] loss: 0.070 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 261.44it/s][A

                                                                                                                                                  [A
 16%|████████████████▋                                                                                       | 1604/10000 [01:37<07:22, 18.98it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 705.03it/s][A


[51380] loss: 0.066 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 720.30it/s][A
 16%|████████████████▋                                                                                       | 1606/10000 [01:37<07:28, 18.70it/s]
                                                                                                                                                  [A
 16%|████████████████▋                                                                                       | 1606/10000 [01:37<07:28, 18.70it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[51400] loss: 0.061 


                                                                                                                                                  
 16%|████████████████▋                                                                                       | 1606/10000 [01:37<07:28, 18.70it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 598.87it/s][A


[51420] loss: 0.035 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 575.90it/s][A

                                                                                                                                                  [A
 16%|████████████████▋                                                                                       | 1606/10000 [01:37<07:28, 18.70it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[51440] loss: 0.034 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 623.78it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 799.07it/s][A
 16%|████████████████▋                                                                                       | 1608/10000 [01:37<07:46, 18.00it/s]
                                                                                                                                                  [A
 16%|████████████████▋                                                                                       | 1608/10000 [01:37<07:46, 18.00it/s]


[51460] loss: 0.053 


                                                                                                                                                  [A
 16%|████████████████▋                                                                                       | 1608/10000 [01:37<07:46, 18.00it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[51480] loss: 0.074 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 495.65it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 592.83it/s][A

                                                                                                                                                  [A
 16%|████████████████▋                                                                                       | 1608/10000 [01:37<07:46, 18.00it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[51500] loss: 0.042 


                                                                                                                                                  
 16%|████████████████▋                                                                                       | 1608/10000 [01:37<07:46, 18.00it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 470.47it/s][A


[51520] loss: 0.033 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 973.38it/s][A
 16%|████████████████▋                                                                                       | 1610/10000 [01:37<08:29, 16.45it/s]
                                                                                                                                                  [A
 16%|████████████████▋                                                                                       | 1610/10000 [01:37<08:29, 16.45it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 609.31it/s][A


[51540] loss: 0.051 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 443.70it/s][A

                                                                                                                                                  [A
 16%|████████████████▋                                                                                       | 1610/10000 [01:37<08:29, 16.45it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[51560] loss: 0.052 


                                                                                                                                                  
 16%|████████████████▋                                                                                       | 1610/10000 [01:37<08:29, 16.45it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 476.30it/s][A


[51580] loss: 0.069 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 797.40it/s][A
 16%|████████████████▊                                                                                       | 1612/10000 [01:37<08:51, 15.79it/s]
                                                                                                                                                  [A
 16%|████████████████▊                                                                                       | 1612/10000 [01:37<08:51, 15.79it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[51600] loss: 0.033 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 557.59it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 675.30it/s][A

                                                                                                                                                  [A
 16%|████████████████▊                                                                                       | 1612/10000 [01:37<08:51, 15.79it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[51620] loss: 0.074 


                                                                                                                                                  
 16%|████████████████▊                                                                                       | 1612/10000 [01:37<08:51, 15.79it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 472.41it/s][A


[51640] loss: 0.061 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 928.77it/s][A
 16%|████████████████▊                                                                                       | 1614/10000 [01:37<09:13, 15.16it/s]
                                                                                                                                                  [A
 16%|████████████████▊                                                                                       | 1614/10000 [01:37<09:13, 15.16it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[51660] loss: 0.062 


                                                                                                                                                  
 16%|████████████████▊                                                                                       | 1614/10000 [01:37<09:13, 15.16it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 453.51it/s][A


[51680] loss: 0.014 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 759.70it/s][A

                                                                                                                                                  [A
 16%|████████████████▊                                                                                       | 1614/10000 [01:38<09:13, 15.16it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[51700] loss: 0.083 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 536.99it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 543.09it/s][A
 16%|████████████████▊                                                                                       | 1616/10000 [01:38<09:32, 14.64it/s]
                                                                                                                                                  [A
 16%|████████████████▊                                                                                       | 1616/10000 [01:38<09:32, 14.64it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[51720] loss: 0.056 


                                                                                                                                                  
 16%|████████████████▊                                                                                       | 1616/10000 [01:38<09:32, 14.64it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 514.37it/s][A


[51740] loss: 0.055 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 507.97it/s][A

                                                                                                                                                  [A
 16%|████████████████▊                                                                                       | 1616/10000 [01:38<09:32, 14.64it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[51760] loss: 0.043 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 556.80it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 927.94it/s][A
 16%|████████████████▊                                                                                       | 1618/10000 [01:38<09:34, 14.60it/s]
                                                                                                                                                  [A
 16%|████████████████▊                                                                                       | 1618/10000 [01:38<09:34, 14.60it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[51780] loss: 0.047 


                                                                                                                                                  
 16%|████████████████▊                                                                                       | 1618/10000 [01:38<09:34, 14.60it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 535.57it/s][A


[51800] loss: 0.074 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 734.17it/s][A

                                                                                                                                                  [A
 16%|████████████████▊                                                                                       | 1618/10000 [01:38<09:34, 14.60it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[51820] loss: 0.031 


                                                                                                                                                  
 16%|████████████████▊                                                                                       | 1618/10000 [01:38<09:34, 14.60it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 475.49it/s][A


[51840] loss: 0.063 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 202.23it/s][A
 16%|████████████████▊                                                                                       | 1620/10000 [01:38<09:48, 14.25it/s]
                                                                                                                                                  [A
 16%|████████████████▊                                                                                       | 1620/10000 [01:38<09:48, 14.25it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 593.13it/s][A


[51860] loss: 0.055 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 524.35it/s][A

                                                                                                                                                  [A
 16%|████████████████▊                                                                                       | 1620/10000 [01:38<09:48, 14.25it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[51880] loss: 0.040 


                                                                                                                                                  
 16%|████████████████▊                                                                                       | 1620/10000 [01:38<09:48, 14.25it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 649.20it/s][A


[51900] loss: 0.041 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 607.25it/s][A
 16%|████████████████▊                                                                                       | 1622/10000 [01:38<09:26, 14.80it/s]
                                                                                                                                                  [A
 16%|████████████████▊                                                                                       | 1622/10000 [01:38<09:26, 14.80it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 699.54it/s][A


[51920] loss: 0.052 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1925.76it/s][A

                                                                                                                                                  [A
[A                                                                                                                                               

[51940] loss: 0.032 


 16%|████████████████▊                                                                                       | 1622/10000 [01:38<09:26, 14.80it/s]
                                                                                                                                                  [A
 16%|████████████████▊                                                                                       | 1622/10000 [01:38<09:26, 14.80it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 589.20it/s][A


[51960] loss: 0.072 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1316.48it/s][A
 16%|████████████████▉                                                                                       | 1624/10000 [01:38<09:03, 15.42it/s]
                                                                                                                                                  [A
 16%|████████████████▉                                                                                       | 1624/10000 [01:38<09:03, 15.42it/s]
                                                                                                                                                  [A
[A                                                                                                                                               

[51980] loss: 0.046 
[52000] loss: 0.054 


 16%|████████████████▉                                                                                       | 1624/10000 [01:38<09:03, 15.42it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 688.46it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1356.06it/s][A

                                                                                                                                                  [A
 16%|████████████████▉                                                                                       | 1624/10000 [01:38<09:03, 15.42it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 784.17it/s][A


[52020] loss: 0.055 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1063.73it/s][A
 16%|████████████████▉                                                                                       | 1626/10000 [01:38<08:30, 16.41it/s]
                                                                                                                                                  [A
 16%|████████████████▉                                                                                       | 1626/10000 [01:38<08:30, 16.41it/s]
                                                                                                                                                  [A
[A                                                                                                                                               

[52040] loss: 0.029 
[52060] loss: 0.073 


 16%|████████████████▉                                                                                       | 1626/10000 [01:38<08:30, 16.41it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 653.74it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1354.31it/s][A

                                                                                                                                                  [A
 16%|████████████████▉                                                                                       | 1626/10000 [01:38<08:30, 16.41it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 761.66it/s][A


[52080] loss: 0.052 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2096.10it/s][A
 16%|████████████████▉                                                                                       | 1628/10000 [01:38<08:10, 17.08it/s]
                                                                                                                                                  [A
 16%|████████████████▉                                                                                       | 1628/10000 [01:38<08:10, 17.08it/s]


[52100] loss: 0.038 


                                                                                                                                                  [A
 16%|████████████████▉                                                                                       | 1628/10000 [01:38<08:10, 17.08it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 609.95it/s][A


[52120] loss: 0.044 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 739.34it/s][A

                                                                                                                                                  [A
 16%|████████████████▉                                                                                       | 1628/10000 [01:38<08:10, 17.08it/s]
                                                                                                                                                  [A
 16%|████████████████▉                                                                                       | 1628/10000 [01:38<08:10, 17.08it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[52140] loss: 0.050 
[52160] loss: 0.025 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 667.81it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2156.45it/s][A
 16%|████████████████▉                                                                                       | 1630/10000 [01:38<08:08, 17.14it/s]
                                                                                                                                                  [A
 16%|████████████████▉                                                                                       | 1630/10000 [01:38<08:08, 17.14it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 779.49it/s][A


[52180] loss: 0.052 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1311.54it/s][A

                                                                                                                                                  [A
 16%|████████████████▉                                                                                       | 1630/10000 [01:38<08:08, 17.14it/s]
                                                                                                                                                  [A
 16%|████████████████▉                                                                                       | 1630/10000 [01:39<08:08, 17.14it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 727.88it/s][A


[52200] loss: 0.061 
[52220] loss: 0.065 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1296.14it/s][A
 16%|████████████████▉                                                                                       | 1632/10000 [01:39<07:48, 17.88it/s]
                                                                                                                                                  [A
 16%|████████████████▉                                                                                       | 1632/10000 [01:39<07:48, 17.88it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 768.85it/s][A


[52240] loss: 0.043 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1346.49it/s][A

                                                                                                                                                  [A
 16%|████████████████▉                                                                                       | 1632/10000 [01:39<07:48, 17.88it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[52260] loss: 0.028 


                                                                                                                                                  
 16%|████████████████▉                                                                                       | 1632/10000 [01:39<07:48, 17.88it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 580.36it/s][A


[52280] loss: 0.039 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1452.32it/s][A
 16%|████████████████▉                                                                                       | 1634/10000 [01:39<07:51, 17.76it/s]
                                                                                                                                                  [A
 16%|████████████████▉                                                                                       | 1634/10000 [01:39<07:51, 17.76it/s]
                                                                                                                                                  [A
 16%|████████████████▉                                                                                       | 1634/10000 [01:39<07:51, 17.76it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[52300] loss: 0.053 
[52320] loss: 0.069 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 223.82it/s][A

                                                                                                                                                  [A
 16%|████████████████▉                                                                                       | 1634/10000 [01:39<07:51, 17.76it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 849.40it/s][A


[52340] loss: 0.078 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 928.35it/s][A

                                                                                                                                                  [A
 16%|████████████████▉                                                                                       | 1634/10000 [01:39<07:51, 17.76it/s]
                                                                                                                                                  [A
 16%|████████████████▉                                                                                       | 1634/10000 [01:39<07:51, 17.76it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 671.40it/s][A

[52360] loss: 0.053 
[52380] loss: 0.069 




Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1478.43it/s][A
 16%|█████████████████                                                                                       | 1637/10000 [01:39<07:36, 18.31it/s]
                                                                                                                                                  [A
 16%|█████████████████                                                                                       | 1637/10000 [01:39<07:36, 18.31it/s]


[52400] loss: 0.044 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 735.98it/s][A

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 579.88it/s][A

                                                                                                                                                  [A
 16%|█████████████████                                                                                       | 1637/10000 [01:39<07:36, 18.31it/s]


[52420] loss: 0.040 


                                                                                                                                                  [A
 16%|█████████████████                                                                                       | 1637/10000 [01:39<07:36, 18.31it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 695.27it/s][A


[52440] loss: 0.075 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1369.35it/s][A
 16%|█████████████████                                                                                       | 1639/10000 [01:39<07:34, 18.41it/s]
                                                                                                                                                  [A
 16%|█████████████████                                                                                       | 1639/10000 [01:39<07:34, 18.41it/s]
                                                                                                                                                  [A
 16%|█████████████████                                                                                       | 1639/10000 [01:39<07:34, 18.41it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[52460] loss: 0.063 
[52480] loss: 0.086 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 326.76it/s][A

                                                                                                                                                  [A
 16%|█████████████████                                                                                       | 1639/10000 [01:39<07:34, 18.41it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 737.45it/s][A


[52500] loss: 0.040 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1422.76it/s][A
 16%|█████████████████                                                                                       | 1641/10000 [01:39<07:32, 18.49it/s]
                                                                                                                                                  [A
 16%|█████████████████                                                                                       | 1641/10000 [01:39<07:32, 18.49it/s]
                                                                                                                                                  [A

[52520] loss: 0.065 



 16%|█████████████████                                                                                       | 1641/10000 [01:39<07:32, 18.49it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 548.50it/s][A


[52540] loss: 0.077 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 794.68it/s][A

                                                                                                                                                  [A
 16%|█████████████████                                                                                       | 1641/10000 [01:39<07:32, 18.49it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[52560] loss: 0.054 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 617.41it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 971.58it/s][A
 16%|█████████████████                                                                                       | 1643/10000 [01:39<07:56, 17.55it/s]
                                                                                                                                                  [A
 16%|█████████████████                                                                                       | 1643/10000 [01:39<07:56, 17.55it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[52580] loss: 0.074 


                                                                                                                                                  
 16%|█████████████████                                                                                       | 1643/10000 [01:39<07:56, 17.55it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 533.40it/s][A


[52600] loss: 0.062 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 547.27it/s][A

                                                                                                                                                  [A
 16%|█████████████████                                                                                       | 1643/10000 [01:39<07:56, 17.55it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[52620] loss: 0.048 


                                                                                                                                                  
 16%|█████████████████                                                                                       | 1643/10000 [01:39<07:56, 17.55it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 525.95it/s][A


[52640] loss: 0.098 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 831.87it/s][A
 16%|█████████████████                                                                                       | 1645/10000 [01:39<08:27, 16.46it/s]
                                                                                                                                                  [A
 16%|█████████████████                                                                                       | 1645/10000 [01:39<08:27, 16.46it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 611.39it/s][A


[52660] loss: 0.048 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 632.15it/s][A

                                                                                                                                                  [A
 16%|█████████████████                                                                                       | 1645/10000 [01:39<08:27, 16.46it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[52680] loss: 0.055 


                                                                                                                                                  
 16%|█████████████████                                                                                       | 1645/10000 [01:39<08:27, 16.46it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 519.54it/s][A


[52700] loss: 0.038 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 737.78it/s][A
 16%|█████████████████▏                                                                                      | 1647/10000 [01:39<08:46, 15.86it/s]
                                                                                                                                                  [A
 16%|█████████████████▏                                                                                      | 1647/10000 [01:39<08:46, 15.86it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[52720] loss: 0.043 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 612.33it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 903.94it/s][A

                                                                                                                                                  [A
 16%|█████████████████▏                                                                                      | 1647/10000 [01:39<08:46, 15.86it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[52740] loss: 0.070 


                                                                                                                                                  
 16%|█████████████████▏                                                                                      | 1647/10000 [01:40<08:46, 15.86it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 427.58it/s][A


[52760] loss: 0.087 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 727.80it/s][A
 16%|█████████████████▏                                                                                      | 1649/10000 [01:40<09:15, 15.03it/s]
                                                                                                                                                  [A
 16%|█████████████████▏                                                                                      | 1649/10000 [01:40<09:15, 15.03it/s]
                                                                                                                                                  [A
 16%|█████████████████▏                                                                                      | 1649/10000 [01:40<09:15, 15.03it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[52780] loss: 0.077 
[52800] loss: 0.106 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 971.80it/s][A

                                                                                                                                                  [A
 16%|█████████████████▏                                                                                      | 1649/10000 [01:40<09:15, 15.03it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[52820] loss: 0.048 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 561.02it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 665.55it/s][A
 17%|█████████████████▏                                                                                      | 1651/10000 [01:40<09:29, 14.65it/s]
                                                                                                                                                  [A
 17%|█████████████████▏                                                                                      | 1651/10000 [01:40<09:29, 14.65it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[52840] loss: 0.094 


                                                                                                                                                  
 17%|█████████████████▏                                                                                      | 1651/10000 [01:40<09:29, 14.65it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 537.42it/s][A


[52860] loss: 0.063 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 543.73it/s][A

                                                                                                                                                  [A
 17%|█████████████████▏                                                                                      | 1651/10000 [01:40<09:29, 14.65it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 615.52it/s][A


[52880] loss: 0.070 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 521.16it/s][A
 17%|█████████████████▏                                                                                      | 1653/10000 [01:40<09:23, 14.80it/s]
                                                                                                                                                  [A
 17%|█████████████████▏                                                                                      | 1653/10000 [01:40<09:23, 14.80it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[52900] loss: 0.049 


                                                                                                                                                  
 17%|█████████████████▏                                                                                      | 1653/10000 [01:40<09:23, 14.80it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 541.04it/s][A


[52920] loss: 0.065 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 497.01it/s][A

                                                                                                                                                  [A
 17%|█████████████████▏                                                                                      | 1653/10000 [01:40<09:23, 14.80it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[52940] loss: 0.077 


                                                                                                                                                  
 17%|█████████████████▏                                                                                      | 1653/10000 [01:40<09:23, 14.80it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 562.69it/s][A


[52960] loss: 0.026 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 299.23it/s][A
 17%|█████████████████▏                                                                                      | 1655/10000 [01:40<09:27, 14.71it/s]
                                                                                                                                                  [A
 17%|█████████████████▏                                                                                      | 1655/10000 [01:40<09:27, 14.71it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 616.13it/s][A


[52980] loss: 0.051 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 590.83it/s][A

                                                                                                                                                  [A
 17%|█████████████████▏                                                                                      | 1655/10000 [01:40<09:27, 14.71it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[53000] loss: 0.048 


                                                                                                                                                  
 17%|█████████████████▏                                                                                      | 1655/10000 [01:40<09:27, 14.71it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 531.82it/s][A


[53020] loss: 0.050 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1010.43it/s][A
 17%|█████████████████▏                                                                                      | 1657/10000 [01:40<09:17, 14.96it/s]
                                                                                                                                                  [A
 17%|█████████████████▏                                                                                      | 1657/10000 [01:40<09:17, 14.96it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 639.84it/s][A


[53040] loss: 0.051 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 524.29it/s][A

                                                                                                                                                  [A
 17%|█████████████████▏                                                                                      | 1657/10000 [01:40<09:17, 14.96it/s]
                                                                                                                                                  [A
 17%|█████████████████▏                                                                                      | 1657/10000 [01:40<09:17, 14.96it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[53060] loss: 0.037 
[53080] loss: 0.053 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 598.29it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1465.52it/s][A
 17%|█████████████████▎                                                                                      | 1659/10000 [01:40<09:02, 15.39it/s]
                                                                                                                                                  [A
 17%|█████████████████▎                                                                                      | 1659/10000 [01:40<09:02, 15.39it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[53100] loss: 0.073 


                                                                                                                                                  
 17%|█████████████████▎                                                                                      | 1659/10000 [01:40<09:02, 15.39it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 650.93it/s][A


[53120] loss: 0.108 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 581.25it/s][A

                                                                                                                                                  [A
 17%|█████████████████▎                                                                                      | 1659/10000 [01:40<09:02, 15.39it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 1038.75it/s][A


[53140] loss: 0.043 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2291.97it/s][A

                                                                                                                                                  [A
 17%|█████████████████▎                                                                                      | 1659/10000 [01:40<09:02, 15.39it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[53160] loss: 0.087 


                                                                                                                                                  
 17%|█████████████████▎                                                                                      | 1659/10000 [01:40<09:02, 15.39it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 828.41it/s][A


[53180] loss: 0.091 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1147.24it/s][A
 17%|█████████████████▎                                                                                      | 1662/10000 [01:40<08:00, 17.34it/s]
                                                                                                                                                  [A
 17%|█████████████████▎                                                                                      | 1662/10000 [01:40<08:00, 17.34it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 837.69it/s][A


[53200] loss: 0.048 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2094.01it/s][A

                                                                                                                                                  [A
 17%|█████████████████▎                                                                                      | 1662/10000 [01:40<08:00, 17.34it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[53220] loss: 0.061 


                                                                                                                                                  
 17%|█████████████████▎                                                                                      | 1662/10000 [01:40<08:00, 17.34it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 606.42it/s][A


[53240] loss: 0.044 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1405.60it/s][A
 17%|█████████████████▎                                                                                      | 1664/10000 [01:40<07:52, 17.62it/s]
                                                                                                                                                  [A
 17%|█████████████████▎                                                                                      | 1664/10000 [01:40<07:52, 17.62it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[53260] loss: 0.061 


                                                                                                                                                  
 17%|█████████████████▎                                                                                      | 1664/10000 [01:41<07:52, 17.62it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 683.61it/s][A


[53280] loss: 0.064 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1446.81it/s][A

                                                                                                                                                  [A
 17%|█████████████████▎                                                                                      | 1664/10000 [01:41<07:52, 17.62it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 741.92it/s][A


[53300] loss: 0.049 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2134.51it/s][A
 17%|█████████████████▎                                                                                      | 1666/10000 [01:41<07:44, 17.95it/s]
                                                                                                                                                  [A
 17%|█████████████████▎                                                                                      | 1666/10000 [01:41<07:44, 17.95it/s]
                                                                                                                                                  [A
 17%|█████████████████▎                                                                                      | 1666/10000 [01:41<07:44, 17.95it/s]
Training Epoch:   0%|                                                                                       

[53320] loss: 0.053 
[53340] loss: 0.063 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 692.91it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1389.76it/s][A

                                                                                                                                                  [A
 17%|█████████████████▎                                                                                      | 1666/10000 [01:41<07:44, 17.95it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 776.83it/s][A


[53360] loss: 0.044 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 838.53it/s][A
 17%|█████████████████▎                                                                                      | 1668/10000 [01:41<07:34, 18.34it/s]
                                                                                                                                                  [A
 17%|█████████████████▎                                                                                      | 1668/10000 [01:41<07:34, 18.34it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[53380] loss: 0.044 


                                                                                                                                                  
 17%|█████████████████▎                                                                                      | 1668/10000 [01:41<07:34, 18.34it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 584.20it/s][A


[53400] loss: 0.086 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 947.65it/s][A

                                                                                                                                                  [A
 17%|█████████████████▎                                                                                      | 1668/10000 [01:41<07:34, 18.34it/s]
                                                                                                                                                  [A


[53420] loss: 0.061 


 17%|█████████████████▎                                                                                      | 1668/10000 [01:41<07:34, 18.34it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 647.87it/s][A


[53440] loss: 0.024 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 374.42it/s][A
 17%|█████████████████▎                                                                                      | 1670/10000 [01:41<07:50, 17.72it/s]
                                                                                                                                                  [A
 17%|█████████████████▎                                                                                      | 1670/10000 [01:41<07:50, 17.72it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 725.68it/s][A


[53460] loss: 0.093 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2110.87it/s][A

                                                                                                                                                  [A
 17%|█████████████████▎                                                                                      | 1670/10000 [01:41<07:50, 17.72it/s]
                                                                                                                                                  [A
 17%|█████████████████▎                                                                                      | 1670/10000 [01:41<07:50, 17.72it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[53480] loss: 0.049 
[53500] loss: 0.048 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 728.97it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1069.70it/s][A
 17%|█████████████████▍                                                                                      | 1672/10000 [01:41<07:41, 18.06it/s]
                                                                                                                                                  [A
 17%|█████████████████▍                                                                                      | 1672/10000 [01:41<07:41, 18.06it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 847.61it/s][A


[53520] loss: 0.061 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2109.81it/s][A

                                                                                                                                                  [A
 17%|█████████████████▍                                                                                      | 1672/10000 [01:41<07:41, 18.06it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[53540] loss: 0.058 


                                                                                                                                                  
 17%|█████████████████▍                                                                                      | 1672/10000 [01:41<07:41, 18.06it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[53560] loss: 0.056 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 628.54it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1340.89it/s][A
 17%|█████████████████▍                                                                                      | 1674/10000 [01:41<07:31, 18.45it/s]
                                                                                                                                                  [A
 17%|█████████████████▍                                                                                      | 1674/10000 [01:41<07:31, 18.45it/s]
                                                                                                                                                  [A
 17%|█████████████████▍                                                                                     

[53580] loss: 0.075 
[53600] loss: 0.045 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2162.01it/s][A

                                                                                                                                                  [A
 17%|█████████████████▍                                                                                      | 1674/10000 [01:41<07:31, 18.45it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 817.49it/s][A


[53620] loss: 0.085 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1348.22it/s][A

                                                                                                                                                  [A
 17%|█████████████████▍                                                                                      | 1674/10000 [01:41<07:31, 18.45it/s]
                                                                                                                                                  [A
 17%|█████████████████▍                                                                                      | 1674/10000 [01:41<07:31, 18.45it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 707.34it/s][A


[53640] loss: 0.059 
[53660] loss: 0.093 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1286.60it/s][A
 17%|█████████████████▍                                                                                      | 1677/10000 [01:41<07:21, 18.85it/s]
                                                                                                                                                  [A
 17%|█████████████████▍                                                                                      | 1677/10000 [01:41<07:21, 18.85it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[53680] loss: 0.028 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 727.52it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2073.31it/s][A

                                                                                                                                                  [A
 17%|█████████████████▍                                                                                      | 1677/10000 [01:41<07:21, 18.85it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[53700] loss: 0.038 


                                                                                                                                                  
 17%|█████████████████▍                                                                                      | 1677/10000 [01:41<07:21, 18.85it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 527.06it/s][A


[53720] loss: 0.053 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 563.15it/s][A
 17%|█████████████████▍                                                                                      | 1679/10000 [01:41<07:36, 18.24it/s]
                                                                                                                                                  [A
 17%|█████████████████▍                                                                                      | 1679/10000 [01:41<07:36, 18.24it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[53740] loss: 0.071 


                                                                                                                                                  
 17%|█████████████████▍                                                                                      | 1679/10000 [01:41<07:36, 18.24it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 550.10it/s][A


[53760] loss: 0.025 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 955.42it/s][A

                                                                                                                                                  [A
 17%|█████████████████▍                                                                                      | 1679/10000 [01:41<07:36, 18.24it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[53780] loss: 0.086 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 627.41it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 787.22it/s][A
 17%|█████████████████▍                                                                                      | 1681/10000 [01:41<07:54, 17.51it/s]
                                                                                                                                                  [A
 17%|█████████████████▍                                                                                      | 1681/10000 [01:41<07:54, 17.51it/s]
                                                                                                                                                  [A
 17%|█████████████████▍                                                                                     

[53800] loss: 0.059 
[53820] loss: 0.048 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 583.58it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 492.06it/s][A

                                                                                                                                                  [A
 17%|█████████████████▍                                                                                      | 1681/10000 [01:42<07:54, 17.51it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[53840] loss: 0.054 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 575.97it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 986.20it/s][A
 17%|█████████████████▌                                                                                      | 1683/10000 [01:42<08:09, 16.99it/s]
                                                                                                                                                  [A
 17%|█████████████████▌                                                                                      | 1683/10000 [01:42<08:09, 16.99it/s]
                                                                                                                                                  [A
 17%|█████████████████▌                                                                                     

[53860] loss: 0.098 
[53880] loss: 0.074 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 547.00it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1002.22it/s][A

                                                                                                                                                  [A
 17%|█████████████████▌                                                                                      | 1683/10000 [01:42<08:09, 16.99it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[53900] loss: 0.084 


                                                                                                                                                  
 17%|█████████████████▌                                                                                      | 1683/10000 [01:42<08:09, 16.99it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 592.59it/s][A


[53920] loss: 0.066 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 857.56it/s][A
 17%|█████████████████▌                                                                                      | 1685/10000 [01:42<08:19, 16.64it/s]
                                                                                                                                                  [A
 17%|█████████████████▌                                                                                      | 1685/10000 [01:42<08:19, 16.64it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[53940] loss: 0.058 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 650.44it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1050.94it/s][A

                                                                                                                                                  [A
 17%|█████████████████▌                                                                                      | 1685/10000 [01:42<08:19, 16.64it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[53960] loss: 0.077 


                                                                                                                                                  
 17%|█████████████████▌                                                                                      | 1685/10000 [01:42<08:19, 16.64it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 568.82it/s][A


[53980] loss: 0.050 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 762.74it/s][A
 17%|█████████████████▌                                                                                      | 1687/10000 [01:42<08:23, 16.53it/s]
                                                                                                                                                  [A
 17%|█████████████████▌                                                                                      | 1687/10000 [01:42<08:23, 16.53it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[54000] loss: 0.064 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 631.18it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 557.31it/s][A

                                                                                                                                                  [A
 17%|█████████████████▌                                                                                      | 1687/10000 [01:42<08:23, 16.53it/s]
                                                                                                                                                  [A
 17%|█████████████████▌                                                                                      | 1687/10000 [01:42<08:23, 16.53it/s]
Training Epoch:   0%|                                                                                      

[54020] loss: 0.061 
[54040] loss: 0.050 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 522.76it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 678.69it/s][A
 17%|█████████████████▌                                                                                      | 1689/10000 [01:42<08:32, 16.22it/s]
                                                                                                                                                  [A
 17%|█████████████████▌                                                                                      | 1689/10000 [01:42<08:32, 16.22it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[54060] loss: 0.047 


                                                                                                                                                  
 17%|█████████████████▌                                                                                      | 1689/10000 [01:42<08:32, 16.22it/s]


[54080] loss: 0.019 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 570.17it/s][A

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 265.09it/s][A

                                                                                                                                                  [A
 17%|█████████████████▌                                                                                      | 1689/10000 [01:42<08:32, 16.22it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[54100] loss: 0.124 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 638.74it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 576.77it/s][A
 17%|█████████████████▌                                                                                      | 1691/10000 [01:42<08:33, 16.18it/s]
                                                                                                                                                  [A
 17%|█████████████████▌                                                                                      | 1691/10000 [01:42<08:33, 16.18it/s]
                                                                                                                                                  [A
 17%|█████████████████▌                                                                                     

[54120] loss: 0.074 
[54140] loss: 0.048 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 659.69it/s][A

                                                                                                                                                  [A
 17%|█████████████████▌                                                                                      | 1691/10000 [01:42<08:33, 16.18it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[54160] loss: 0.042 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 546.52it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 637.92it/s][A
 17%|█████████████████▌                                                                                      | 1693/10000 [01:42<08:59, 15.40it/s]
                                                                                                                                                  [A
 17%|█████████████████▌                                                                                      | 1693/10000 [01:42<08:59, 15.40it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[54180] loss: 0.053 


                                                                                                                                                  
 17%|█████████████████▌                                                                                      | 1693/10000 [01:42<08:59, 15.40it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 488.91it/s][A


[54200] loss: 0.088 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 541.27it/s][A

                                                                                                                                                  [A
 17%|█████████████████▌                                                                                      | 1693/10000 [01:42<08:59, 15.40it/s]
                                                                                                                                                  [A
 17%|█████████████████▌                                                                                      | 1693/10000 [01:42<08:59, 15.40it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 536.75it/s][A


[54220] loss: 0.066 
[54240] loss: 0.119 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 745.92it/s][A
 17%|█████████████████▋                                                                                      | 1695/10000 [01:42<09:17, 14.90it/s]
                                                                                                                                                  [A
 17%|█████████████████▋                                                                                      | 1695/10000 [01:42<09:17, 14.90it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 544.60it/s][A


[54260] loss: 0.064 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 624.15it/s][A

                                                                                                                                                  [A
 17%|█████████████████▋                                                                                      | 1695/10000 [01:42<09:17, 14.90it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[54280] loss: 0.108 


                                                                                                                                                  
 17%|█████████████████▋                                                                                      | 1695/10000 [01:42<09:17, 14.90it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 518.37it/s][A


[54300] loss: 0.100 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1387.46it/s][A
 17%|█████████████████▋                                                                                      | 1697/10000 [01:42<09:20, 14.81it/s]
                                                                                                                                                  [A
 17%|█████████████████▋                                                                                      | 1697/10000 [01:42<09:20, 14.81it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 707.26it/s][A


[54320] loss: 0.062 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1038.19it/s][A

                                                                                                                                                  [A
 17%|█████████████████▋                                                                                      | 1697/10000 [01:43<09:20, 14.81it/s]
                                                                                                                                                  [A
 17%|█████████████████▋                                                                                      | 1697/10000 [01:43<09:20, 14.81it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[54340] loss: 0.082 
[54360] loss: 0.083 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 663.33it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 829.41it/s][A
 17%|█████████████████▋                                                                                      | 1699/10000 [01:43<08:53, 15.56it/s]
                                                                                                                                                  [A
 17%|█████████████████▋                                                                                      | 1699/10000 [01:43<08:53, 15.56it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[54380] loss: 0.031 


                                                                                                                                                  
 17%|█████████████████▋                                                                                      | 1699/10000 [01:43<08:53, 15.56it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 647.53it/s][A


[54400] loss: 0.044 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1247.19it/s][A

                                                                                                                                                  [A
 17%|█████████████████▋                                                                                      | 1699/10000 [01:43<08:53, 15.56it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 757.76it/s][A


[54420] loss: 0.080 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 555.68it/s][A
 17%|█████████████████▋                                                                                      | 1701/10000 [01:43<08:32, 16.20it/s]
                                                                                                                                                  [A
 17%|█████████████████▋                                                                                      | 1701/10000 [01:43<08:32, 16.20it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[54440] loss: 0.046 


                                                                                                                                                  
 17%|█████████████████▋                                                                                      | 1701/10000 [01:43<08:32, 16.20it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 532.88it/s][A


[54460] loss: 0.066 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1657.17it/s][A

                                                                                                                                                  [A
 17%|█████████████████▋                                                                                      | 1701/10000 [01:43<08:32, 16.20it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[54480] loss: 0.045 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 730.00it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1023.00it/s][A
 17%|█████████████████▋                                                                                      | 1703/10000 [01:43<08:31, 16.22it/s]
                                                                                                                                                  [A
 17%|█████████████████▋                                                                                      | 1703/10000 [01:43<08:31, 16.22it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[54500] loss: 0.062 


                                                                                                                                                  
 17%|█████████████████▋                                                                                      | 1703/10000 [01:43<08:31, 16.22it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[54520] loss: 0.098 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 629.37it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1382.89it/s][A

                                                                                                                                                  [A
 17%|█████████████████▋                                                                                      | 1703/10000 [01:43<08:31, 16.22it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[54540] loss: 0.044 


                                                                                                                                                  
 17%|█████████████████▋                                                                                      | 1703/10000 [01:43<08:31, 16.22it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 538.33it/s][A


[54560] loss: 0.057 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1296.94it/s][A
 17%|█████████████████▋                                                                                      | 1705/10000 [01:43<08:40, 15.94it/s]
                                                                                                                                                  [A
 17%|█████████████████▋                                                                                      | 1705/10000 [01:43<08:40, 15.94it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[54580] loss: 0.047 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 729.42it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1334.07it/s][A

                                                                                                                                                  [A
 17%|█████████████████▋                                                                                      | 1705/10000 [01:43<08:40, 15.94it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[54600] loss: 0.044 


                                                                                                                                                  
 17%|█████████████████▋                                                                                      | 1705/10000 [01:43<08:40, 15.94it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 713.42it/s][A


[54620] loss: 0.039 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 733.53it/s][A
 17%|█████████████████▊                                                                                      | 1707/10000 [01:43<08:19, 16.59it/s]
                                                                                                                                                  [A
 17%|█████████████████▊                                                                                      | 1707/10000 [01:43<08:19, 16.59it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[54640] loss: 0.049 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 712.17it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 746.32it/s][A

                                                                                                                                                  [A
 17%|█████████████████▊                                                                                      | 1707/10000 [01:43<08:19, 16.59it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[54660] loss: 0.059 


                                                                                                                                                  
 17%|█████████████████▊                                                                                      | 1707/10000 [01:43<08:19, 16.59it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 648.23it/s][A


[54680] loss: 0.107 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1422.76it/s][A
 17%|█████████████████▊                                                                                      | 1709/10000 [01:43<08:09, 16.94it/s]
                                                                                                                                                  [A
 17%|█████████████████▊                                                                                      | 1709/10000 [01:43<08:09, 16.94it/s]
                                                                                                                                                  [A
 17%|█████████████████▊                                                                                      | 1709/10000 [01:43<08:09, 16.94it/s]


[54700] loss: 0.066 
[54720] loss: 0.060 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 663.26it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1602.10it/s][A

                                                                                                                                                  [A
 17%|█████████████████▊                                                                                      | 1709/10000 [01:43<08:09, 16.94it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 737.80it/s][A


[54740] loss: 0.091 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 904.33it/s][A
 17%|█████████████████▊                                                                                      | 1711/10000 [01:43<07:57, 17.36it/s]
                                                                                                                                                  [A
 17%|█████████████████▊                                                                                      | 1711/10000 [01:43<07:57, 17.36it/s]
                                                                                                                                                  [A
 17%|█████████████████▊                                                                                      | 1711/10000 [01:43<07:57, 17.36it/s]
Training Epoch:   0%|                                                                                       

[54760] loss: 0.089 
[54780] loss: 0.085 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 700.71it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 792.13it/s][A

                                                                                                                                                  [A
 17%|█████████████████▊                                                                                      | 1711/10000 [01:43<07:57, 17.36it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 787.09it/s][A


[54800] loss: 0.056 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 669.27it/s][A
 17%|█████████████████▊                                                                                      | 1713/10000 [01:43<07:44, 17.83it/s]
                                                                                                                                                  [A
 17%|█████████████████▊                                                                                      | 1713/10000 [01:43<07:44, 17.83it/s]
                                                                                                                                                  [A
 17%|█████████████████▊                                                                                      | 1713/10000 [01:43<07:44, 17.83it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[54820] loss: 0.036 
[54840] loss: 0.072 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1068.34it/s][A

                                                                                                                                                  [A
 17%|█████████████████▊                                                                                      | 1713/10000 [01:43<07:44, 17.83it/s]
                                                                                                                                                  [A
 17%|█████████████████▊                                                                                      | 1713/10000 [01:43<07:44, 17.83it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 734.76it/s][A


[54860] loss: 0.046 
[54880] loss: 0.091 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 592.08it/s][A
 17%|█████████████████▊                                                                                      | 1715/10000 [01:43<07:36, 18.16it/s]
                                                                                                                                                  [A
 17%|█████████████████▊                                                                                      | 1715/10000 [01:44<07:36, 18.16it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 893.14it/s][A


[54900] loss: 0.074 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 822.90it/s][A

                                                                                                                                                  [A
 17%|█████████████████▊                                                                                      | 1715/10000 [01:44<07:36, 18.16it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[54920] loss: 0.036 


                                                                                                                                                  
 17%|█████████████████▊                                                                                      | 1715/10000 [01:44<07:36, 18.16it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[54940] loss: 0.074 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 508.49it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 753.69it/s][A
 17%|█████████████████▊                                                                                      | 1717/10000 [01:44<07:44, 17.83it/s]
                                                                                                                                                  [A
 17%|█████████████████▊                                                                                      | 1717/10000 [01:44<07:44, 17.83it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[54960] loss: 0.052 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 590.95it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 606.29it/s][A

                                                                                                                                                  [A
 17%|█████████████████▊                                                                                      | 1717/10000 [01:44<07:44, 17.83it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[54980] loss: 0.047 


                                                                                                                                                  
 17%|█████████████████▊                                                                                      | 1717/10000 [01:44<07:44, 17.83it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 478.62it/s][A


[55000] loss: 0.053 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 661.35it/s][A
 17%|█████████████████▉                                                                                      | 1719/10000 [01:44<08:22, 16.47it/s]
                                                                                                                                                  [A
 17%|█████████████████▉                                                                                      | 1719/10000 [01:44<08:22, 16.47it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[55020] loss: 0.039 


                                                                                                                                                  
 17%|█████████████████▉                                                                                      | 1719/10000 [01:44<08:22, 16.47it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 541.37it/s][A


[55040] loss: 0.070 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 231.18it/s][A

                                                                                                                                                  [A
 17%|█████████████████▉                                                                                      | 1719/10000 [01:44<08:22, 16.47it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 633.18it/s][A


[55060] loss: 0.053 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 965.32it/s][A
 17%|█████████████████▉                                                                                      | 1721/10000 [01:44<08:36, 16.04it/s]
                                                                                                                                                  [A
 17%|█████████████████▉                                                                                      | 1721/10000 [01:44<08:36, 16.04it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[55080] loss: 0.052 


                                                                                                                                                  
 17%|█████████████████▉                                                                                      | 1721/10000 [01:44<08:36, 16.04it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 575.34it/s][A


[55100] loss: 0.043 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 604.80it/s][A

                                                                                                                                                  [A
 17%|█████████████████▉                                                                                      | 1721/10000 [01:44<08:36, 16.04it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 588.22it/s][A


[55120] loss: 0.041 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1009.70it/s][A
 17%|█████████████████▉                                                                                      | 1723/10000 [01:44<08:36, 16.02it/s]
                                                                                                                                                  [A
 17%|█████████████████▉                                                                                      | 1723/10000 [01:44<08:36, 16.02it/s]
                                                                                                                                                  [A
 17%|█████████████████▉                                                                                      | 1723/10000 [01:44<08:36, 16.02it/s]

[55140] loss: 0.052 
[55160] loss: 0.105 



Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 491.45it/s][A

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 865.88it/s][A

                                                                                                                                                  [A
 17%|█████████████████▉                                                                                      | 1723/10000 [01:44<08:36, 16.02it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[55180] loss: 0.040 


                                                                                                                                                  
 17%|█████████████████▉                                                                                      | 1723/10000 [01:44<08:36, 16.02it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 548.34it/s][A


[55200] loss: 0.075 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 726.29it/s][A
 17%|█████████████████▉                                                                                      | 1725/10000 [01:44<08:55, 15.44it/s]
                                                                                                                                                  [A
 17%|█████████████████▉                                                                                      | 1725/10000 [01:44<08:55, 15.44it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 617.08it/s][A


[55220] loss: 0.070 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 938.95it/s][A

                                                                                                                                                  [A
 17%|█████████████████▉                                                                                      | 1725/10000 [01:44<08:55, 15.44it/s]
                                                                                                                                                  [A
 17%|█████████████████▉                                                                                      | 1725/10000 [01:44<08:55, 15.44it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 562.91it/s][A


[55240] loss: 0.055 
[55260] loss: 0.102 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 603.32it/s][A
 17%|█████████████████▉                                                                                      | 1727/10000 [01:44<08:49, 15.63it/s]
                                                                                                                                                  [A
 17%|█████████████████▉                                                                                      | 1727/10000 [01:44<08:49, 15.63it/s]


[55280] loss: 0.044 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 567.10it/s][A

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 910.82it/s][A

                                                                                                                                                  [A
 17%|█████████████████▉                                                                                      | 1727/10000 [01:44<08:49, 15.63it/s]
                                                                                                                                                  [A
 17%|█████████████████▉                                                                                      | 1727/10000 [01:44<08:49, 15.63it/s]

[55300] loss: 0.062 
[55320] loss: 0.081 



Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 559.55it/s][A

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 864.80it/s][A
 17%|█████████████████▉                                                                                      | 1729/10000 [01:44<08:50, 15.59it/s]
                                                                                                                                                  [A
[A                                                                                                                                               

[55340] loss: 0.076 


 17%|█████████████████▉                                                                                      | 1729/10000 [01:44<08:50, 15.59it/s]
                                                                                                                                                  [A
 17%|█████████████████▉                                                                                      | 1729/10000 [01:44<08:50, 15.59it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 566.94it/s][A


[55360] loss: 0.116 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 686.13it/s][A

                                                                                                                                                  [A
 17%|█████████████████▉                                                                                      | 1729/10000 [01:45<08:50, 15.59it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 594.94it/s][A


[55380] loss: 0.081 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 797.24it/s][A
 17%|██████████████████                                                                                      | 1731/10000 [01:45<08:46, 15.71it/s]
                                                                                                                                                  [A
 17%|██████████████████                                                                                      | 1731/10000 [01:45<08:46, 15.71it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[55400] loss: 0.049 


                                                                                                                                                  
 17%|██████████████████                                                                                      | 1731/10000 [01:45<08:46, 15.71it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 626.52it/s][A


[55420] loss: 0.055 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 551.81it/s][A

                                                                                                                                                  [A
 17%|██████████████████                                                                                      | 1731/10000 [01:45<08:46, 15.71it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[55440] loss: 0.052 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 591.65it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 859.84it/s][A
 17%|██████████████████                                                                                      | 1733/10000 [01:45<08:37, 15.96it/s]
                                                                                                                                                  [A
 17%|██████████████████                                                                                      | 1733/10000 [01:45<08:37, 15.96it/s]
                                                                                                                                                  [A
 17%|██████████████████                                                                                     

[55460] loss: 0.083 
[55480] loss: 0.064 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 519.40it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 835.85it/s][A

                                                                                                                                                  [A
 17%|██████████████████                                                                                      | 1733/10000 [01:45<08:37, 15.96it/s]
                                                                                                                                                  [A


[55500] loss: 0.041 


 17%|██████████████████                                                                                      | 1733/10000 [01:45<08:37, 15.96it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 644.22it/s][A


[55520] loss: 0.017 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2142.14it/s][A
 17%|██████████████████                                                                                      | 1735/10000 [01:45<08:43, 15.79it/s]
                                                                                                                                                  [A
 17%|██████████████████                                                                                      | 1735/10000 [01:45<08:43, 15.79it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[55540] loss: 0.073 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 718.61it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1510.37it/s][A

                                                                                                                                                  [A
 17%|██████████████████                                                                                      | 1735/10000 [01:45<08:43, 15.79it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[55560] loss: 0.033 


                                                                                                                                                  
 17%|██████████████████                                                                                      | 1735/10000 [01:45<08:43, 15.79it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 613.96it/s][A


[55580] loss: 0.035 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 646.57it/s][A
 17%|██████████████████                                                                                      | 1737/10000 [01:45<08:27, 16.29it/s]
                                                                                                                                                  [A
 17%|██████████████████                                                                                      | 1737/10000 [01:45<08:27, 16.29it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 761.31it/s][A


[55600] loss: 0.100 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 629.02it/s][A

                                                                                                                                                  [A
 17%|██████████████████                                                                                      | 1737/10000 [01:45<08:27, 16.29it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[55620] loss: 0.045 


                                                                                                                                                  
 17%|██████████████████                                                                                      | 1737/10000 [01:45<08:27, 16.29it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 636.14it/s][A


[55640] loss: 0.050 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1353.00it/s][A
 17%|██████████████████                                                                                      | 1739/10000 [01:45<08:12, 16.76it/s]
                                                                                                                                                  [A
 17%|██████████████████                                                                                      | 1739/10000 [01:45<08:12, 16.76it/s]
                                                                                                                                                  [A

[55660] loss: 0.076 



 17%|██████████████████                                                                                      | 1739/10000 [01:45<08:12, 16.76it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 680.13it/s][A


[55680] loss: 0.101 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 379.54it/s][A

                                                                                                                                                  [A
 17%|██████████████████                                                                                      | 1739/10000 [01:45<08:12, 16.76it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 749.70it/s][A


[55700] loss: 0.063 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2012.62it/s][A
 17%|██████████████████                                                                                      | 1741/10000 [01:45<08:00, 17.18it/s]
                                                                                                                                                  [A
 17%|██████████████████                                                                                      | 1741/10000 [01:45<08:00, 17.18it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[55720] loss: 0.053 


                                                                                                                                                  
 17%|██████████████████                                                                                      | 1741/10000 [01:45<08:00, 17.18it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 584.42it/s][A


[55740] loss: 0.056 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1416.04it/s][A

                                                                                                                                                  [A
 17%|██████████████████                                                                                      | 1741/10000 [01:45<08:00, 17.18it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[55760] loss: 0.070 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 681.39it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 882.27it/s][A
 17%|██████████████████▏                                                                                     | 1743/10000 [01:45<08:04, 17.03it/s]
                                                                                                                                                  [A
 17%|██████████████████▏                                                                                     | 1743/10000 [01:45<08:04, 17.03it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[55780] loss: 0.058 


                                                                                                                                                  
 17%|██████████████████▏                                                                                     | 1743/10000 [01:45<08:04, 17.03it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 665.49it/s][A


[55800] loss: 0.053 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 676.39it/s][A

                                                                                                                                                  [A
 17%|██████████████████▏                                                                                     | 1743/10000 [01:45<08:04, 17.03it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[55820] loss: 0.059 


                                                                                                                                                  
 17%|██████████████████▏                                                                                     | 1743/10000 [01:45<08:04, 17.03it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 538.23it/s][A


[55840] loss: 0.142 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1099.14it/s][A
 17%|██████████████████▏                                                                                     | 1745/10000 [01:45<08:14, 16.68it/s]
                                                                                                                                                  [A
 17%|██████████████████▏                                                                                     | 1745/10000 [01:45<08:14, 16.68it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[55860] loss: 0.075 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 636.98it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1454.34it/s][A

                                                                                                                                                  [A
 17%|██████████████████▏                                                                                     | 1745/10000 [01:45<08:14, 16.68it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[55880] loss: 0.046 


                                                                                                                                                  
 17%|██████████████████▏                                                                                     | 1745/10000 [01:45<08:14, 16.68it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 526.74it/s][A


[55900] loss: 0.056 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1359.14it/s][A
 17%|██████████████████▏                                                                                     | 1747/10000 [01:45<08:28, 16.22it/s]
                                                                                                                                                  [A
 17%|██████████████████▏                                                                                     | 1747/10000 [01:46<08:28, 16.22it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 698.58it/s][A


[55920] loss: 0.060 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1390.22it/s][A

                                                                                                                                                  [A
 17%|██████████████████▏                                                                                     | 1747/10000 [01:46<08:28, 16.22it/s]
                                                                                                                                                  [A
 17%|██████████████████▏                                                                                     | 1747/10000 [01:46<08:28, 16.22it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[55940] loss: 0.083 
[55960] loss: 0.029 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 682.57it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1198.03it/s][A
 17%|██████████████████▏                                                                                     | 1749/10000 [01:46<08:12, 16.77it/s]
                                                                                                                                                  [A
 17%|██████████████████▏                                                                                     | 1749/10000 [01:46<08:12, 16.77it/s]
                                                                                                                                                  [A
 17%|██████████████████▏                                                                                    

[55980] loss: 0.061 
[56000] loss: 0.104 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1223.90it/s][A

                                                                                                                                                  [A
 17%|██████████████████▏                                                                                     | 1749/10000 [01:46<08:12, 16.77it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 1041.74it/s][A


[56020] loss: 0.068 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 867.85it/s][A

                                                                                                                                                  [A
 17%|██████████████████▏                                                                                     | 1749/10000 [01:46<08:12, 16.77it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[56040] loss: 0.038 


                                                                                                                                                  
 17%|██████████████████▏                                                                                     | 1749/10000 [01:46<08:12, 16.77it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 674.37it/s][A


[56060] loss: 0.055 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1305.82it/s][A
 18%|██████████████████▏                                                                                     | 1752/10000 [01:46<07:24, 18.56it/s]
                                                                                                                                                  [A
 18%|██████████████████▏                                                                                     | 1752/10000 [01:46<07:24, 18.56it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[56080] loss: 0.051 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 839.58it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2040.03it/s][A

                                                                                                                                                  [A
 18%|██████████████████▏                                                                                     | 1752/10000 [01:46<07:24, 18.56it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[56100] loss: 0.032 


                                                                                                                                                  
 18%|██████████████████▏                                                                                     | 1752/10000 [01:46<07:24, 18.56it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 611.18it/s][A


[56120] loss: 0.066 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 525.93it/s][A
 18%|██████████████████▏                                                                                     | 1754/10000 [01:46<07:23, 18.60it/s]
                                                                                                                                                  [A
 18%|██████████████████▏                                                                                     | 1754/10000 [01:46<07:23, 18.60it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[56140] loss: 0.080 


                                                                                                                                                  
 18%|██████████████████▏                                                                                     | 1754/10000 [01:46<07:23, 18.60it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 513.80it/s][A


[56160] loss: 0.110 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 831.05it/s][A

                                                                                                                                                  [A
 18%|██████████████████▏                                                                                     | 1754/10000 [01:46<07:23, 18.60it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[56180] loss: 0.063 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 601.27it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 899.49it/s][A
 18%|██████████████████▎                                                                                     | 1756/10000 [01:46<07:53, 17.40it/s]
                                                                                                                                                  [A
 18%|██████████████████▎                                                                                     | 1756/10000 [01:46<07:53, 17.40it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[56200] loss: 0.080 


                                                                                                                                                  
 18%|██████████████████▎                                                                                     | 1756/10000 [01:46<07:53, 17.40it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 533.93it/s][A


[56220] loss: 0.043 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 812.22it/s][A

                                                                                                                                                  [A
 18%|██████████████████▎                                                                                     | 1756/10000 [01:46<07:53, 17.40it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 619.15it/s][A


[56240] loss: 0.043 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 613.56it/s][A
 18%|██████████████████▎                                                                                     | 1758/10000 [01:46<08:11, 16.77it/s]
                                                                                                                                                  [A
 18%|██████████████████▎                                                                                     | 1758/10000 [01:46<08:11, 16.77it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[56260] loss: 0.065 


                                                                                                                                                  
 18%|██████████████████▎                                                                                     | 1758/10000 [01:46<08:11, 16.77it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 572.47it/s][A


[56280] loss: 0.055 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 499.14it/s][A

                                                                                                                                                  [A
 18%|██████████████████▎                                                                                     | 1758/10000 [01:46<08:11, 16.77it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[56300] loss: 0.060 


                                                                                                                                                  
 18%|██████████████████▎                                                                                     | 1758/10000 [01:46<08:11, 16.77it/s]


[56320] loss: 0.046 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 543.10it/s][A

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 719.19it/s][A
 18%|██████████████████▎                                                                                     | 1760/10000 [01:46<08:29, 16.18it/s]
                                                                                                                                                  [A
 18%|██████████████████▎                                                                                     | 1760/10000 [01:46<08:29, 16.18it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 602.78it/s][A


[56340] loss: 0.069 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 471.32it/s][A

                                                                                                                                                  [A
 18%|██████████████████▎                                                                                     | 1760/10000 [01:46<08:29, 16.18it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[56360] loss: 0.058 


                                                                                                                                                  
 18%|██████████████████▎                                                                                     | 1760/10000 [01:46<08:29, 16.18it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 475.74it/s][A


[56380] loss: 0.057 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 344.13it/s][A
 18%|██████████████████▎                                                                                     | 1762/10000 [01:46<08:51, 15.50it/s]
                                                                                                                                                  [A
 18%|██████████████████▎                                                                                     | 1762/10000 [01:46<08:51, 15.50it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[56400] loss: 0.077 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 571.58it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1304.60it/s][A

                                                                                                                                                  [A
 18%|██████████████████▎                                                                                     | 1762/10000 [01:46<08:51, 15.50it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[56420] loss: 0.056 


                                                                                                                                                  
 18%|██████████████████▎                                                                                     | 1762/10000 [01:46<08:51, 15.50it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 473.40it/s][A


[56440] loss: 0.041 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 439.89it/s][A
 18%|██████████████████▎                                                                                     | 1764/10000 [01:47<09:08, 15.01it/s]
                                                                                                                                                  [A
 18%|██████████████████▎                                                                                     | 1764/10000 [01:47<09:08, 15.01it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[56460] loss: 0.045 


                                                                                                                                                  
 18%|██████████████████▎                                                                                     | 1764/10000 [01:47<09:08, 15.01it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 552.11it/s][A


[56480] loss: 0.094 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 185.14it/s][A

                                                                                                                                                  [A
 18%|██████████████████▎                                                                                     | 1764/10000 [01:47<09:08, 15.01it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 622.28it/s][A


[56500] loss: 0.074 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 715.75it/s][A
 18%|██████████████████▎                                                                                     | 1766/10000 [01:47<09:06, 15.07it/s]
                                                                                                                                                  [A
 18%|██████████████████▎                                                                                     | 1766/10000 [01:47<09:06, 15.07it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[56520] loss: 0.041 


                                                                                                                                                  
 18%|██████████████████▎                                                                                     | 1766/10000 [01:47<09:06, 15.07it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 497.52it/s][A


[56540] loss: 0.049 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 823.06it/s][A

                                                                                                                                                  [A
 18%|██████████████████▎                                                                                     | 1766/10000 [01:47<09:06, 15.07it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[56560] loss: 0.053 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 581.86it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 648.27it/s][A
 18%|██████████████████▍                                                                                     | 1768/10000 [01:47<09:12, 14.90it/s]
                                                                                                                                                  [A
 18%|██████████████████▍                                                                                     | 1768/10000 [01:47<09:12, 14.90it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[56580] loss: 0.069 


                                                                                                                                                  
 18%|██████████████████▍                                                                                     | 1768/10000 [01:47<09:12, 14.90it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 528.99it/s][A


[56600] loss: 0.046 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 772.57it/s][A

                                                                                                                                                  [A
 18%|██████████████████▍                                                                                     | 1768/10000 [01:47<09:12, 14.90it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[56620] loss: 0.052 


                                                                                                                                                  
 18%|██████████████████▍                                                                                     | 1768/10000 [01:47<09:12, 14.90it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 496.42it/s][A


[56640] loss: 0.064 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 280.59it/s][A
 18%|██████████████████▍                                                                                     | 1770/10000 [01:47<09:23, 14.60it/s]
                                                                                                                                                  [A
 18%|██████████████████▍                                                                                     | 1770/10000 [01:47<09:23, 14.60it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 588.64it/s][A


[56660] loss: 0.070 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 971.58it/s][A

                                                                                                                                                  [A
 18%|██████████████████▍                                                                                     | 1770/10000 [01:47<09:23, 14.60it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[56680] loss: 0.071 


                                                                                                                                                  
 18%|██████████████████▍                                                                                     | 1770/10000 [01:47<09:23, 14.60it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 622.85it/s][A


[56700] loss: 0.132 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1359.14it/s][A
 18%|██████████████████▍                                                                                     | 1772/10000 [01:47<09:06, 15.05it/s]
                                                                                                                                                  [A
 18%|██████████████████▍                                                                                     | 1772/10000 [01:47<09:06, 15.05it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[56720] loss: 0.049 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 809.68it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 635.31it/s][A

                                                                                                                                                  [A
 18%|██████████████████▍                                                                                     | 1772/10000 [01:47<09:06, 15.05it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[56740] loss: 0.047 


                                                                                                                                                  
 18%|██████████████████▍                                                                                     | 1772/10000 [01:47<09:06, 15.05it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 598.38it/s][A


[56760] loss: 0.096 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1427.61it/s][A
 18%|██████████████████▍                                                                                     | 1774/10000 [01:47<08:43, 15.71it/s]
                                                                                                                                                  [A
 18%|██████████████████▍                                                                                     | 1774/10000 [01:47<08:43, 15.71it/s]
                                                                                                                                                  [A
 18%|██████████████████▍                                                                                     | 1774/10000 [01:47<08:43, 15.71it/s]
Training Epoch:   0%|                                                                                       

[56780] loss: 0.059 
[56800] loss: 0.036 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 743.49it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1241.65it/s][A

                                                                                                                                                  [A
 18%|██████████████████▍                                                                                     | 1774/10000 [01:47<08:43, 15.71it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 865.11it/s][A


[56820] loss: 0.059 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1363.56it/s][A

                                                                                                                                                  [A
 18%|██████████████████▍                                                                                     | 1774/10000 [01:47<08:43, 15.71it/s]
                                                                                                                                                  [A
 18%|██████████████████▍                                                                                     | 1774/10000 [01:47<08:43, 15.71it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[56840] loss: 0.065 
[56860] loss: 0.078 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 668.89it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1390.22it/s][A
 18%|██████████████████▍                                                                                     | 1777/10000 [01:47<08:05, 16.92it/s]
                                                                                                                                                  [A
 18%|██████████████████▍                                                                                     | 1777/10000 [01:47<08:05, 16.92it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[56880] loss: 0.045 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 803.47it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1063.46it/s][A

                                                                                                                                                  [A
 18%|██████████████████▍                                                                                     | 1777/10000 [01:47<08:05, 16.92it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[56900] loss: 0.039 


                                                                                                                                                  
 18%|██████████████████▍                                                                                     | 1777/10000 [01:47<08:05, 16.92it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 689.21it/s][A


[56920] loss: 0.063 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1433.46it/s][A
 18%|██████████████████▌                                                                                     | 1779/10000 [01:47<07:50, 17.47it/s]
                                                                                                                                                  [A
 18%|██████████████████▌                                                                                     | 1779/10000 [01:47<07:50, 17.47it/s]
                                                                                                                                                  [A
 18%|██████████████████▌                                                                                     | 1779/10000 [01:47<07:50, 17.47it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[56940] loss: 0.033 
[56960] loss: 0.073 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 386.07it/s][A

                                                                                                                                                  [A
 18%|██████████████████▌                                                                                     | 1779/10000 [01:48<07:50, 17.47it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 785.22it/s][A


[56980] loss: 0.038 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 683.67it/s][A
 18%|██████████████████▌                                                                                     | 1781/10000 [01:48<07:40, 17.85it/s]
                                                                                                                                                  [A
 18%|██████████████████▌                                                                                     | 1781/10000 [01:48<07:40, 17.85it/s]
                                                                                                                                                  [A
 18%|██████████████████▌                                                                                     | 1781/10000 [01:48<07:40, 17.85it/s]
Training Epoch:   0%|                                                                                       

[57000] loss: 0.064 
[57020] loss: 0.078 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 629.46it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1566.21it/s][A

                                                                                                                                                  [A
 18%|██████████████████▌                                                                                     | 1781/10000 [01:48<07:40, 17.85it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 699.25it/s][A


[57040] loss: 0.056 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 573.85it/s][A
 18%|██████████████████▌                                                                                     | 1783/10000 [01:48<07:39, 17.87it/s]
                                                                                                                                                  [A
 18%|██████████████████▌                                                                                     | 1783/10000 [01:48<07:39, 17.87it/s]
                                                                                                                                                  [A
 18%|██████████████████▌                                                                                     | 1783/10000 [01:48<07:39, 17.87it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[57060] loss: 0.051 
[57080] loss: 0.071 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1539.76it/s][A

                                                                                                                                                  [A
 18%|██████████████████▌                                                                                     | 1783/10000 [01:48<07:39, 17.87it/s]
                                                                                                                                                  [A
 18%|██████████████████▌                                                                                     | 1783/10000 [01:48<07:39, 17.87it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 816.27it/s][A


[57100] loss: 0.061 
[57120] loss: 0.048 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2189.09it/s][A
 18%|██████████████████▌                                                                                     | 1785/10000 [01:48<07:27, 18.38it/s]
                                                                                                                                                  [A
 18%|██████████████████▌                                                                                     | 1785/10000 [01:48<07:27, 18.38it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 772.08it/s][A


[57140] loss: 0.086 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2316.02it/s][A

                                                                                                                                                  [A
 18%|██████████████████▌                                                                                     | 1785/10000 [01:48<07:27, 18.38it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[57160] loss: 0.049 


                                                                                                                                                  
 18%|██████████████████▌                                                                                     | 1785/10000 [01:48<07:27, 18.38it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 588.61it/s][A


[57180] loss: 0.061 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1430.04it/s][A
 18%|██████████████████▌                                                                                     | 1787/10000 [01:48<07:32, 18.13it/s]
                                                                                                                                                  [A
 18%|██████████████████▌                                                                                     | 1787/10000 [01:48<07:32, 18.13it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 691.10it/s][A


[57200] loss: 0.047 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 948.94it/s][A

                                                                                                                                                  [A
 18%|██████████████████▌                                                                                     | 1787/10000 [01:48<07:32, 18.13it/s]
                                                                                                                                                  [A
 18%|██████████████████▌                                                                                     | 1787/10000 [01:48<07:32, 18.13it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 627.10it/s][A


[57220] loss: 0.043 
[57240] loss: 0.032 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 787.07it/s][A
 18%|██████████████████▌                                                                                     | 1789/10000 [01:48<07:39, 17.87it/s]
                                                                                                                                                  [A
 18%|██████████████████▌                                                                                     | 1789/10000 [01:48<07:39, 17.87it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[57260] loss: 0.045 


                                                                                                                                                  
 18%|██████████████████▌                                                                                     | 1789/10000 [01:48<07:39, 17.87it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 711.55it/s][A


[57280] loss: 0.101 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 342.42it/s][A

                                                                                                                                                  [A
 18%|██████████████████▌                                                                                     | 1789/10000 [01:48<07:39, 17.87it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 702.74it/s][A


[57300] loss: 0.041 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 798.92it/s][A
 18%|██████████████████▋                                                                                     | 1791/10000 [01:48<07:38, 17.90it/s]
                                                                                                                                                  [A
 18%|██████████████████▋                                                                                     | 1791/10000 [01:48<07:38, 17.90it/s]
                                                                                                                                                  [A


[57320] loss: 0.040 


 18%|██████████████████▋                                                                                     | 1791/10000 [01:48<07:38, 17.90it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 633.25it/s][A


[57340] loss: 0.074 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1183.16it/s][A

                                                                                                                                                  [A
 18%|██████████████████▋                                                                                     | 1791/10000 [01:48<07:38, 17.90it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[57360] loss: 0.077 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 592.31it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 779.03it/s][A
 18%|██████████████████▋                                                                                     | 1793/10000 [01:48<07:54, 17.30it/s]
                                                                                                                                                  [A
 18%|██████████████████▋                                                                                     | 1793/10000 [01:48<07:54, 17.30it/s]
                                                                                                                                                  [A
 18%|██████████████████▋                                                                                    

[57380] loss: 0.043 
[57400] loss: 0.071 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 529.89it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 984.58it/s][A

                                                                                                                                                  [A
 18%|██████████████████▋                                                                                     | 1793/10000 [01:48<07:54, 17.30it/s]


[57420] loss: 0.066 


                                                                                                                                                  [A
 18%|██████████████████▋                                                                                     | 1793/10000 [01:48<07:54, 17.30it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 570.69it/s][A


[57440] loss: 0.012 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 824.68it/s][A
 18%|██████████████████▋                                                                                     | 1795/10000 [01:48<08:16, 16.53it/s]
                                                                                                                                                  [A
 18%|██████████████████▋                                                                                     | 1795/10000 [01:48<08:16, 16.53it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 609.22it/s][A


[57460] loss: 0.075 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 651.19it/s][A

                                                                                                                                                  [A
 18%|██████████████████▋                                                                                     | 1795/10000 [01:48<08:16, 16.53it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[57480] loss: 0.052 


                                                                                                                                                  
 18%|██████████████████▋                                                                                     | 1795/10000 [01:48<08:16, 16.53it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 538.48it/s][A


[57500] loss: 0.061 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 556.20it/s][A
 18%|██████████████████▋                                                                                     | 1797/10000 [01:48<08:25, 16.23it/s]
                                                                                                                                                  [A
[A                                                                                                                                               

[57520] loss: 0.040 


 18%|██████████████████▋                                                                                     | 1797/10000 [01:49<08:25, 16.23it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 616.37it/s][A

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 743.41it/s][A

                                                                                                                                                  [A
 18%|██████████████████▋                                                                                     | 1797/10000 [01:49<08:25, 16.23it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[57540] loss: 0.029 


                                                                                                                                                  
 18%|██████████████████▋                                                                                     | 1797/10000 [01:49<08:25, 16.23it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 513.29it/s][A


[57560] loss: 0.079 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 584.57it/s][A
 18%|██████████████████▋                                                                                     | 1799/10000 [01:49<08:37, 15.85it/s]
                                                                                                                                                  [A
 18%|██████████████████▋                                                                                     | 1799/10000 [01:49<08:37, 15.85it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[57580] loss: 0.120 


                                                                                                                                                  
 18%|██████████████████▋                                                                                     | 1799/10000 [01:49<08:37, 15.85it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 529.60it/s][A


[57600] loss: 0.007 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 358.30it/s][A

                                                                                                                                                  [A
 18%|██████████████████▋                                                                                     | 1799/10000 [01:49<08:37, 15.85it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 598.75it/s][A


[57620] loss: 0.068 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 512.25it/s][A
 18%|██████████████████▋                                                                                     | 1801/10000 [01:49<08:45, 15.59it/s]
                                                                                                                                                  [A
 18%|██████████████████▋                                                                                     | 1801/10000 [01:49<08:45, 15.59it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[57640] loss: 0.038 


                                                                                                                                                  
 18%|██████████████████▋                                                                                     | 1801/10000 [01:49<08:45, 15.59it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 522.14it/s][A


[57660] loss: 0.079 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 601.77it/s][A

                                                                                                                                                  [A
 18%|██████████████████▋                                                                                     | 1801/10000 [01:49<08:45, 15.59it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[57680] loss: 0.090 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 598.95it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 620.09it/s][A
 18%|██████████████████▊                                                                                     | 1803/10000 [01:49<08:51, 15.41it/s]
                                                                                                                                                  [A
 18%|██████████████████▊                                                                                     | 1803/10000 [01:49<08:51, 15.41it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[57700] loss: 0.074 


                                                                                                                                                  
 18%|██████████████████▊                                                                                     | 1803/10000 [01:49<08:51, 15.41it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 472.19it/s][A


[57720] loss: 0.041 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 525.01it/s][A

                                                                                                                                                  [A
 18%|██████████████████▊                                                                                     | 1803/10000 [01:49<08:51, 15.41it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[57740] loss: 0.051 


                                                                                                                                                  
 18%|██████████████████▊                                                                                     | 1803/10000 [01:49<08:51, 15.41it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 552.68it/s][A


[57760] loss: 0.046 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 235.94it/s][A
 18%|██████████████████▊                                                                                     | 1805/10000 [01:49<09:09, 14.92it/s]
                                                                                                                                                  [A
 18%|██████████████████▊                                                                                     | 1805/10000 [01:49<09:09, 14.92it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 632.44it/s][A


[57780] loss: 0.083 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 491.71it/s][A

                                                                                                                                                  [A
 18%|██████████████████▊                                                                                     | 1805/10000 [01:49<09:09, 14.92it/s]
                                                                                                                                                  [A
                                                                                                                                                  

[57800] loss: 0.043 


 18%|██████████████████▊                                                                                     | 1805/10000 [01:49<09:09, 14.92it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 528.67it/s][A


[57820] loss: 0.062 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 797.85it/s][A
 18%|██████████████████▊                                                                                     | 1807/10000 [01:49<09:01, 15.13it/s]
                                                                                                                                                  [A
 18%|██████████████████▊                                                                                     | 1807/10000 [01:49<09:01, 15.13it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 622.46it/s][A


[57840] loss: 0.052 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 582.46it/s][A

                                                                                                                                                  [A
 18%|██████████████████▊                                                                                     | 1807/10000 [01:49<09:01, 15.13it/s]
                                                                                                                                                  [A


[57860] loss: 0.047 


 18%|██████████████████▊                                                                                     | 1807/10000 [01:49<09:01, 15.13it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 520.84it/s][A


[57880] loss: 0.074 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 552.17it/s][A
 18%|██████████████████▊                                                                                     | 1809/10000 [01:49<08:57, 15.23it/s]
                                                                                                                                                  [A
 18%|██████████████████▊                                                                                     | 1809/10000 [01:49<08:57, 15.23it/s]
                                                                                                                                                  [A
 18%|██████████████████▊                                                                                     | 1809/10000 [01:49<08:57, 15.23it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[57900] loss: 0.026 
[57920] loss: 0.183 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 347.82it/s][A

                                                                                                                                                  [A
 18%|██████████████████▊                                                                                     | 1809/10000 [01:49<08:57, 15.23it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 841.61it/s][A

[57940] loss: 0.043 




Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1432.97it/s][A
 18%|██████████████████▊                                                                                     | 1811/10000 [01:49<08:25, 16.19it/s]
                                                                                                                                                  [A
 18%|██████████████████▊                                                                                     | 1811/10000 [01:49<08:25, 16.19it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[57960] loss: 0.062 


                                                                                                                                                  
 18%|██████████████████▊                                                                                     | 1811/10000 [01:49<08:25, 16.19it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 658.05it/s][A


[57980] loss: 0.036 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1253.90it/s][A

                                                                                                                                                  [A
 18%|██████████████████▊                                                                                     | 1811/10000 [01:49<08:25, 16.19it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 853.80it/s][A


[58000] loss: 0.071 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 698.12it/s][A
 18%|██████████████████▊                                                                                     | 1813/10000 [01:49<08:04, 16.89it/s]
                                                                                                                                                  [A
 18%|██████████████████▊                                                                                     | 1813/10000 [01:50<08:04, 16.89it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[58020] loss: 0.049 


                                                                                                                                                  
 18%|██████████████████▊                                                                                     | 1813/10000 [01:50<08:04, 16.89it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 706.67it/s][A


[58040] loss: 0.044 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 570.19it/s][A

                                                                                                                                                  [A
 18%|██████████████████▊                                                                                     | 1813/10000 [01:50<08:04, 16.89it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[58060] loss: 0.073 


                                                                                                                                                  
 18%|██████████████████▊                                                                                     | 1813/10000 [01:50<08:04, 16.89it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 729.27it/s][A


[58080] loss: 0.079 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1448.81it/s][A
 18%|██████████████████▉                                                                                     | 1815/10000 [01:50<07:49, 17.44it/s]
                                                                                                                                                  [A
 18%|██████████████████▉                                                                                     | 1815/10000 [01:50<07:49, 17.44it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[58100] loss: 0.072 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 470.43it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 673.13it/s][A

                                                                                                                                                  [A
 18%|██████████████████▉                                                                                     | 1815/10000 [01:50<07:49, 17.44it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[58120] loss: 0.062 


                                                                                                                                                  
 18%|██████████████████▉                                                                                     | 1815/10000 [01:50<07:49, 17.44it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[58140] loss: 0.063 



Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 291.59it/s][A

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 778.89it/s][A
 18%|██████████████████▉                                                                                     | 1817/10000 [01:50<09:50, 13.85it/s]
                                                                                                                                                  [A
 18%|██████████████████▉                                                                                     | 1817/10000 [01:50<09:50, 13.85it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[58160] loss: 0.055 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 534.97it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 268.78it/s][A

                                                                                                                                                  [A
 18%|██████████████████▉                                                                                     | 1817/10000 [01:50<09:50, 13.85it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[58180] loss: 0.054 


                                                                                                                                                  
 18%|██████████████████▉                                                                                     | 1817/10000 [01:50<09:50, 13.85it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 579.74it/s][A


[58200] loss: 0.050 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1710.56it/s][A
 18%|██████████████████▉                                                                                     | 1819/10000 [01:50<09:53, 13.78it/s]
                                                                                                                                                  [A
 18%|██████████████████▉                                                                                     | 1819/10000 [01:50<09:53, 13.78it/s]
                                                                                                                                                  [A
 18%|██████████████████▉                                                                                     | 1819/10000 [01:50<09:53, 13.78it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[58220] loss: 0.108 
[58240] loss: 0.059 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1148.50it/s][A

                                                                                                                                                  [A
 18%|██████████████████▉                                                                                     | 1819/10000 [01:50<09:53, 13.78it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 829.30it/s][A


[58260] loss: 0.054 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 688.83it/s][A
 18%|██████████████████▉                                                                                     | 1821/10000 [01:50<09:13, 14.78it/s]
                                                                                                                                                  [A
 18%|██████████████████▉                                                                                     | 1821/10000 [01:50<09:13, 14.78it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[58280] loss: 0.064 


                                                                                                                                                  
 18%|██████████████████▉                                                                                     | 1821/10000 [01:50<09:13, 14.78it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 549.15it/s][A


[58300] loss: 0.068 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 742.62it/s][A

                                                                                                                                                  [A
 18%|██████████████████▉                                                                                     | 1821/10000 [01:50<09:13, 14.78it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[58320] loss: 0.056 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 732.24it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1479.47it/s][A
 18%|██████████████████▉                                                                                     | 1823/10000 [01:50<08:56, 15.23it/s]
                                                                                                                                                  [A
 18%|██████████████████▉                                                                                     | 1823/10000 [01:50<08:56, 15.23it/s]
                                                                                                                                                  [A
 18%|██████████████████▉                                                                                    

[58340] loss: 0.057 
[58360] loss: 0.050 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 603.04it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 978.15it/s][A

                                                                                                                                                  [A
 18%|██████████████████▉                                                                                     | 1823/10000 [01:50<08:56, 15.23it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[58380] loss: 0.051 


                                                                                                                                                  
 18%|██████████████████▉                                                                                     | 1823/10000 [01:50<08:56, 15.23it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 615.20it/s][A


[58400] loss: 0.045 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1205.95it/s][A
 18%|██████████████████▉                                                                                     | 1825/10000 [01:50<08:48, 15.47it/s]
                                                                                                                                                  [A
 18%|██████████████████▉                                                                                     | 1825/10000 [01:50<08:48, 15.47it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 798.71it/s][A


[58420] loss: 0.076 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1017.54it/s][A

                                                                                                                                                  [A
 18%|██████████████████▉                                                                                     | 1825/10000 [01:50<08:48, 15.47it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[58440] loss: 0.056 


                                                                                                                                                  
 18%|██████████████████▉                                                                                     | 1825/10000 [01:50<08:48, 15.47it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 504.11it/s][A


[58460] loss: 0.070 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 436.04it/s][A
 18%|███████████████████                                                                                     | 1827/10000 [01:50<08:40, 15.69it/s]
                                                                                                                                                  [A
 18%|███████████████████                                                                                     | 1827/10000 [01:50<08:40, 15.69it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[58480] loss: 0.064 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 538.41it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 779.18it/s][A

                                                                                                                                                  [A
 18%|███████████████████                                                                                     | 1827/10000 [01:51<08:40, 15.69it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[58500] loss: 0.040 


                                                                                                                                                  
 18%|███████████████████                                                                                     | 1827/10000 [01:51<08:40, 15.69it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 503.18it/s][A


[58520] loss: 0.071 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 484.16it/s][A
 18%|███████████████████                                                                                     | 1829/10000 [01:51<09:00, 15.13it/s]
                                                                                                                                                  [A
 18%|███████████████████                                                                                     | 1829/10000 [01:51<09:00, 15.13it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[58540] loss: 0.110 


                                                                                                                                                  
 18%|███████████████████                                                                                     | 1829/10000 [01:51<09:00, 15.13it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 613.11it/s][A


[58560] loss: 0.084 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 321.67it/s][A

                                                                                                                                                  [A
 18%|███████████████████                                                                                     | 1829/10000 [01:51<09:00, 15.13it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 632.45it/s][A


[58580] loss: 0.065 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 431.38it/s][A
 18%|███████████████████                                                                                     | 1831/10000 [01:51<08:45, 15.54it/s]
                                                                                                                                                  [A
 18%|███████████████████                                                                                     | 1831/10000 [01:51<08:45, 15.54it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[58600] loss: 0.054 


                                                                                                                                                  
 18%|███████████████████                                                                                     | 1831/10000 [01:51<08:45, 15.54it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 491.08it/s][A


[58620] loss: 0.084 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 777.73it/s][A

                                                                                                                                                  [A
 18%|███████████████████                                                                                     | 1831/10000 [01:51<08:45, 15.54it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[58640] loss: 0.046 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 567.77it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 659.69it/s][A
 18%|███████████████████                                                                                     | 1833/10000 [01:51<09:04, 15.00it/s]
                                                                                                                                                  [A
 18%|███████████████████                                                                                     | 1833/10000 [01:51<09:04, 15.00it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[58660] loss: 0.072 


                                                                                                                                                  
 18%|███████████████████                                                                                     | 1833/10000 [01:51<09:04, 15.00it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[58680] loss: 0.074 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 426.82it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 896.79it/s][A

                                                                                                                                                  [A
 18%|███████████████████                                                                                     | 1833/10000 [01:51<09:04, 15.00it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[58700] loss: 0.067 


                                                                                                                                                  
 18%|███████████████████                                                                                     | 1833/10000 [01:51<09:04, 15.00it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 487.83it/s][A


[58720] loss: 0.017 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 688.61it/s][A
 18%|███████████████████                                                                                     | 1835/10000 [01:51<09:40, 14.07it/s]
                                                                                                                                                  [A
 18%|███████████████████                                                                                     | 1835/10000 [01:51<09:40, 14.07it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[58740] loss: 0.036 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 563.11it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 844.09it/s][A

                                                                                                                                                  [A
 18%|███████████████████                                                                                     | 1835/10000 [01:51<09:40, 14.07it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[58760] loss: 0.052 


                                                                                                                                                  
 18%|███████████████████                                                                                     | 1835/10000 [01:51<09:40, 14.07it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 481.78it/s][A


[58780] loss: 0.036 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 746.18it/s][A
 18%|███████████████████                                                                                     | 1837/10000 [01:51<09:46, 13.91it/s]
                                                                                                                                                  [A
 18%|███████████████████                                                                                     | 1837/10000 [01:51<09:46, 13.91it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[58800] loss: 0.051 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 513.07it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 630.15it/s][A

                                                                                                                                                  [A
 18%|███████████████████                                                                                     | 1837/10000 [01:51<09:46, 13.91it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[58820] loss: 0.048 


                                                                                                                                                  
 18%|███████████████████                                                                                     | 1837/10000 [01:51<09:46, 13.91it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 486.76it/s][A

[58840] loss: 0.074 




Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 824.84it/s][A
 18%|███████████████████▏                                                                                    | 1839/10000 [01:51<09:52, 13.77it/s]
                                                                                                                                                  [A
 18%|███████████████████▏                                                                                    | 1839/10000 [01:51<09:52, 13.77it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[58860] loss: 0.041 


                                                                                                                                                  
 18%|███████████████████▏                                                                                    | 1839/10000 [01:51<09:52, 13.77it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 474.34it/s][A


[58880] loss: 0.034 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 256.22it/s][A

                                                                                                                                                  [A
 18%|███████████████████▏                                                                                    | 1839/10000 [01:51<09:52, 13.77it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[58900] loss: 0.054 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 506.37it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 684.11it/s][A
 18%|███████████████████▏                                                                                    | 1841/10000 [01:51<09:57, 13.65it/s]
                                                                                                                                                  [A
 18%|███████████████████▏                                                                                    | 1841/10000 [01:51<09:57, 13.65it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[58920] loss: 0.044 


                                                                                                                                                  
 18%|███████████████████▏                                                                                    | 1841/10000 [01:52<09:57, 13.65it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 496.24it/s][A


[58940] loss: 0.084 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 666.71it/s][A

                                                                                                                                                  [A
 18%|███████████████████▏                                                                                    | 1841/10000 [01:52<09:57, 13.65it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[58960] loss: 0.026 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 700.33it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 518.84it/s][A
 18%|███████████████████▏                                                                                    | 1843/10000 [01:52<09:38, 14.11it/s]
                                                                                                                                                  [A
 18%|███████████████████▏                                                                                    | 1843/10000 [01:52<09:38, 14.11it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[58980] loss: 0.053 


                                                                                                                                                  
 18%|███████████████████▏                                                                                    | 1843/10000 [01:52<09:38, 14.11it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 576.20it/s][A


[59000] loss: 0.054 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1459.40it/s][A

                                                                                                                                                  [A
 18%|███████████████████▏                                                                                    | 1843/10000 [01:52<09:38, 14.11it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[59020] loss: 0.034 


                                                                                                                                                  
 18%|███████████████████▏                                                                                    | 1843/10000 [01:52<09:38, 14.11it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 666.79it/s][A


[59040] loss: 0.039 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1175.20it/s][A
 18%|███████████████████▏                                                                                    | 1845/10000 [01:52<09:14, 14.70it/s]
                                                                                                                                                  [A
 18%|███████████████████▏                                                                                    | 1845/10000 [01:52<09:14, 14.70it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 798.02it/s][A


[59060] loss: 0.067 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 714.65it/s][A

                                                                                                                                                  [A
 18%|███████████████████▏                                                                                    | 1845/10000 [01:52<09:14, 14.70it/s]
                                                                                                                                                  [A
 18%|███████████████████▏                                                                                    | 1845/10000 [01:52<09:14, 14.70it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[59080] loss: 0.051 
[59100] loss: 0.053 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 650.22it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1010.43it/s][A
 18%|███████████████████▏                                                                                    | 1847/10000 [01:52<08:40, 15.66it/s]
                                                                                                                                                  [A
 18%|███████████████████▏                                                                                    | 1847/10000 [01:52<08:40, 15.66it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 748.19it/s][A


[59120] loss: 0.091 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2077.42it/s][A

                                                                                                                                                  [A
 18%|███████████████████▏                                                                                    | 1847/10000 [01:52<08:40, 15.66it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[59140] loss: 0.062 


                                                                                                                                                  
 18%|███████████████████▏                                                                                    | 1847/10000 [01:52<08:40, 15.66it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 620.40it/s][A


[59160] loss: 0.047 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 769.88it/s][A
 18%|███████████████████▏                                                                                    | 1849/10000 [01:52<08:21, 16.25it/s]
                                                                                                                                                  [A
 18%|███████████████████▏                                                                                    | 1849/10000 [01:52<08:21, 16.25it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[59180] loss: 0.055 


                                                                                                                                                  
 18%|███████████████████▏                                                                                    | 1849/10000 [01:52<08:21, 16.25it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 625.70it/s][A


[59200] loss: 0.055 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 272.20it/s][A

                                                                                                                                                  [A
 18%|███████████████████▏                                                                                    | 1849/10000 [01:52<08:21, 16.25it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 710.67it/s][A


[59220] loss: 0.067 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1504.95it/s][A
 19%|███████████████████▎                                                                                    | 1851/10000 [01:52<08:11, 16.57it/s]
                                                                                                                                                  [A
 19%|███████████████████▎                                                                                    | 1851/10000 [01:52<08:11, 16.57it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[59240] loss: 0.040 


                                                                                                                                                  
 19%|███████████████████▎                                                                                    | 1851/10000 [01:52<08:11, 16.57it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 602.76it/s][A


[59260] loss: 0.060 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 828.91it/s][A

                                                                                                                                                  [A
 19%|███████████████████▎                                                                                    | 1851/10000 [01:52<08:11, 16.57it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 839.82it/s][A


[59280] loss: 0.072 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 973.16it/s][A
 19%|███████████████████▎                                                                                    | 1853/10000 [01:52<08:00, 16.97it/s]
                                                                                                                                                  [A
 19%|███████████████████▎                                                                                    | 1853/10000 [01:52<08:00, 16.97it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[59300] loss: 0.075 


                                                                                                                                                  
 19%|███████████████████▎                                                                                    | 1853/10000 [01:52<08:00, 16.97it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 592.71it/s][A


[59320] loss: 0.061 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1444.32it/s][A

                                                                                                                                                  [A
 19%|███████████████████▎                                                                                    | 1853/10000 [01:52<08:00, 16.97it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[59340] loss: 0.045 


                                                                                                                                                  
 19%|███████████████████▎                                                                                    | 1853/10000 [01:52<08:00, 16.97it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 657.10it/s][A


[59360] loss: 0.051 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1071.62it/s][A
 19%|███████████████████▎                                                                                    | 1855/10000 [01:52<08:05, 16.78it/s]
                                                                                                                                                  [A
 19%|███████████████████▎                                                                                    | 1855/10000 [01:52<08:05, 16.78it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 754.44it/s][A


[59380] loss: 0.042 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1871.62it/s][A

                                                                                                                                                  [A
 19%|███████████████████▎                                                                                    | 1855/10000 [01:52<08:05, 16.78it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[59400] loss: 0.106 


                                                                                                                                                  
 19%|███████████████████▎                                                                                    | 1855/10000 [01:52<08:05, 16.78it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 634.52it/s][A


[59420] loss: 0.056 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 654.44it/s][A
 19%|███████████████████▎                                                                                    | 1857/10000 [01:52<07:54, 17.16it/s]
                                                                                                                                                  [A
 19%|███████████████████▎                                                                                    | 1857/10000 [01:52<07:54, 17.16it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 806.75it/s][A


[59440] loss: 0.063 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 621.84it/s][A

                                                                                                                                                  [A
 19%|███████████████████▎                                                                                    | 1857/10000 [01:52<07:54, 17.16it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[59460] loss: 0.038 


                                                                                                                                                  
 19%|███████████████████▎                                                                                    | 1857/10000 [01:52<07:54, 17.16it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 590.81it/s][A


[59480] loss: 0.038 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1422.76it/s][A
 19%|███████████████████▎                                                                                    | 1859/10000 [01:53<07:49, 17.36it/s]
                                                                                                                                                  [A
 19%|███████████████████▎                                                                                    | 1859/10000 [01:53<07:49, 17.36it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[59500] loss: 0.047 


                                                                                                                                                  
 19%|███████████████████▎                                                                                    | 1859/10000 [01:53<07:49, 17.36it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 677.87it/s][A


[59520] loss: 0.033 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 372.43it/s][A

                                                                                                                                                  [A
 19%|███████████████████▎                                                                                    | 1859/10000 [01:53<07:49, 17.36it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 769.41it/s][A


[59540] loss: 0.096 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1572.08it/s][A
 19%|███████████████████▎                                                                                    | 1861/10000 [01:53<07:37, 17.78it/s]
                                                                                                                                                  [A
 19%|███████████████████▎                                                                                    | 1861/10000 [01:53<07:37, 17.78it/s]
                                                                                                                                                  [A
                                                                                                                                                  

[59560] loss: 0.042 


 19%|███████████████████▎                                                                                    | 1861/10000 [01:53<07:37, 17.78it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 637.26it/s][A


[59580] loss: 0.056 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 811.91it/s][A

                                                                                                                                                  [A
 19%|███████████████████▎                                                                                    | 1861/10000 [01:53<07:37, 17.78it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 631.51it/s][A


[59600] loss: 0.048 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 630.53it/s][A
 19%|███████████████████▍                                                                                    | 1863/10000 [01:53<07:43, 17.55it/s]
                                                                                                                                                  [A
 19%|███████████████████▍                                                                                    | 1863/10000 [01:53<07:43, 17.55it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[59620] loss: 0.050 


                                                                                                                                                  
 19%|███████████████████▍                                                                                    | 1863/10000 [01:53<07:43, 17.55it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 576.36it/s][A


[59640] loss: 0.070 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 595.27it/s][A

                                                                                                                                                  [A
 19%|███████████████████▍                                                                                    | 1863/10000 [01:53<07:43, 17.55it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[59660] loss: 0.062 


                                                                                                                                                  
 19%|███████████████████▍                                                                                    | 1863/10000 [01:53<07:43, 17.55it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 577.21it/s][A


[59680] loss: 0.099 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 206.54it/s][A
 19%|███████████████████▍                                                                                    | 1865/10000 [01:53<08:03, 16.82it/s]
                                                                                                                                                  [A
 19%|███████████████████▍                                                                                    | 1865/10000 [01:53<08:03, 16.82it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[59700] loss: 0.067 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 598.31it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 484.55it/s][A

                                                                                                                                                  [A
 19%|███████████████████▍                                                                                    | 1865/10000 [01:53<08:03, 16.82it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[59720] loss: 0.041 


                                                                                                                                                  
 19%|███████████████████▍                                                                                    | 1865/10000 [01:53<08:03, 16.82it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 515.93it/s][A


[59740] loss: 0.044 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 959.14it/s][A
 19%|███████████████████▍                                                                                    | 1867/10000 [01:53<08:20, 16.26it/s]
                                                                                                                                                  [A
 19%|███████████████████▍                                                                                    | 1867/10000 [01:53<08:20, 16.26it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 657.49it/s][A


[59760] loss: 0.047 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 519.61it/s][A

                                                                                                                                                  [A
 19%|███████████████████▍                                                                                    | 1867/10000 [01:53<08:20, 16.26it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[59780] loss: 0.032 


                                                                                                                                                  
 19%|███████████████████▍                                                                                    | 1867/10000 [01:53<08:20, 16.26it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 507.54it/s][A


[59800] loss: 0.038 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 655.56it/s][A
 19%|███████████████████▍                                                                                    | 1869/10000 [01:53<08:29, 15.96it/s]
                                                                                                                                                  [A
 19%|███████████████████▍                                                                                    | 1869/10000 [01:53<08:29, 15.96it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[59820] loss: 0.091 


                                                                                                                                                  
 19%|███████████████████▍                                                                                    | 1869/10000 [01:53<08:29, 15.96it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 501.43it/s][A


[59840] loss: 0.029 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 725.16it/s][A

                                                                                                                                                  [A
 19%|███████████████████▍                                                                                    | 1869/10000 [01:53<08:29, 15.96it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 562.67it/s][A


[59860] loss: 0.047 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 892.22it/s][A
 19%|███████████████████▍                                                                                    | 1871/10000 [01:53<08:47, 15.42it/s]
                                                                                                                                                  [A
 19%|███████████████████▍                                                                                    | 1871/10000 [01:53<08:47, 15.42it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[59880] loss: 0.054 


                                                                                                                                                  
 19%|███████████████████▍                                                                                    | 1871/10000 [01:53<08:47, 15.42it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 544.67it/s][A


[59900] loss: 0.132 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 768.47it/s][A

                                                                                                                                                  [A
 19%|███████████████████▍                                                                                    | 1871/10000 [01:53<08:47, 15.42it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[59920] loss: 0.082 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 566.06it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 528.38it/s][A
 19%|███████████████████▍                                                                                    | 1873/10000 [01:53<08:53, 15.23it/s]
                                                                                                                                                  [A
 19%|███████████████████▍                                                                                    | 1873/10000 [01:53<08:53, 15.23it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[59940] loss: 0.058 


                                                                                                                                                  
 19%|███████████████████▍                                                                                    | 1873/10000 [01:53<08:53, 15.23it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 497.37it/s][A


[59960] loss: 0.049 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 625.36it/s][A

                                                                                                                                                  [A
 19%|███████████████████▍                                                                                    | 1873/10000 [01:53<08:53, 15.23it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[59980] loss: 0.059 


                                                                                                                                                  
 19%|███████████████████▍                                                                                    | 1873/10000 [01:54<08:53, 15.23it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 533.33it/s][A


[60000] loss: 0.085 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 720.42it/s][A
 19%|███████████████████▌                                                                                    | 1875/10000 [01:54<09:08, 14.80it/s]
                                                                                                                                                  [A
 19%|███████████████████▌                                                                                    | 1875/10000 [01:54<09:08, 14.80it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 577.45it/s][A


[60020] loss: 0.035 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 387.68it/s][A

                                                                                                                                                  [A
 19%|███████████████████▌                                                                                    | 1875/10000 [01:54<09:08, 14.80it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[60040] loss: 0.037 


                                                                                                                                                  
 19%|███████████████████▌                                                                                    | 1875/10000 [01:54<09:08, 14.80it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 520.97it/s][A


[60060] loss: 0.072 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 800.90it/s][A
 19%|███████████████████▌                                                                                    | 1877/10000 [01:54<09:10, 14.74it/s]
                                                                                                                                                  [A
 19%|███████████████████▌                                                                                    | 1877/10000 [01:54<09:10, 14.74it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[60080] loss: 0.085 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 531.13it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1567.96it/s][A

                                                                                                                                                  [A
 19%|███████████████████▌                                                                                    | 1877/10000 [01:54<09:10, 14.74it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[60100] loss: 0.051 


                                                                                                                                                  
 19%|███████████████████▌                                                                                    | 1877/10000 [01:54<09:10, 14.74it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 493.05it/s][A


[60120] loss: 0.061 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 610.61it/s][A
 19%|███████████████████▌                                                                                    | 1879/10000 [01:54<09:20, 14.49it/s]
                                                                                                                                                  [A
 19%|███████████████████▌                                                                                    | 1879/10000 [01:54<09:20, 14.49it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[60140] loss: 0.040 


                                                                                                                                                  
 19%|███████████████████▌                                                                                    | 1879/10000 [01:54<09:20, 14.49it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 457.02it/s][A


[60160] loss: 0.094 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 410.68it/s][A

                                                                                                                                                  [A
 19%|███████████████████▌                                                                                    | 1879/10000 [01:54<09:20, 14.49it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 595.19it/s][A


[60180] loss: 0.035 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 602.54it/s][A
 19%|███████████████████▌                                                                                    | 1881/10000 [01:54<09:26, 14.34it/s]
                                                                                                                                                  [A
 19%|███████████████████▌                                                                                    | 1881/10000 [01:54<09:26, 14.34it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[60200] loss: 0.058 


                                                                                                                                                  
 19%|███████████████████▌                                                                                    | 1881/10000 [01:54<09:26, 14.34it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 609.75it/s][A


[60220] loss: 0.049 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 792.28it/s][A

                                                                                                                                                  [A
 19%|███████████████████▌                                                                                    | 1881/10000 [01:54<09:26, 14.34it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[60240] loss: 0.065 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 756.95it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 981.12it/s][A
 19%|███████████████████▌                                                                                    | 1883/10000 [01:54<08:55, 15.17it/s]
                                                                                                                                                  [A
 19%|███████████████████▌                                                                                    | 1883/10000 [01:54<08:55, 15.17it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[60260] loss: 0.049 


                                                                                                                                                  
 19%|███████████████████▌                                                                                    | 1883/10000 [01:54<08:55, 15.17it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 662.90it/s][A


[60280] loss: 0.040 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 816.97it/s][A

                                                                                                                                                  [A
 19%|███████████████████▌                                                                                    | 1883/10000 [01:54<08:55, 15.17it/s]
                                                                                                                                                  [A
                                                                                                                                                  

[60300] loss: 0.044 


 19%|███████████████████▌                                                                                    | 1883/10000 [01:54<08:55, 15.17it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 657.07it/s][A


[60320] loss: 0.073 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 714.65it/s][A
 19%|███████████████████▌                                                                                    | 1885/10000 [01:54<08:32, 15.82it/s]
                                                                                                                                                  [A
 19%|███████████████████▌                                                                                    | 1885/10000 [01:54<08:32, 15.82it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 1029.89it/s][A


[60340] loss: 0.046 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 835.69it/s][A

                                                                                                                                                  [A
 19%|███████████████████▌                                                                                    | 1885/10000 [01:54<08:32, 15.82it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[60360] loss: 0.025 


                                                                                                                                                  
 19%|███████████████████▌                                                                                    | 1885/10000 [01:54<08:32, 15.82it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 765.02it/s][A


[60380] loss: 0.069 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1209.08it/s][A

                                                                                                                                                  [A
 19%|███████████████████▌                                                                                    | 1885/10000 [01:54<08:32, 15.82it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 976.65it/s][A


[60400] loss: 0.058 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2336.66it/s][A
 19%|███████████████████▋                                                                                    | 1888/10000 [01:54<07:28, 18.08it/s]
                                                                                                                                                  [A
 19%|███████████████████▋                                                                                    | 1888/10000 [01:54<07:28, 18.08it/s]
                                                                                                                                                  [A
 19%|███████████████████▋                                                                                    | 1888/10000 [01:54<07:28, 18.08it/s]
Training Epoch:   0%|                                                                                       

[60420] loss: 0.058 
[60440] loss: 0.031 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 834.78it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2487.72it/s][A

                                                                                                                                                  [A
 19%|███████████████████▋                                                                                    | 1888/10000 [01:54<07:28, 18.08it/s]


[60460] loss: 0.043 


                                                                                                                                                  [A
 19%|███████████████████▋                                                                                    | 1888/10000 [01:54<07:28, 18.08it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[60480] loss: 0.074 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 694.07it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1355.63it/s][A

                                                                                                                                                  [A
 19%|███████████████████▋                                                                                    | 1888/10000 [01:54<07:28, 18.08it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 732.75it/s][A


[60500] loss: 0.059 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 552.75it/s][A
 19%|███████████████████▋                                                                                    | 1891/10000 [01:54<07:15, 18.62it/s]
                                                                                                                                                  [A
 19%|███████████████████▋                                                                                    | 1891/10000 [01:54<07:15, 18.62it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[60520] loss: 0.049 


                                                                                                                                                  
 19%|███████████████████▋                                                                                    | 1891/10000 [01:55<07:15, 18.62it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[60540] loss: 0.087 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 551.85it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1043.62it/s][A

                                                                                                                                                  [A
 19%|███████████████████▋                                                                                    | 1891/10000 [01:55<07:15, 18.62it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[60560] loss: 0.052 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 746.84it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1498.50it/s][A
 19%|███████████████████▋                                                                                    | 1893/10000 [01:55<07:26, 18.16it/s]
                                                                                                                                                  [A
 19%|███████████████████▋                                                                                    | 1893/10000 [01:55<07:26, 18.16it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[60580] loss: 0.088 


                                                                                                                                                  
 19%|███████████████████▋                                                                                    | 1893/10000 [01:55<07:26, 18.16it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[60600] loss: 0.070 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 606.48it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1985.00it/s][A

                                                                                                                                                  [A
 19%|███████████████████▋                                                                                    | 1893/10000 [01:55<07:26, 18.16it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[60620] loss: 0.045 


                                                                                                                                                  
 19%|███████████████████▋                                                                                    | 1893/10000 [01:55<07:26, 18.16it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 668.70it/s][A


[60640] loss: 0.078 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 264.12it/s][A
 19%|███████████████████▋                                                                                    | 1895/10000 [01:55<07:37, 17.71it/s]
                                                                                                                                                  [A
 19%|███████████████████▋                                                                                    | 1895/10000 [01:55<07:37, 17.71it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 754.53it/s][A


[60660] loss: 0.047 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1514.19it/s][A

                                                                                                                                                  [A
 19%|███████████████████▋                                                                                    | 1895/10000 [01:55<07:37, 17.71it/s]
                                                                                                                                                  [A
 19%|███████████████████▋                                                                                    | 1895/10000 [01:55<07:37, 17.71it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[60680] loss: 0.077 
[60700] loss: 0.054 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 753.00it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1054.38it/s][A
 19%|███████████████████▋                                                                                    | 1897/10000 [01:55<07:23, 18.25it/s]
                                                                                                                                                  [A
 19%|███████████████████▋                                                                                    | 1897/10000 [01:55<07:23, 18.25it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 808.02it/s][A


[60720] loss: 0.071 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1022.50it/s][A

                                                                                                                                                  [A
 19%|███████████████████▋                                                                                    | 1897/10000 [01:55<07:23, 18.25it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[60740] loss: 0.071 


                                                                                                                                                  
 19%|███████████████████▋                                                                                    | 1897/10000 [01:55<07:23, 18.25it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[60760] loss: 0.048 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 701.82it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 717.71it/s][A
 19%|███████████████████▋                                                                                    | 1899/10000 [01:55<07:14, 18.66it/s]
                                                                                                                                                  [A
 19%|███████████████████▋                                                                                    | 1899/10000 [01:55<07:14, 18.66it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[60780] loss: 0.094 


                                                                                                                                                  
 19%|███████████████████▋                                                                                    | 1899/10000 [01:55<07:14, 18.66it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[60800] loss: 0.069 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 542.74it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 741.31it/s][A

                                                                                                                                                  [A
 19%|███████████████████▋                                                                                    | 1899/10000 [01:55<07:14, 18.66it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[60820] loss: 0.052 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 555.23it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 612.31it/s][A
 19%|███████████████████▊                                                                                    | 1901/10000 [01:55<07:47, 17.31it/s]
                                                                                                                                                  [A
 19%|███████████████████▊                                                                                    | 1901/10000 [01:55<07:47, 17.31it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[60840] loss: 0.083 


                                                                                                                                                  
 19%|███████████████████▊                                                                                    | 1901/10000 [01:55<07:47, 17.31it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 463.00it/s][A


[60860] loss: 0.104 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 788.11it/s][A

                                                                                                                                                  [A
 19%|███████████████████▊                                                                                    | 1901/10000 [01:55<07:47, 17.31it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[60880] loss: 0.037 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 493.69it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 647.07it/s][A
 19%|███████████████████▊                                                                                    | 1903/10000 [01:55<08:34, 15.73it/s]
                                                                                                                                                  [A
 19%|███████████████████▊                                                                                    | 1903/10000 [01:55<08:34, 15.73it/s]
                                                                                                                                                  [A
 19%|███████████████████▊                                                                                   

[60900] loss: 0.050 
[60920] loss: 0.081 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 487.09it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 670.87it/s][A

                                                                                                                                                  [A
 19%|███████████████████▊                                                                                    | 1903/10000 [01:55<08:34, 15.73it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[60940] loss: 0.053 


                                                                                                                                                  
 19%|███████████████████▊                                                                                    | 1903/10000 [01:55<08:34, 15.73it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 500.08it/s][A


[60960] loss: 0.036 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 506.93it/s][A
 19%|███████████████████▊                                                                                    | 1905/10000 [01:55<08:59, 15.00it/s]
                                                                                                                                                  [A
 19%|███████████████████▊                                                                                    | 1905/10000 [01:55<08:59, 15.00it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 592.19it/s][A


[60980] loss: 0.041 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 678.91it/s][A

                                                                                                                                                  [A
 19%|███████████████████▊                                                                                    | 1905/10000 [01:55<08:59, 15.00it/s]
                                                                                                                                                  [A
 19%|███████████████████▊                                                                                    | 1905/10000 [01:55<08:59, 15.00it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 565.45it/s][A


[61000] loss: 0.070 
[61020] loss: 0.071 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1151.96it/s][A
 19%|███████████████████▊                                                                                    | 1907/10000 [01:55<08:49, 15.29it/s]
                                                                                                                                                  [A
 19%|███████████████████▊                                                                                    | 1907/10000 [01:56<08:49, 15.29it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 613.29it/s][A


[61040] loss: 0.077 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 715.63it/s][A

                                                                                                                                                  [A
 19%|███████████████████▊                                                                                    | 1907/10000 [01:56<08:49, 15.29it/s]
                                                                                                                                                  [A
 19%|███████████████████▊                                                                                    | 1907/10000 [01:56<08:49, 15.29it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[61060] loss: 0.053 
[61080] loss: 0.067 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 545.11it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 809.09it/s][A
 19%|███████████████████▊                                                                                    | 1909/10000 [01:56<08:42, 15.49it/s]
                                                                                                                                                  [A
 19%|███████████████████▊                                                                                    | 1909/10000 [01:56<08:42, 15.49it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[61100] loss: 0.068 


                                                                                                                                                  
 19%|███████████████████▊                                                                                    | 1909/10000 [01:56<08:42, 15.49it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 568.25it/s][A


[61120] loss: 0.031 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 540.71it/s][A

                                                                                                                                                  [A
 19%|███████████████████▊                                                                                    | 1909/10000 [01:56<08:42, 15.49it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[61140] loss: 0.075 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 570.79it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 584.65it/s][A
 19%|███████████████████▊                                                                                    | 1911/10000 [01:56<08:41, 15.52it/s]
                                                                                                                                                  [A
 19%|███████████████████▊                                                                                    | 1911/10000 [01:56<08:41, 15.52it/s]
                                                                                                                                                  [A
 19%|███████████████████▊                                                                                   

[61160] loss: 0.053 
[61180] loss: 0.055 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 453.54it/s][A

                                                                                                                                                  [A
 19%|███████████████████▊                                                                                    | 1911/10000 [01:56<08:41, 15.52it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[61200] loss: 0.082 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 584.41it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 603.58it/s][A
 19%|███████████████████▉                                                                                    | 1913/10000 [01:56<08:51, 15.23it/s]
                                                                                                                                                  [A
 19%|███████████████████▉                                                                                    | 1913/10000 [01:56<08:51, 15.23it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[61220] loss: 0.032 


                                                                                                                                                  
 19%|███████████████████▉                                                                                    | 1913/10000 [01:56<08:51, 15.23it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 473.61it/s][A


[61240] loss: 0.060 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 798.00it/s][A

                                                                                                                                                  [A
 19%|███████████████████▉                                                                                    | 1913/10000 [01:56<08:51, 15.23it/s]
                                                                                                                                                  [A
 19%|███████████████████▉                                                                                    | 1913/10000 [01:56<08:51, 15.23it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 465.51it/s][A


[61260] loss: 0.038 
[61280] loss: 0.032 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 515.59it/s][A
 19%|███████████████████▉                                                                                    | 1915/10000 [01:56<09:21, 14.41it/s]
                                                                                                                                                  [A
 19%|███████████████████▉                                                                                    | 1915/10000 [01:56<09:21, 14.41it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[61300] loss: 0.059 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 510.91it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1226.76it/s][A

                                                                                                                                                  [A
 19%|███████████████████▉                                                                                    | 1915/10000 [01:56<09:21, 14.41it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[61320] loss: 0.074 


                                                                                                                                                  
 19%|███████████████████▉                                                                                    | 1915/10000 [01:56<09:21, 14.41it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 619.69it/s][A


[61340] loss: 0.044 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 685.01it/s][A
 19%|███████████████████▉                                                                                    | 1917/10000 [01:56<09:17, 14.50it/s]
                                                                                                                                                  [A
 19%|███████████████████▉                                                                                    | 1917/10000 [01:56<09:17, 14.50it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 664.94it/s][A


[61360] loss: 0.071 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 449.94it/s][A

                                                                                                                                                  [A
 19%|███████████████████▉                                                                                    | 1917/10000 [01:56<09:17, 14.50it/s]
                                                                                                                                                  [A
 19%|███████████████████▉                                                                                    | 1917/10000 [01:56<09:17, 14.50it/s]

[61380] loss: 0.055 
[61400] loss: 0.075 



Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 572.52it/s][A

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 878.02it/s][A
 19%|███████████████████▉                                                                                    | 1919/10000 [01:56<09:03, 14.87it/s]
                                                                                                                                                  [A
 19%|███████████████████▉                                                                                    | 1919/10000 [01:56<09:03, 14.87it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[61420] loss: 0.045 


                                                                                                                                                  
 19%|███████████████████▉                                                                                    | 1919/10000 [01:56<09:03, 14.87it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 659.09it/s][A


[61440] loss: 0.044 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1217.50it/s][A

                                                                                                                                                  [A
 19%|███████████████████▉                                                                                    | 1919/10000 [01:56<09:03, 14.87it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 716.33it/s][A

[61460] loss: 0.084 




Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1043.36it/s][A
 19%|███████████████████▉                                                                                    | 1921/10000 [01:56<08:32, 15.77it/s]
                                                                                                                                                  [A
 19%|███████████████████▉                                                                                    | 1921/10000 [01:56<08:32, 15.77it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[61480] loss: 0.048 


                                                                                                                                                  
 19%|███████████████████▉                                                                                    | 1921/10000 [01:56<08:32, 15.77it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 584.93it/s][A


[61500] loss: 0.067 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1413.65it/s][A

                                                                                                                                                  [A
 19%|███████████████████▉                                                                                    | 1921/10000 [01:56<08:32, 15.77it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 733.11it/s][A


[61520] loss: 0.076 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 620.37it/s][A
 19%|███████████████████▉                                                                                    | 1923/10000 [01:57<08:20, 16.14it/s]
                                                                                                                                                  [A
 19%|███████████████████▉                                                                                    | 1923/10000 [01:57<08:20, 16.14it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[61540] loss: 0.071 


                                                                                                                                                  
 19%|███████████████████▉                                                                                    | 1923/10000 [01:57<08:20, 16.14it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 613.51it/s][A


[61560] loss: 0.083 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 775.00it/s][A

                                                                                                                                                  [A
 19%|███████████████████▉                                                                                    | 1923/10000 [01:57<08:20, 16.14it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[61580] loss: 0.063 


                                                                                                                                                  
 19%|███████████████████▉                                                                                    | 1923/10000 [01:57<08:20, 16.14it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 602.09it/s][A


[61600] loss: 0.056 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 776.72it/s][A
 19%|████████████████████                                                                                    | 1925/10000 [01:57<08:19, 16.16it/s]
                                                                                                                                                  [A
 19%|████████████████████                                                                                    | 1925/10000 [01:57<08:19, 16.16it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 767.64it/s][A


[61620] loss: 0.055 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 615.09it/s][A

                                                                                                                                                  [A
 19%|████████████████████                                                                                    | 1925/10000 [01:57<08:19, 16.16it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[61640] loss: 0.057 


                                                                                                                                                  
 19%|████████████████████                                                                                    | 1925/10000 [01:57<08:19, 16.16it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 632.11it/s][A


[61660] loss: 0.132 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1347.78it/s][A
 19%|████████████████████                                                                                    | 1927/10000 [01:57<08:03, 16.69it/s]
                                                                                                                                                  [A
 19%|████████████████████                                                                                    | 1927/10000 [01:57<08:03, 16.69it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 708.07it/s][A


[61680] loss: 0.061 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 902.39it/s][A

                                                                                                                                                  [A
 19%|████████████████████                                                                                    | 1927/10000 [01:57<08:03, 16.69it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[61700] loss: 0.043 


                                                                                                                                                  
 19%|████████████████████                                                                                    | 1927/10000 [01:57<08:03, 16.69it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 593.47it/s][A


[61720] loss: 0.062 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1915.21it/s][A
 19%|████████████████████                                                                                    | 1929/10000 [01:57<08:00, 16.78it/s]
                                                                                                                                                  [A
 19%|████████████████████                                                                                    | 1929/10000 [01:57<08:00, 16.78it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[61740] loss: 0.076 


                                                                                                                                                  
 19%|████████████████████                                                                                    | 1929/10000 [01:57<08:00, 16.78it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 578.02it/s][A


[61760] loss: 0.151 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1380.16it/s][A

                                                                                                                                                  [A
 19%|████████████████████                                                                                    | 1929/10000 [01:57<08:00, 16.78it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[61780] loss: 0.059 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 728.59it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1022.25it/s][A
 19%|████████████████████                                                                                    | 1931/10000 [01:57<07:56, 16.95it/s]
                                                                                                                                                  [A
 19%|████████████████████                                                                                    | 1931/10000 [01:57<07:56, 16.95it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[61800] loss: 0.064 


                                                                                                                                                  
 19%|████████████████████                                                                                    | 1931/10000 [01:57<07:56, 16.95it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 608.49it/s][A


[61820] loss: 0.056 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 719.56it/s][A

                                                                                                                                                  [A
 19%|████████████████████                                                                                    | 1931/10000 [01:57<07:56, 16.95it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 742.38it/s][A

[61840] loss: 0.078 




Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2104.52it/s][A
 19%|████████████████████                                                                                    | 1933/10000 [01:57<07:49, 17.17it/s]
                                                                                                                                                  [A
 19%|████████████████████                                                                                    | 1933/10000 [01:57<07:49, 17.17it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[61860] loss: 0.056 


                                                                                                                                                  
 19%|████████████████████                                                                                    | 1933/10000 [01:57<07:49, 17.17it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 778.07it/s][A


[61880] loss: 0.050 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1797.05it/s][A

                                                                                                                                                  [A
 19%|████████████████████                                                                                    | 1933/10000 [01:57<07:49, 17.17it/s]
                                                                                                                                                  [A
 19%|████████████████████                                                                                    | 1933/10000 [01:57<07:49, 17.17it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 642.24it/s][A


[61900] loss: 0.087 
[61920] loss: 0.056 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1182.83it/s][A
 19%|████████████████████                                                                                    | 1935/10000 [01:57<07:37, 17.62it/s]
                                                                                                                                                  [A
 19%|████████████████████                                                                                    | 1935/10000 [01:57<07:37, 17.62it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[61940] loss: 0.040 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 713.03it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 748.72it/s][A

                                                                                                                                                  [A
 19%|████████████████████                                                                                    | 1935/10000 [01:57<07:37, 17.62it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[61960] loss: 0.035 


                                                                                                                                                  
 19%|████████████████████                                                                                    | 1935/10000 [01:57<07:37, 17.62it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 495.58it/s][A


[61980] loss: 0.060 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 714.53it/s][A
 19%|████████████████████▏                                                                                   | 1937/10000 [01:57<07:55, 16.97it/s]
                                                                                                                                                  [A
 19%|████████████████████▏                                                                                   | 1937/10000 [01:57<07:55, 16.97it/s]


[62000] loss: 0.037 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 561.95it/s][A

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 729.44it/s][A

                                                                                                                                                  [A
 19%|████████████████████▏                                                                                   | 1937/10000 [01:57<07:55, 16.97it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[62020] loss: 0.049 


                                                                                                                                                  
 19%|████████████████████▏                                                                                   | 1937/10000 [01:57<07:55, 16.97it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 452.13it/s][A


[62040] loss: 0.071 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 429.00it/s][A
 19%|████████████████████▏                                                                                   | 1939/10000 [01:57<08:30, 15.79it/s]
                                                                                                                                                  [A
 19%|████████████████████▏                                                                                   | 1939/10000 [01:58<08:30, 15.79it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[62060] loss: 0.074 


                                                                                                                                                  
 19%|████████████████████▏                                                                                   | 1939/10000 [01:58<08:30, 15.79it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 519.53it/s][A


[62080] loss: 0.045 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 299.98it/s][A

                                                                                                                                                  [A
 19%|████████████████████▏                                                                                   | 1939/10000 [01:58<08:30, 15.79it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 565.16it/s][A


[62100] loss: 0.057 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 576.54it/s][A
 19%|████████████████████▏                                                                                   | 1941/10000 [01:58<08:44, 15.35it/s]
                                                                                                                                                  [A
 19%|████████████████████▏                                                                                   | 1941/10000 [01:58<08:44, 15.35it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[62120] loss: 0.057 


                                                                                                                                                  
 19%|████████████████████▏                                                                                   | 1941/10000 [01:58<08:44, 15.35it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 551.16it/s][A


[62140] loss: 0.052 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 851.64it/s][A

                                                                                                                                                  [A
 19%|████████████████████▏                                                                                   | 1941/10000 [01:58<08:44, 15.35it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 586.25it/s][A

[62160] loss: 0.102 




Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 593.00it/s][A
 19%|████████████████████▏                                                                                   | 1943/10000 [01:58<08:44, 15.35it/s]
                                                                                                                                                  [A
 19%|████████████████████▏                                                                                   | 1943/10000 [01:58<08:44, 15.35it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[62180] loss: 0.049 


                                                                                                                                                  
 19%|████████████████████▏                                                                                   | 1943/10000 [01:58<08:44, 15.35it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 512.99it/s][A


[62200] loss: 0.053 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 563.22it/s][A

                                                                                                                                                  [A
 19%|████████████████████▏                                                                                   | 1943/10000 [01:58<08:44, 15.35it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[62220] loss: 0.057 


                                                                                                                                                  
 19%|████████████████████▏                                                                                   | 1943/10000 [01:58<08:44, 15.35it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 555.97it/s][A


[62240] loss: 0.039 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 326.68it/s][A
 19%|████████████████████▏                                                                                   | 1945/10000 [01:58<08:54, 15.07it/s]
                                                                                                                                                  [A
 19%|████████████████████▏                                                                                   | 1945/10000 [01:58<08:54, 15.07it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 574.85it/s][A


[62260] loss: 0.046 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 605.85it/s][A

                                                                                                                                                  [A
 19%|████████████████████▏                                                                                   | 1945/10000 [01:58<08:54, 15.07it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[62280] loss: 0.057 


                                                                                                                                                  
 19%|████████████████████▏                                                                                   | 1945/10000 [01:58<08:54, 15.07it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 497.13it/s][A


[62300] loss: 0.050 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 835.02it/s][A
 19%|████████████████████▏                                                                                   | 1947/10000 [01:58<08:59, 14.93it/s]
                                                                                                                                                  [A
 19%|████████████████████▏                                                                                   | 1947/10000 [01:58<08:59, 14.93it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[62320] loss: 0.048 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 590.58it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 655.05it/s][A

                                                                                                                                                  [A
 19%|████████████████████▏                                                                                   | 1947/10000 [01:58<08:59, 14.93it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[62340] loss: 0.087 


                                                                                                                                                  
 19%|████████████████████▏                                                                                   | 1947/10000 [01:58<08:59, 14.93it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 505.83it/s][A


[62360] loss: 0.042 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 646.37it/s][A
 19%|████████████████████▎                                                                                   | 1949/10000 [01:58<09:02, 14.85it/s]
                                                                                                                                                  [A
 19%|████████████████████▎                                                                                   | 1949/10000 [01:58<09:02, 14.85it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[62380] loss: 0.071 


                                                                                                                                                  
 19%|████████████████████▎                                                                                   | 1949/10000 [01:58<09:02, 14.85it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 526.28it/s][A


[62400] loss: 0.053 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 301.12it/s][A

                                                                                                                                                  [A
 19%|████████████████████▎                                                                                   | 1949/10000 [01:58<09:02, 14.85it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 538.73it/s][A


[62420] loss: 0.054 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 959.14it/s][A
 20%|████████████████████▎                                                                                   | 1951/10000 [01:58<09:10, 14.62it/s]
                                                                                                                                                  [A
 20%|████████████████████▎                                                                                   | 1951/10000 [01:58<09:10, 14.62it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[62440] loss: 0.034 


                                                                                                                                                  
 20%|████████████████████▎                                                                                   | 1951/10000 [01:58<09:10, 14.62it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 528.74it/s][A


[62460] loss: 0.082 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 538.77it/s][A

                                                                                                                                                  [A
 20%|████████████████████▎                                                                                   | 1951/10000 [01:58<09:10, 14.62it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 700.19it/s][A


[62480] loss: 0.055 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1409.38it/s][A
 20%|████████████████████▎                                                                                   | 1953/10000 [01:58<08:55, 15.03it/s]
                                                                                                                                                  [A
 20%|████████████████████▎                                                                                   | 1953/10000 [01:58<08:55, 15.03it/s]
                                                                                                                                                  [A
 20%|████████████████████▎                                                                                   | 1953/10000 [01:58<08:55, 15.03it/s]
Training Epoch:   0%|                                                                                       

[62500] loss: 0.054 
[62520] loss: 0.060 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 621.57it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1255.78it/s][A

                                                                                                                                                  [A
 20%|████████████████████▎                                                                                   | 1953/10000 [01:59<08:55, 15.03it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[62540] loss: 0.037 


                                                                                                                                                  
 20%|████████████████████▎                                                                                   | 1953/10000 [01:59<08:55, 15.03it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 739.44it/s][A


[62560] loss: 0.074 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2190.24it/s][A
 20%|████████████████████▎                                                                                   | 1955/10000 [01:59<08:28, 15.83it/s]
                                                                                                                                                  [A
 20%|████████████████████▎                                                                                   | 1955/10000 [01:59<08:28, 15.83it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 763.20it/s][A


[62580] loss: 0.049 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 682.33it/s][A

                                                                                                                                                  [A
 20%|████████████████████▎                                                                                   | 1955/10000 [01:59<08:28, 15.83it/s]
                                                                                                                                                  [A
 20%|████████████████████▎                                                                                   | 1955/10000 [01:59<08:28, 15.83it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[62600] loss: 0.042 
[62620] loss: 0.066 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 632.60it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1491.57it/s][A
 20%|████████████████████▎                                                                                   | 1957/10000 [01:59<08:09, 16.42it/s]
                                                                                                                                                  [A
 20%|████████████████████▎                                                                                   | 1957/10000 [01:59<08:09, 16.42it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 667.15it/s][A


[62640] loss: 0.062 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1074.91it/s][A

                                                                                                                                                  [A
 20%|████████████████████▎                                                                                   | 1957/10000 [01:59<08:09, 16.42it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[62660] loss: 0.052 


                                                                                                                                                  
 20%|████████████████████▎                                                                                   | 1957/10000 [01:59<08:09, 16.42it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 656.24it/s][A


[62680] loss: 0.047 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1496.90it/s][A
 20%|████████████████████▎                                                                                   | 1959/10000 [01:59<07:59, 16.76it/s]
                                                                                                                                                  [A
 20%|████████████████████▎                                                                                   | 1959/10000 [01:59<07:59, 16.76it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[62700] loss: 0.084 


                                                                                                                                                  
 20%|████████████████████▎                                                                                   | 1959/10000 [01:59<07:59, 16.76it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 655.71it/s][A


[62720] loss: 0.005 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 574.33it/s][A

                                                                                                                                                  [A
 20%|████████████████████▎                                                                                   | 1959/10000 [01:59<07:59, 16.76it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 771.28it/s][A


[62740] loss: 0.070 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2185.67it/s][A
 20%|████████████████████▍                                                                                   | 1961/10000 [01:59<07:44, 17.33it/s]
                                                                                                                                                  [A
 20%|████████████████████▍                                                                                   | 1961/10000 [01:59<07:44, 17.33it/s]
                                                                                                                                                  [A
 20%|████████████████████▍                                                                                   | 1961/10000 [01:59<07:44, 17.33it/s]
Training Epoch:   0%|                                                                                       

[62760] loss: 0.040 
[62780] loss: 0.057 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 682.18it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1447.31it/s][A

                                                                                                                                                  [A
 20%|████████████████████▍                                                                                   | 1961/10000 [01:59<07:44, 17.33it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 713.19it/s][A


[62800] loss: 0.085 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 880.60it/s][A
 20%|████████████████████▍                                                                                   | 1963/10000 [01:59<07:34, 17.69it/s]
                                                                                                                                                  [A
 20%|████████████████████▍                                                                                   | 1963/10000 [01:59<07:34, 17.69it/s]
                                                                                                                                                  [A

[62820] loss: 0.060 



 20%|████████████████████▍                                                                                   | 1963/10000 [01:59<07:34, 17.69it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 703.40it/s][A


[62840] loss: 0.054 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1602.71it/s][A

                                                                                                                                                  [A
 20%|████████████████████▍                                                                                   | 1963/10000 [01:59<07:34, 17.69it/s]
                                                                                                                                                  [A
 20%|████████████████████▍                                                                                   | 1963/10000 [01:59<07:34, 17.69it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 679.79it/s][A


[62860] loss: 0.057 
[62880] loss: 0.032 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2201.73it/s][A
 20%|████████████████████▍                                                                                   | 1965/10000 [01:59<07:28, 17.91it/s]
                                                                                                                                                  [A
 20%|████████████████████▍                                                                                   | 1965/10000 [01:59<07:28, 17.91it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 858.19it/s][A


[62900] loss: 0.045 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 728.18it/s][A

                                                                                                                                                  [A
 20%|████████████████████▍                                                                                   | 1965/10000 [01:59<07:28, 17.91it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[62920] loss: 0.065 


                                                                                                                                                  
 20%|████████████████████▍                                                                                   | 1965/10000 [01:59<07:28, 17.91it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 842.18it/s][A


[62940] loss: 0.056 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1596.61it/s][A

                                                                                                                                                  [A
 20%|████████████████████▍                                                                                   | 1965/10000 [01:59<07:28, 17.91it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[62960] loss: 0.048 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 877.83it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 867.67it/s][A
 20%|████████████████████▍                                                                                   | 1968/10000 [01:59<06:57, 19.25it/s]
                                                                                                                                                  [A
 20%|████████████████████▍                                                                                   | 1968/10000 [01:59<06:57, 19.25it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[62980] loss: 0.026 


                                                                                                                                                  
 20%|████████████████████▍                                                                                   | 1968/10000 [01:59<06:57, 19.25it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 658.05it/s][A


[63000] loss: 0.055 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1480.52it/s][A

                                                                                                                                                  [A
 20%|████████████████████▍                                                                                   | 1968/10000 [01:59<06:57, 19.25it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[63020] loss: 0.068 


                                                                                                                                                  
 20%|████████████████████▍                                                                                   | 1968/10000 [01:59<06:57, 19.25it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 681.15it/s][A


[63040] loss: 0.043 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 347.70it/s][A
 20%|████████████████████▍                                                                                   | 1970/10000 [01:59<07:08, 18.73it/s]
                                                                                                                                                  [A
[A                                                                                                                                               

[63060] loss: 0.043 


 20%|████████████████████▍                                                                                   | 1970/10000 [01:59<07:08, 18.73it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 709.26it/s][A

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 832.53it/s][A

                                                                                                                                                  [A
 20%|████████████████████▍                                                                                   | 1970/10000 [01:59<07:08, 18.73it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[63080] loss: 0.045 


                                                                                                                                                  
 20%|████████████████████▍                                                                                   | 1970/10000 [01:59<07:08, 18.73it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 627.80it/s][A


[63100] loss: 0.042 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 274.91it/s][A
 20%|████████████████████▌                                                                                   | 1972/10000 [01:59<07:22, 18.15it/s]
                                                                                                                                                  [A
 20%|████████████████████▌                                                                                   | 1972/10000 [01:59<07:22, 18.15it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[63120] loss: 0.049 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 539.97it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 961.33it/s][A

                                                                                                                                                  [A
 20%|████████████████████▌                                                                                   | 1972/10000 [02:00<07:22, 18.15it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[63140] loss: 0.054 


                                                                                                                                                  
 20%|████████████████████▌                                                                                   | 1972/10000 [02:00<07:22, 18.15it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 533.83it/s][A


[63160] loss: 0.070 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 435.50it/s][A
 20%|████████████████████▌                                                                                   | 1974/10000 [02:00<07:53, 16.94it/s]
                                                                                                                                                  [A
 20%|████████████████████▌                                                                                   | 1974/10000 [02:00<07:53, 16.94it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[63180] loss: 0.059 


                                                                                                                                                  
 20%|████████████████████▌                                                                                   | 1974/10000 [02:00<07:53, 16.94it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 563.19it/s][A


[63200] loss: 0.129 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 338.11it/s][A

                                                                                                                                                  [A
 20%|████████████████████▌                                                                                   | 1974/10000 [02:00<07:53, 16.94it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 605.69it/s][A


[63220] loss: 0.068 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 469.58it/s][A
 20%|████████████████████▌                                                                                   | 1976/10000 [02:00<08:07, 16.46it/s]
                                                                                                                                                  [A
 20%|████████████████████▌                                                                                   | 1976/10000 [02:00<08:07, 16.46it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[63240] loss: 0.053 


                                                                                                                                                  
 20%|████████████████████▌                                                                                   | 1976/10000 [02:00<08:07, 16.46it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 555.66it/s][A


[63260] loss: 0.090 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 857.03it/s][A

                                                                                                                                                  [A
 20%|████████████████████▌                                                                                   | 1976/10000 [02:00<08:07, 16.46it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 645.12it/s][A


[63280] loss: 0.057 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 962.66it/s][A
 20%|████████████████████▌                                                                                   | 1978/10000 [02:00<08:11, 16.32it/s]
                                                                                                                                                  [A
 20%|████████████████████▌                                                                                   | 1978/10000 [02:00<08:11, 16.32it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[63300] loss: 0.053 


                                                                                                                                                  
 20%|████████████████████▌                                                                                   | 1978/10000 [02:00<08:11, 16.32it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 508.53it/s][A


[63320] loss: 0.051 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1228.56it/s][A

                                                                                                                                                  [A
 20%|████████████████████▌                                                                                   | 1978/10000 [02:00<08:11, 16.32it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[63340] loss: 0.062 


                                                                                                                                                  
 20%|████████████████████▌                                                                                   | 1978/10000 [02:00<08:11, 16.32it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 777.45it/s][A


[63360] loss: 0.134 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 544.15it/s][A
 20%|████████████████████▌                                                                                   | 1980/10000 [02:00<08:08, 16.40it/s]
                                                                                                                                                  [A
 20%|████████████████████▌                                                                                   | 1980/10000 [02:00<08:08, 16.40it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 803.32it/s][A


[63380] loss: 0.057 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 701.86it/s][A

                                                                                                                                                  [A
 20%|████████████████████▌                                                                                   | 1980/10000 [02:00<08:08, 16.40it/s]
                                                                                                                                                  [A
                                                                                                                                                  

[63400] loss: 0.038 


 20%|████████████████████▌                                                                                   | 1980/10000 [02:00<08:08, 16.40it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 635.81it/s][A


[63420] loss: 0.044 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1691.25it/s][A
 20%|████████████████████▌                                                                                   | 1982/10000 [02:00<07:49, 17.08it/s]
                                                                                                                                                  [A
 20%|████████████████████▌                                                                                   | 1982/10000 [02:00<07:49, 17.08it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[63440] loss: 0.064 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 637.70it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 581.98it/s][A

                                                                                                                                                  [A
 20%|████████████████████▌                                                                                   | 1982/10000 [02:00<07:49, 17.08it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[63460] loss: 0.045 


                                                                                                                                                  
 20%|████████████████████▌                                                                                   | 1982/10000 [02:00<07:49, 17.08it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[63480] loss: 0.070 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 506.26it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1526.87it/s][A
 20%|████████████████████▋                                                                                   | 1984/10000 [02:00<08:07, 16.44it/s]
                                                                                                                                                  [A
 20%|████████████████████▋                                                                                   | 1984/10000 [02:00<08:07, 16.44it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[63500] loss: 0.068 


                                                                                                                                                  
 20%|████████████████████▋                                                                                   | 1984/10000 [02:00<08:07, 16.44it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 494.63it/s][A


[63520] loss: 0.090 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 687.82it/s][A

                                                                                                                                                  [A
 20%|████████████████████▋                                                                                   | 1984/10000 [02:00<08:07, 16.44it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 562.15it/s][A


[63540] loss: 0.037 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 502.73it/s][A
 20%|████████████████████▋                                                                                   | 1986/10000 [02:00<08:30, 15.69it/s]
                                                                                                                                                  [A
 20%|████████████████████▋                                                                                   | 1986/10000 [02:00<08:30, 15.69it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[63560] loss: 0.076 


                                                                                                                                                  
 20%|████████████████████▋                                                                                   | 1986/10000 [02:00<08:30, 15.69it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 509.99it/s][A


[63580] loss: 0.042 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 548.99it/s][A

                                                                                                                                                  [A
 20%|████████████████████▋                                                                                   | 1986/10000 [02:00<08:30, 15.69it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[63600] loss: 0.074 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 506.48it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 616.81it/s][A
 20%|████████████████████▋                                                                                   | 1988/10000 [02:00<08:52, 15.06it/s]
                                                                                                                                                  [A
 20%|████████████████████▋                                                                                   | 1988/10000 [02:01<08:52, 15.06it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[63620] loss: 0.045 


                                                                                                                                                  
 20%|████████████████████▋                                                                                   | 1988/10000 [02:01<08:52, 15.06it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 462.03it/s][A


[63640] loss: 0.040 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 370.26it/s][A

                                                                                                                                                  [A
 20%|████████████████████▋                                                                                   | 1988/10000 [02:01<08:52, 15.06it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[63660] loss: 0.055 


                                                                                                                                                  
 20%|████████████████████▋                                                                                   | 1988/10000 [02:01<08:52, 15.06it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 537.32it/s][A


[63680] loss: 0.137 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 526.66it/s][A
 20%|████████████████████▋                                                                                   | 1990/10000 [02:01<09:08, 14.60it/s]
                                                                                                                                                  [A
 20%|████████████████████▋                                                                                   | 1990/10000 [02:01<09:08, 14.60it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 570.79it/s][A


[63700] loss: 0.066 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 478.75it/s][A

                                                                                                                                                  [A
 20%|████████████████████▋                                                                                   | 1990/10000 [02:01<09:08, 14.60it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[63720] loss: 0.051 


                                                                                                                                                  
 20%|████████████████████▋                                                                                   | 1990/10000 [02:01<09:08, 14.60it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 441.56it/s][A


[63740] loss: 0.079 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 825.81it/s][A
 20%|████████████████████▋                                                                                   | 1992/10000 [02:01<09:19, 14.31it/s]
                                                                                                                                                  [A
 20%|████████████████████▋                                                                                   | 1992/10000 [02:01<09:19, 14.31it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[63760] loss: 0.054 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 622.82it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1328.57it/s][A

                                                                                                                                                  [A
 20%|████████████████████▋                                                                                   | 1992/10000 [02:01<09:19, 14.31it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[63780] loss: 0.051 


                                                                                                                                                  
 20%|████████████████████▋                                                                                   | 1992/10000 [02:01<09:19, 14.31it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 553.98it/s][A


[63800] loss: 0.059 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1898.73it/s][A
 20%|████████████████████▋                                                                                   | 1994/10000 [02:01<09:04, 14.72it/s]
                                                                                                                                                  [A
 20%|████████████████████▋                                                                                   | 1994/10000 [02:01<09:04, 14.72it/s]
                                                                                                                                                  [A
 20%|████████████████████▋                                                                                   | 1994/10000 [02:01<09:04, 14.72it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[63820] loss: 0.060 
[63840] loss: 0.035 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 733.78it/s][A

                                                                                                                                                  [A
 20%|████████████████████▋                                                                                   | 1994/10000 [02:01<09:04, 14.72it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[63860] loss: 0.068 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 643.12it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1440.85it/s][A
 20%|████████████████████▊                                                                                   | 1996/10000 [02:01<08:45, 15.22it/s]
                                                                                                                                                  [A
 20%|████████████████████▊                                                                                   | 1996/10000 [02:01<08:45, 15.22it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[63880] loss: 0.054 


                                                                                                                                                  
 20%|████████████████████▊                                                                                   | 1996/10000 [02:01<08:45, 15.22it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 644.18it/s][A


[63900] loss: 0.079 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1188.86it/s][A

                                                                                                                                                  [A
 20%|████████████████████▊                                                                                   | 1996/10000 [02:01<08:45, 15.22it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[63920] loss: 0.065 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 776.92it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1279.14it/s][A
 20%|████████████████████▊                                                                                   | 1998/10000 [02:01<08:20, 15.98it/s]
                                                                                                                                                  [A
 20%|████████████████████▊                                                                                   | 1998/10000 [02:01<08:20, 15.98it/s]
                                                                                                                                                  [A
 20%|████████████████████▊                                                                                  

[63940] loss: 0.068 
[63960] loss: 0.089 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 814.27it/s][A

                                                                                                                                                  [A
 20%|████████████████████▊                                                                                   | 1998/10000 [02:01<08:20, 15.98it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[63980] loss: 0.058 


                                                                                                                                                  
 20%|████████████████████▊                                                                                   | 1998/10000 [02:01<08:20, 15.98it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 676.86it/s][A


[64000] loss: 0.049 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1449.31it/s][A
 20%|████████████████████▊                                                                                   | 2000/10000 [02:01<08:14, 16.17it/s]
                                                                                                                                                  [A
 20%|████████████████████▊                                                                                   | 2000/10000 [02:01<08:14, 16.17it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 714.31it/s][A


[64020] loss: 0.050 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 592.08it/s][A

                                                                                                                                                  [A
 20%|████████████████████▊                                                                                   | 2000/10000 [02:01<08:14, 16.17it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[64040] loss: 0.097 


                                                                                                                                                  
 20%|████████████████████▊                                                                                   | 2000/10000 [02:01<08:14, 16.17it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 674.12it/s][A


[64060] loss: 0.027 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1123.57it/s][A
 20%|████████████████████▊                                                                                   | 2002/10000 [02:01<08:01, 16.60it/s]
                                                                                                                                                  [A
 20%|████████████████████▊                                                                                   | 2002/10000 [02:01<08:01, 16.60it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 761.33it/s][A


[64080] loss: 0.025 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 792.87it/s][A

                                                                                                                                                  [A
 20%|████████████████████▊                                                                                   | 2002/10000 [02:01<08:01, 16.60it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[64100] loss: 0.042 


                                                                                                                                                  
 20%|████████████████████▊                                                                                   | 2002/10000 [02:01<08:01, 16.60it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 663.45it/s][A


[64120] loss: 0.059 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1027.76it/s][A
 20%|████████████████████▊                                                                                   | 2004/10000 [02:01<07:47, 17.09it/s]
                                                                                                                                                  [A
 20%|████████████████████▊                                                                                   | 2004/10000 [02:02<07:47, 17.09it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[64140] loss: 0.065 


                                                                                                                                                  
 20%|████████████████████▊                                                                                   | 2004/10000 [02:02<07:47, 17.09it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 605.38it/s][A


[64160] loss: 0.021 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1525.76it/s][A

                                                                                                                                                  [A
 20%|████████████████████▊                                                                                   | 2004/10000 [02:02<07:47, 17.09it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 841.63it/s][A


[64180] loss: 0.052 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2335.36it/s][A
 20%|████████████████████▊                                                                                   | 2006/10000 [02:02<07:32, 17.68it/s]
                                                                                                                                                  [A
 20%|████████████████████▊                                                                                   | 2006/10000 [02:02<07:32, 17.68it/s]
                                                                                                                                                  [A
 20%|████████████████████▊                                                                                   | 2006/10000 [02:02<07:32, 17.68it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[64200] loss: 0.057 
[64220] loss: 0.072 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1983.12it/s][A

                                                                                                                                                  [A
 20%|████████████████████▊                                                                                   | 2006/10000 [02:02<07:32, 17.68it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[64240] loss: 0.032 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 913.98it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 865.70it/s][A

                                                                                                                                                  [A
 20%|████████████████████▊                                                                                   | 2006/10000 [02:02<07:32, 17.68it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[64260] loss: 0.062 


                                                                                                                                                  
 20%|████████████████████▊                                                                                   | 2006/10000 [02:02<07:32, 17.68it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 795.91it/s][A


[64280] loss: 0.053 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 715.75it/s][A
 20%|████████████████████▉                                                                                   | 2009/10000 [02:02<06:59, 19.03it/s]
                                                                                                                                                  [A
 20%|████████████████████▉                                                                                   | 2009/10000 [02:02<06:59, 19.03it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[64300] loss: 0.069 


                                                                                                                                                  
 20%|████████████████████▉                                                                                   | 2009/10000 [02:02<06:59, 19.03it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 568.21it/s][A


[64320] loss: 0.109 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 368.24it/s][A

                                                                                                                                                  [A
 20%|████████████████████▉                                                                                   | 2009/10000 [02:02<06:59, 19.03it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 777.07it/s][A


[64340] loss: 0.058 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1615.68it/s][A
 20%|████████████████████▉                                                                                   | 2011/10000 [02:02<07:14, 18.38it/s]
                                                                                                                                                  [A
 20%|████████████████████▉                                                                                   | 2011/10000 [02:02<07:14, 18.38it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[64360] loss: 0.052 


                                                                                                                                                  
 20%|████████████████████▉                                                                                   | 2011/10000 [02:02<07:14, 18.38it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 590.64it/s][A


[64380] loss: 0.042 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 707.18it/s][A

                                                                                                                                                  [A
 20%|████████████████████▉                                                                                   | 2011/10000 [02:02<07:14, 18.38it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[64400] loss: 0.064 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 561.29it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 926.71it/s][A
 20%|████████████████████▉                                                                                   | 2013/10000 [02:02<07:38, 17.44it/s]
                                                                                                                                                  [A
 20%|████████████████████▉                                                                                   | 2013/10000 [02:02<07:38, 17.44it/s]
                                                                                                                                                  [A
                                                                                                            

[64420] loss: 0.044 


 20%|████████████████████▉                                                                                   | 2013/10000 [02:02<07:38, 17.44it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 494.67it/s][A


[64440] loss: 0.068 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 452.07it/s][A

                                                                                                                                                  [A
 20%|████████████████████▉                                                                                   | 2013/10000 [02:02<07:38, 17.44it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[64460] loss: 0.054 


                                                                                                                                                  
 20%|████████████████████▉                                                                                   | 2013/10000 [02:02<07:38, 17.44it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 496.39it/s][A


[64480] loss: 0.042 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 769.60it/s][A
 20%|████████████████████▉                                                                                   | 2015/10000 [02:02<08:20, 15.95it/s]
                                                                                                                                                  [A
 20%|████████████████████▉                                                                                   | 2015/10000 [02:02<08:20, 15.95it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[64500] loss: 0.057 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 486.26it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 928.56it/s][A

                                                                                                                                                  [A
 20%|████████████████████▉                                                                                   | 2015/10000 [02:02<08:20, 15.95it/s]

[64520] loss: 0.056 



                                                                                                                                                  [A
 20%|████████████████████▉                                                                                   | 2015/10000 [02:02<08:20, 15.95it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 500.11it/s][A


[64540] loss: 0.091 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 807.68it/s][A
 20%|████████████████████▉                                                                                   | 2017/10000 [02:02<08:48, 15.10it/s]
                                                                                                                                                  [A
 20%|████████████████████▉                                                                                   | 2017/10000 [02:02<08:48, 15.10it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[64560] loss: 0.066 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 548.15it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 833.03it/s][A

                                                                                                                                                  [A
 20%|████████████████████▉                                                                                   | 2017/10000 [02:02<08:48, 15.10it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[64580] loss: 0.046 


                                                                                                                                                  
 20%|████████████████████▉                                                                                   | 2017/10000 [02:02<08:48, 15.10it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 472.58it/s][A


[64600] loss: 0.044 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 547.34it/s][A
 20%|████████████████████▉                                                                                   | 2019/10000 [02:02<09:04, 14.65it/s]
                                                                                                                                                  [A
 20%|████████████████████▉                                                                                   | 2019/10000 [02:02<09:04, 14.65it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[64620] loss: 0.044 


                                                                                                                                                  
 20%|████████████████████▉                                                                                   | 2019/10000 [02:02<09:04, 14.65it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 491.50it/s][A


[64640] loss: 0.131 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 656.08it/s][A

                                                                                                                                                  [A
 20%|████████████████████▉                                                                                   | 2019/10000 [02:03<09:04, 14.65it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[64660] loss: 0.098 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 550.96it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 511.38it/s][A
 20%|█████████████████████                                                                                   | 2021/10000 [02:03<09:18, 14.29it/s]
                                                                                                                                                  [A
 20%|█████████████████████                                                                                   | 2021/10000 [02:03<09:18, 14.29it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[64680] loss: 0.039 


                                                                                                                                                  
 20%|█████████████████████                                                                                   | 2021/10000 [02:03<09:18, 14.29it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 517.99it/s][A


[64700] loss: 0.043 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 686.80it/s][A

                                                                                                                                                  [A
 20%|█████████████████████                                                                                   | 2021/10000 [02:03<09:18, 14.29it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[64720] loss: 0.048 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 516.65it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 754.37it/s][A
 20%|█████████████████████                                                                                   | 2023/10000 [02:03<09:19, 14.26it/s]
                                                                                                                                                  [A
 20%|█████████████████████                                                                                   | 2023/10000 [02:03<09:19, 14.26it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[64740] loss: 0.060 


                                                                                                                                                  
 20%|█████████████████████                                                                                   | 2023/10000 [02:03<09:19, 14.26it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 432.01it/s][A


[64760] loss: 0.042 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 557.16it/s][A

                                                                                                                                                  [A
 20%|█████████████████████                                                                                   | 2023/10000 [02:03<09:19, 14.26it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[64780] loss: 0.037 


                                                                                                                                                  
 20%|█████████████████████                                                                                   | 2023/10000 [02:03<09:19, 14.26it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 467.25it/s][A


[64800] loss: 0.114 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 634.35it/s][A
 20%|█████████████████████                                                                                   | 2025/10000 [02:03<09:48, 13.55it/s]
                                                                                                                                                  [A
 20%|█████████████████████                                                                                   | 2025/10000 [02:03<09:48, 13.55it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[64820] loss: 0.071 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 574.26it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 694.08it/s][A

                                                                                                                                                  [A
 20%|█████████████████████                                                                                   | 2025/10000 [02:03<09:48, 13.55it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[64840] loss: 0.044 


                                                                                                                                                  
 20%|█████████████████████                                                                                   | 2025/10000 [02:03<09:48, 13.55it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 485.28it/s][A


[64860] loss: 0.043 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 820.00it/s][A
 20%|█████████████████████                                                                                   | 2027/10000 [02:03<09:39, 13.75it/s]
                                                                                                                                                  [A
 20%|█████████████████████                                                                                   | 2027/10000 [02:03<09:39, 13.75it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[64880] loss: 0.078 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 579.17it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 704.10it/s][A

                                                                                                                                                  [A
 20%|█████████████████████                                                                                   | 2027/10000 [02:03<09:39, 13.75it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[64900] loss: 0.052 


                                                                                                                                                  
 20%|█████████████████████                                                                                   | 2027/10000 [02:03<09:39, 13.75it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 515.82it/s][A


[64920] loss: 0.057 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1283.84it/s][A
 20%|█████████████████████                                                                                   | 2029/10000 [02:03<09:31, 13.96it/s]
                                                                                                                                                  [A
 20%|█████████████████████                                                                                   | 2029/10000 [02:03<09:31, 13.96it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[64940] loss: 0.048 


                                                                                                                                                  
 20%|█████████████████████                                                                                   | 2029/10000 [02:03<09:31, 13.96it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 600.74it/s][A


[64960] loss: 0.041 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1299.35it/s][A

                                                                                                                                                  [A
[A                                                                                                                                               

[64980] loss: 0.063 


 20%|█████████████████████                                                                                   | 2029/10000 [02:03<09:31, 13.96it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 765.45it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1921.35it/s][A
 20%|█████████████████████                                                                                   | 2031/10000 [02:03<08:57, 14.83it/s]
                                                                                                                                                  [A
 20%|█████████████████████                                                                                   | 2031/10000 [02:03<08:57, 14.83it/s]
Training Epoch:   0%|                                                                                       

[65000] loss: 0.063 


                                                                                                                                                  
 20%|█████████████████████                                                                                   | 2031/10000 [02:03<08:57, 14.83it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 675.66it/s][A


[65020] loss: 0.037 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1999.19it/s][A

                                                                                                                                                  [A
 20%|█████████████████████                                                                                   | 2031/10000 [02:03<08:57, 14.83it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 898.99it/s][A


[65040] loss: 0.054 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 810.18it/s][A
 20%|█████████████████████▏                                                                                  | 2033/10000 [02:03<08:16, 16.05it/s]
                                                                                                                                                  [A
 20%|█████████████████████▏                                                                                  | 2033/10000 [02:03<08:16, 16.05it/s]
                                                                                                                                                  [A
 20%|█████████████████████▏                                                                                  | 2033/10000 [02:03<08:16, 16.05it/s]
Training Epoch:   0%|                                                                                       

[65060] loss: 0.048 
[65080] loss: 0.081 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 771.88it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1416.99it/s][A

                                                                                                                                                  [A
 20%|█████████████████████▏                                                                                  | 2033/10000 [02:03<08:16, 16.05it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[65100] loss: 0.045 


                                                                                                                                                  
 20%|█████████████████████▏                                                                                  | 2033/10000 [02:03<08:16, 16.05it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 688.64it/s][A


[65120] loss: 0.094 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 326.48it/s][A
 20%|█████████████████████▏                                                                                  | 2035/10000 [02:03<07:56, 16.72it/s]
                                                                                                                                                  [A
 20%|█████████████████████▏                                                                                  | 2035/10000 [02:04<07:56, 16.72it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[65140] loss: 0.075 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 804.91it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 848.19it/s][A

                                                                                                                                                  [A
 20%|█████████████████████▏                                                                                  | 2035/10000 [02:04<07:56, 16.72it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[65160] loss: 0.075 


                                                                                                                                                  
 20%|█████████████████████▏                                                                                  | 2035/10000 [02:04<07:56, 16.72it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 628.61it/s][A


[65180] loss: 0.059 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1526.31it/s][A
 20%|█████████████████████▏                                                                                  | 2037/10000 [02:04<07:38, 17.38it/s]
                                                                                                                                                  [A
 20%|█████████████████████▏                                                                                  | 2037/10000 [02:04<07:38, 17.38it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 808.61it/s][A


[65200] loss: 0.049 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 648.47it/s][A

                                                                                                                                                  [A
 20%|█████████████████████▏                                                                                  | 2037/10000 [02:04<07:38, 17.38it/s]
                                                                                                                                                  [A
[A                                                                                                                                               

[65220] loss: 0.074 
[65240] loss: 0.050 


 20%|█████████████████████▏                                                                                  | 2037/10000 [02:04<07:38, 17.38it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 627.85it/s][A

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 916.59it/s][A
 20%|█████████████████████▏                                                                                  | 2039/10000 [02:04<07:29, 17.72it/s]
                                                                                                                                                  [A
 20%|█████████████████████▏                                                                                  | 2039/10000 [02:04<07:29, 17.72it/s]
                                                                                                            

[65260] loss: 0.063 
[65280] loss: 0.140 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 563.30it/s][A

                                                                                                                                                  [A
[A                                                                                                                                               

[65300] loss: 0.080 


 20%|█████████████████████▏                                                                                  | 2039/10000 [02:04<07:29, 17.72it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 817.53it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1035.63it/s][A
 20%|█████████████████████▏                                                                                  | 2041/10000 [02:04<07:14, 18.34it/s]
                                                                                                                                                  [A
 20%|█████████████████████▏                                                                                  | 2041/10000 [02:04<07:14, 18.34it/s]
                                                                                                            

[65320] loss: 0.032 
[65340] loss: 0.042 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1408.90it/s][A

                                                                                                                                                  [A
 20%|█████████████████████▏                                                                                  | 2041/10000 [02:04<07:14, 18.34it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 876.03it/s][A


[65360] loss: 0.064 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1079.89it/s][A
 20%|█████████████████████▏                                                                                  | 2043/10000 [02:04<07:03, 18.79it/s]
                                                                                                                                                  [A
 20%|█████████████████████▏                                                                                  | 2043/10000 [02:04<07:03, 18.79it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[65380] loss: 0.040 


                                                                                                                                                  
 20%|█████████████████████▏                                                                                  | 2043/10000 [02:04<07:03, 18.79it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 754.21it/s][A


[65400] loss: 0.085 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1074.36it/s][A

                                                                                                                                                  [A
 20%|█████████████████████▏                                                                                  | 2043/10000 [02:04<07:03, 18.79it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[65420] loss: 0.081 


                                                                                                                                                  
 20%|█████████████████████▏                                                                                  | 2043/10000 [02:04<07:03, 18.79it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 648.53it/s][A


[65440] loss: 0.042 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1043.62it/s][A
 20%|█████████████████████▎                                                                                  | 2045/10000 [02:04<07:09, 18.53it/s]
                                                                                                                                                  [A
 20%|█████████████████████▎                                                                                  | 2045/10000 [02:04<07:09, 18.53it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 851.15it/s][A


[65460] loss: 0.057 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1572.67it/s][A

                                                                                                                                                  [A
 20%|█████████████████████▎                                                                                  | 2045/10000 [02:04<07:09, 18.53it/s]


[65480] loss: 0.019 


                                                                                                                                                  [A
 20%|█████████████████████▎                                                                                  | 2045/10000 [02:04<07:09, 18.53it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[65500] loss: 0.089 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 649.77it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1055.44it/s][A
 20%|█████████████████████▎                                                                                  | 2047/10000 [02:04<07:06, 18.64it/s]
                                                                                                                                                  [A
 20%|█████████████████████▎                                                                                  | 2047/10000 [02:04<07:06, 18.64it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 747.99it/s][A


[65520] loss: 0.052 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 641.43it/s][A

                                                                                                                                                  [A
 20%|█████████████████████▎                                                                                  | 2047/10000 [02:04<07:06, 18.64it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[65540] loss: 0.071 


                                                                                                                                                  
 20%|█████████████████████▎                                                                                  | 2047/10000 [02:04<07:06, 18.64it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 706.59it/s][A


[65560] loss: 0.093 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1939.11it/s][A
 20%|█████████████████████▎                                                                                  | 2049/10000 [02:04<07:04, 18.71it/s]
                                                                                                                                                  [A
 20%|█████████████████████▎                                                                                  | 2049/10000 [02:04<07:04, 18.71it/s]
                                                                                                                                                  [A
 20%|█████████████████████▎                                                                                  | 2049/10000 [02:04<07:04, 18.71it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[65580] loss: 0.066 
[65600] loss: 0.061 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 981.12it/s][A

                                                                                                                                                  [A
 20%|█████████████████████▎                                                                                  | 2049/10000 [02:04<07:04, 18.71it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[65620] loss: 0.060 


Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 1014.03it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1087.17it/s][A

                                                                                                                                                  [A
 20%|█████████████████████▎                                                                                  | 2049/10000 [02:04<07:04, 18.71it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[65640] loss: 0.076 


                                                                                                                                                  
 20%|█████████████████████▎                                                                                  | 2049/10000 [02:04<07:04, 18.71it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 754.02it/s][A


[65660] loss: 0.048 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1512.55it/s][A
 21%|█████████████████████▎                                                                                  | 2052/10000 [02:04<06:48, 19.44it/s]
                                                                                                                                                  [A
 21%|█████████████████████▎                                                                                  | 2052/10000 [02:04<06:48, 19.44it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[65680] loss: 0.067 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 744.69it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1186.17it/s][A

                                                                                                                                                  [A
 21%|█████████████████████▎                                                                                  | 2052/10000 [02:04<06:48, 19.44it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[65700] loss: 0.033 


                                                                                                                                                  
 21%|█████████████████████▎                                                                                  | 2052/10000 [02:04<06:48, 19.44it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 629.54it/s][A


[65720] loss: 0.051 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1201.12it/s][A
 21%|█████████████████████▎                                                                                  | 2054/10000 [02:04<06:57, 19.05it/s]
                                                                                                                                                  [A
 21%|█████████████████████▎                                                                                  | 2054/10000 [02:04<06:57, 19.05it/s]
                                                                                                                                                  [A
 21%|█████████████████████▎                                                                                  | 2054/10000 [02:05<06:57, 19.05it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[65740] loss: 0.111 
[65760] loss: 0.017 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 319.91it/s][A

                                                                                                                                                  [A
 21%|█████████████████████▎                                                                                  | 2054/10000 [02:05<06:57, 19.05it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 635.53it/s][A


[65780] loss: 0.079 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 523.50it/s][A
 21%|█████████████████████▍                                                                                  | 2056/10000 [02:05<07:11, 18.40it/s]
                                                                                                                                                  [A
 21%|█████████████████████▍                                                                                  | 2056/10000 [02:05<07:11, 18.40it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[65800] loss: 0.041 


                                                                                                                                                  
 21%|█████████████████████▍                                                                                  | 2056/10000 [02:05<07:11, 18.40it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[65820] loss: 0.052 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 497.07it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 855.46it/s][A

                                                                                                                                                  [A
 21%|█████████████████████▍                                                                                  | 2056/10000 [02:05<07:11, 18.40it/s]


[65840] loss: 0.070 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 584.84it/s][A

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 901.23it/s][A
 21%|█████████████████████▍                                                                                  | 2058/10000 [02:05<07:43, 17.14it/s]
                                                                                                                                                  [A
 21%|█████████████████████▍                                                                                  | 2058/10000 [02:05<07:43, 17.14it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[65860] loss: 0.050 


                                                                                                                                                  
 21%|█████████████████████▍                                                                                  | 2058/10000 [02:05<07:43, 17.14it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 515.10it/s][A


[65880] loss: 0.050 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 876.74it/s][A

                                                                                                                                                  [A
 21%|█████████████████████▍                                                                                  | 2058/10000 [02:05<07:43, 17.14it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[65900] loss: 0.049 


                                                                                                                                                  
 21%|█████████████████████▍                                                                                  | 2058/10000 [02:05<07:43, 17.14it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 567.04it/s][A


[65920] loss: 0.026 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 684.23it/s][A
 21%|█████████████████████▍                                                                                  | 2060/10000 [02:05<08:10, 16.19it/s]
                                                                                                                                                  [A
 21%|█████████████████████▍                                                                                  | 2060/10000 [02:05<08:10, 16.19it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 615.02it/s][A


[65940] loss: 0.037 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 583.92it/s][A

                                                                                                                                                  [A
 21%|█████████████████████▍                                                                                  | 2060/10000 [02:05<08:10, 16.19it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[65960] loss: 0.070 


                                                                                                                                                  
 21%|█████████████████████▍                                                                                  | 2060/10000 [02:05<08:10, 16.19it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 492.24it/s][A


[65980] loss: 0.047 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 759.29it/s][A
 21%|█████████████████████▍                                                                                  | 2062/10000 [02:05<08:25, 15.71it/s]
                                                                                                                                                  [A
 21%|█████████████████████▍                                                                                  | 2062/10000 [02:05<08:25, 15.71it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[66000] loss: 0.054 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 524.11it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 723.16it/s][A

                                                                                                                                                  [A
 21%|█████████████████████▍                                                                                  | 2062/10000 [02:05<08:25, 15.71it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[66020] loss: 0.052 


                                                                                                                                                  
 21%|█████████████████████▍                                                                                  | 2062/10000 [02:05<08:25, 15.71it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 462.46it/s][A

[66040] loss: 0.050 




Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 818.72it/s][A
 21%|█████████████████████▍                                                                                  | 2064/10000 [02:05<08:53, 14.89it/s]
                                                                                                                                                  [A
 21%|█████████████████████▍                                                                                  | 2064/10000 [02:05<08:53, 14.89it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[66060] loss: 0.046 


                                                                                                                                                  
 21%|█████████████████████▍                                                                                  | 2064/10000 [02:05<08:53, 14.89it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 445.01it/s][A


[66080] loss: 0.048 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 721.91it/s][A

                                                                                                                                                  [A
 21%|█████████████████████▍                                                                                  | 2064/10000 [02:05<08:53, 14.89it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[66100] loss: 0.076 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 530.48it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 838.53it/s][A
 21%|█████████████████████▍                                                                                  | 2066/10000 [02:05<09:14, 14.31it/s]
                                                                                                                                                  [A
 21%|█████████████████████▍                                                                                  | 2066/10000 [02:05<09:14, 14.31it/s]
                                                                                                                                                  [A
 21%|█████████████████████▍                                                                                 

[66120] loss: 0.053 
[66140] loss: 0.093 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 692.47it/s][A

                                                                                                                                                  [A
 21%|█████████████████████▍                                                                                  | 2066/10000 [02:05<09:14, 14.31it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[66160] loss: 0.041 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 520.72it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 578.37it/s][A
 21%|█████████████████████▌                                                                                  | 2068/10000 [02:05<09:19, 14.18it/s]
                                                                                                                                                  [A
 21%|█████████████████████▌                                                                                  | 2068/10000 [02:05<09:19, 14.18it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[66180] loss: 0.048 


                                                                                                                                                  
 21%|█████████████████████▌                                                                                  | 2068/10000 [02:06<09:19, 14.18it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 445.44it/s][A


[66200] loss: 0.069 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 934.98it/s][A

                                                                                                                                                  [A
 21%|█████████████████████▌                                                                                  | 2068/10000 [02:06<09:19, 14.18it/s]
                                                                                                                                                  [A
 21%|█████████████████████▌                                                                                  | 2068/10000 [02:06<09:19, 14.18it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 498.73it/s][A


[66220] loss: 0.041 
[66240] loss: 0.017 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 639.08it/s][A
 21%|█████████████████████▌                                                                                  | 2070/10000 [02:06<09:35, 13.77it/s]
                                                                                                                                                  [A
 21%|█████████████████████▌                                                                                  | 2070/10000 [02:06<09:35, 13.77it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 584.30it/s][A


[66260] loss: 0.067 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 546.42it/s][A

                                                                                                                                                  [A
 21%|█████████████████████▌                                                                                  | 2070/10000 [02:06<09:35, 13.77it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[66280] loss: 0.036 


                                                                                                                                                  
 21%|█████████████████████▌                                                                                  | 2070/10000 [02:06<09:35, 13.77it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 562.58it/s][A


[66300] loss: 0.059 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 941.69it/s][A
 21%|█████████████████████▌                                                                                  | 2072/10000 [02:06<09:16, 14.24it/s]
                                                                                                                                                  [A
 21%|█████████████████████▌                                                                                  | 2072/10000 [02:06<09:16, 14.24it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[66320] loss: 0.066 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 884.93it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1305.01it/s][A

                                                                                                                                                  [A
 21%|█████████████████████▌                                                                                  | 2072/10000 [02:06<09:16, 14.24it/s]
                                                                                                                                                  [A
 21%|█████████████████████▌                                                                                  | 2072/10000 [02:06<09:16, 14.24it/s]
Training Epoch: 100%|██████████████████████████████████████████████████████████████████████████████████████

[66340] loss: 0.036 
[66360] loss: 0.062 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1974.72it/s][A

                                                                                                                                                  [A
 21%|█████████████████████▌                                                                                  | 2072/10000 [02:06<09:16, 14.24it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[66380] loss: 0.039 


                                                                                                                                                  
 21%|█████████████████████▌                                                                                  | 2072/10000 [02:06<09:16, 14.24it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 744.06it/s][A


[66400] loss: 0.076 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2128.01it/s][A
 21%|█████████████████████▌                                                                                  | 2075/10000 [02:06<08:04, 16.35it/s]
                                                                                                                                                  [A
 21%|█████████████████████▌                                                                                  | 2075/10000 [02:06<08:04, 16.35it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 965.80it/s][A


[66420] loss: 0.045 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 616.18it/s][A

                                                                                                                                                  [A
 21%|█████████████████████▌                                                                                  | 2075/10000 [02:06<08:04, 16.35it/s]
                                                                                                                                                  [A
                                                                                                                                                  

[66440] loss: 0.052 


 21%|█████████████████████▌                                                                                  | 2075/10000 [02:06<08:04, 16.35it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 739.37it/s][A


[66460] loss: 0.064 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2124.77it/s][A

                                                                                                                                                  [A
 21%|█████████████████████▌                                                                                  | 2075/10000 [02:06<08:04, 16.35it/s]

[66480] loss: 0.045 



Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 933.98it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1675.71it/s][A
 21%|█████████████████████▌                                                                                  | 2078/10000 [02:06<07:20, 18.00it/s]
                                                                                                                                                  [A
 21%|█████████████████████▌                                                                                  | 2078/10000 [02:06<07:20, 18.00it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[66500] loss: 0.034 


                                                                                                                                                  
 21%|█████████████████████▌                                                                                  | 2078/10000 [02:06<07:20, 18.00it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 774.90it/s][A


[66520] loss: 0.062 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 701.15it/s][A

                                                                                                                                                  [A
 21%|█████████████████████▌                                                                                  | 2078/10000 [02:06<07:20, 18.00it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[66540] loss: 0.047 


                                                                                                                                                  
 21%|█████████████████████▌                                                                                  | 2078/10000 [02:06<07:20, 18.00it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 652.19it/s][A


[66560] loss: 0.033 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1481.04it/s][A
 21%|█████████████████████▋                                                                                  | 2080/10000 [02:06<07:17, 18.11it/s]
                                                                                                                                                  [A
 21%|█████████████████████▋                                                                                  | 2080/10000 [02:06<07:17, 18.11it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[66580] loss: 0.061 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 752.04it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1313.18it/s][A

                                                                                                                                                  [A
 21%|█████████████████████▋                                                                                  | 2080/10000 [02:06<07:17, 18.11it/s]

[66600] loss: 0.040 



                                                                                                                                                  [A
 21%|█████████████████████▋                                                                                  | 2080/10000 [02:06<07:17, 18.11it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 726.42it/s][A


[66620] loss: 0.091 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 896.03it/s][A
 21%|█████████████████████▋                                                                                  | 2082/10000 [02:06<07:10, 18.40it/s]
                                                                                                                                                  [A
 21%|█████████████████████▋                                                                                  | 2082/10000 [02:06<07:10, 18.40it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 813.97it/s][A


[66640] loss: 0.063 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1247.19it/s][A

                                                                                                                                                  [A
 21%|█████████████████████▋                                                                                  | 2082/10000 [02:06<07:10, 18.40it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[66660] loss: 0.068 


                                                                                                                                                  
 21%|█████████████████████▋                                                                                  | 2082/10000 [02:06<07:10, 18.40it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[66680] loss: 0.064 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 781.84it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1447.81it/s][A

                                                                                                                                                  [A
 21%|█████████████████████▋                                                                                  | 2082/10000 [02:06<07:10, 18.40it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[66700] loss: 0.039 


                                                                                                                                                  
 21%|█████████████████████▋                                                                                  | 2082/10000 [02:06<07:10, 18.40it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 679.08it/s][A


[66720] loss: 0.041 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 394.61it/s][A
 21%|█████████████████████▋                                                                                  | 2085/10000 [02:06<06:57, 18.96it/s]
                                                                                                                                                  [A
 21%|█████████████████████▋                                                                                  | 2085/10000 [02:06<06:57, 18.96it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[66740] loss: 0.091 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 669.03it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1288.97it/s][A

                                                                                                                                                  [A
 21%|█████████████████████▋                                                                                  | 2085/10000 [02:06<06:57, 18.96it/s]
                                                                                                                                                  [A
 21%|█████████████████████▋                                                                                  | 2085/10000 [02:06<06:57, 18.96it/s]
Training Epoch:   0%|                                                                                      

[66760] loss: 0.033 
[66780] loss: 0.028 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 607.58it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1337.47it/s][A
 21%|█████████████████████▋                                                                                  | 2087/10000 [02:06<07:14, 18.20it/s]
                                                                                                                                                  [A
 21%|█████████████████████▋                                                                                  | 2087/10000 [02:07<07:14, 18.20it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[66800] loss: 0.056 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 681.35it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1148.81it/s][A

                                                                                                                                                  [A
 21%|█████████████████████▋                                                                                  | 2087/10000 [02:07<07:14, 18.20it/s]
                                                                                                                                                  [A
 21%|█████████████████████▋                                                                                  | 2087/10000 [02:07<07:14, 18.20it/s]
Training Epoch:   0%|                                                                                      

[66820] loss: 0.029 
[66840] loss: 0.030 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 615.92it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 950.01it/s][A
 21%|█████████████████████▋                                                                                  | 2089/10000 [02:07<07:25, 17.75it/s]
                                                                                                                                                  [A
 21%|█████████████████████▋                                                                                  | 2089/10000 [02:07<07:25, 17.75it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[66860] loss: 0.078 


                                                                                                                                                  
 21%|█████████████████████▋                                                                                  | 2089/10000 [02:07<07:25, 17.75it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 644.62it/s][A


[66880] loss: 0.021 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1039.48it/s][A

                                                                                                                                                  [A
 21%|█████████████████████▋                                                                                  | 2089/10000 [02:07<07:25, 17.75it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 798.82it/s][A


[66900] loss: 0.068 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2040.03it/s][A
 21%|█████████████████████▋                                                                                  | 2091/10000 [02:07<07:17, 18.08it/s]
                                                                                                                                                  [A
 21%|█████████████████████▋                                                                                  | 2091/10000 [02:07<07:17, 18.08it/s]
                                                                                                                                                  [A
 21%|█████████████████████▋                                                                                  | 2091/10000 [02:07<07:17, 18.08it/s]
Training Epoch:   0%|                                                                                       

[66920] loss: 0.054 
[66940] loss: 0.060 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 702.88it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1304.20it/s][A

                                                                                                                                                  [A
 21%|█████████████████████▋                                                                                  | 2091/10000 [02:07<07:17, 18.08it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 728.20it/s][A


[66960] loss: 0.059 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1008.97it/s][A
 21%|█████████████████████▊                                                                                  | 2093/10000 [02:07<07:14, 18.20it/s]
                                                                                                                                                  [A
 21%|█████████████████████▊                                                                                  | 2093/10000 [02:07<07:14, 18.20it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[66980] loss: 0.074 


                                                                                                                                                  
 21%|█████████████████████▊                                                                                  | 2093/10000 [02:07<07:14, 18.20it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 481.51it/s][A


[67000] loss: 0.075 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 945.30it/s][A

                                                                                                                                                  [A
 21%|█████████████████████▊                                                                                  | 2093/10000 [02:07<07:14, 18.20it/s]
                                                                                                                                                  [A
 21%|█████████████████████▊                                                                                  | 2093/10000 [02:07<07:14, 18.20it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 484.89it/s][A


[67020] loss: 0.046 
[67040] loss: 0.037 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 751.26it/s][A
 21%|█████████████████████▊                                                                                  | 2095/10000 [02:07<08:01, 16.40it/s]
                                                                                                                                                  [A
 21%|█████████████████████▊                                                                                  | 2095/10000 [02:07<08:01, 16.40it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 600.01it/s][A


[67060] loss: 0.049 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 628.74it/s][A

                                                                                                                                                  [A
 21%|█████████████████████▊                                                                                  | 2095/10000 [02:07<08:01, 16.40it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[67080] loss: 0.037 


                                                                                                                                                  
 21%|█████████████████████▊                                                                                  | 2095/10000 [02:07<08:01, 16.40it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 488.57it/s][A


[67100] loss: 0.061 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 550.22it/s][A
 21%|█████████████████████▊                                                                                  | 2097/10000 [02:07<08:19, 15.82it/s]
                                                                                                                                                  [A
 21%|█████████████████████▊                                                                                  | 2097/10000 [02:07<08:19, 15.82it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 540.63it/s][A


[67120] loss: 0.060 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 963.76it/s][A

                                                                                                                                                  [A
 21%|█████████████████████▊                                                                                  | 2097/10000 [02:07<08:19, 15.82it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[67140] loss: 0.065 


                                                                                                                                                  
 21%|█████████████████████▊                                                                                  | 2097/10000 [02:07<08:19, 15.82it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 517.58it/s][A


[67160] loss: 0.056 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 727.67it/s][A
 21%|█████████████████████▊                                                                                  | 2099/10000 [02:07<08:39, 15.22it/s]
                                                                                                                                                  [A
 21%|█████████████████████▊                                                                                  | 2099/10000 [02:07<08:39, 15.22it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[67180] loss: 0.044 


                                                                                                                                                  
 21%|█████████████████████▊                                                                                  | 2099/10000 [02:07<08:39, 15.22it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 487.19it/s][A


[67200] loss: 0.117 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 464.23it/s][A

                                                                                                                                                  [A
 21%|█████████████████████▊                                                                                  | 2099/10000 [02:07<08:39, 15.22it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 590.37it/s][A


[67220] loss: 0.065 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1076.57it/s][A
 21%|█████████████████████▊                                                                                  | 2101/10000 [02:07<08:49, 14.90it/s]
                                                                                                                                                  [A
 21%|█████████████████████▊                                                                                  | 2101/10000 [02:07<08:49, 14.90it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[67240] loss: 0.064 


                                                                                                                                                  
 21%|█████████████████████▊                                                                                  | 2101/10000 [02:07<08:49, 14.90it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 507.57it/s][A


[67260] loss: 0.065 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 583.84it/s][A

                                                                                                                                                  [A
 21%|█████████████████████▊                                                                                  | 2101/10000 [02:08<08:49, 14.90it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[67280] loss: 0.074 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 561.49it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 618.26it/s][A
 21%|█████████████████████▊                                                                                  | 2103/10000 [02:08<08:57, 14.68it/s]
                                                                                                                                                  [A
 21%|█████████████████████▊                                                                                  | 2103/10000 [02:08<08:57, 14.68it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[67300] loss: 0.031 


                                                                                                                                                  
 21%|█████████████████████▊                                                                                  | 2103/10000 [02:08<08:57, 14.68it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 527.44it/s][A


[67320] loss: 0.091 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 573.54it/s][A

                                                                                                                                                  [A
 21%|█████████████████████▊                                                                                  | 2103/10000 [02:08<08:57, 14.68it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[67340] loss: 0.061 


                                                                                                                                                  
 21%|█████████████████████▊                                                                                  | 2103/10000 [02:08<08:57, 14.68it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 501.84it/s][A


[67360] loss: 0.131 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 733.01it/s][A
 21%|█████████████████████▉                                                                                  | 2105/10000 [02:08<09:08, 14.38it/s]
                                                                                                                                                  [A
 21%|█████████████████████▉                                                                                  | 2105/10000 [02:08<09:08, 14.38it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 563.23it/s][A


[67380] loss: 0.081 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 554.22it/s][A

                                                                                                                                                  [A
 21%|█████████████████████▉                                                                                  | 2105/10000 [02:08<09:08, 14.38it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[67400] loss: 0.080 


                                                                                                                                                  
 21%|█████████████████████▉                                                                                  | 2105/10000 [02:08<09:08, 14.38it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 449.20it/s][A


[67420] loss: 0.100 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 388.33it/s][A
 21%|█████████████████████▉                                                                                  | 2107/10000 [02:08<09:25, 13.97it/s]
                                                                                                                                                  [A
 21%|█████████████████████▉                                                                                  | 2107/10000 [02:08<09:25, 13.97it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[67440] loss: 0.071 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 587.53it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 609.19it/s][A

                                                                                                                                                  [A
 21%|█████████████████████▉                                                                                  | 2107/10000 [02:08<09:25, 13.97it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[67460] loss: 0.035 


                                                                                                                                                  
 21%|█████████████████████▉                                                                                  | 2107/10000 [02:08<09:25, 13.97it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 644.35it/s][A


[67480] loss: 0.079 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1373.38it/s][A
 21%|█████████████████████▉                                                                                  | 2109/10000 [02:08<09:06, 14.45it/s]
                                                                                                                                                  [A
 21%|█████████████████████▉                                                                                  | 2109/10000 [02:08<09:06, 14.45it/s]
                                                                                                                                                  [A
 21%|█████████████████████▉                                                                                  | 2109/10000 [02:08<09:06, 14.45it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[67500] loss: 0.048 
[67520] loss: 0.022 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 614.64it/s][A

                                                                                                                                                  [A
 21%|█████████████████████▉                                                                                  | 2109/10000 [02:08<09:06, 14.45it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 851.57it/s][A


[67540] loss: 0.051 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 683.78it/s][A
 21%|█████████████████████▉                                                                                  | 2111/10000 [02:08<08:23, 15.65it/s]
                                                                                                                                                  [A
 21%|█████████████████████▉                                                                                  | 2111/10000 [02:08<08:23, 15.65it/s]
                                                                                                                                                  [A
 21%|█████████████████████▉                                                                                  | 2111/10000 [02:08<08:23, 15.65it/s]
Training Epoch:   0%|                                                                                       

[67560] loss: 0.050 
[67580] loss: 0.067 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 656.75it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1478.95it/s][A

                                                                                                                                                  [A
 21%|█████████████████████▉                                                                                  | 2111/10000 [02:08<08:23, 15.65it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[67600] loss: 0.081 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 788.29it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1363.11it/s][A
 21%|█████████████████████▉                                                                                  | 2113/10000 [02:08<07:59, 16.45it/s]
                                                                                                                                                  [A
 21%|█████████████████████▉                                                                                  | 2113/10000 [02:08<07:59, 16.45it/s]
                                                                                                                                                  [A
 21%|█████████████████████▉                                                                                 

[67620] loss: 0.067 
[67640] loss: 0.056 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 747.51it/s][A

                                                                                                                                                  [A
 21%|█████████████████████▉                                                                                  | 2113/10000 [02:08<07:59, 16.45it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[67660] loss: 0.050 


                                                                                                                                                  
 21%|█████████████████████▉                                                                                  | 2113/10000 [02:08<07:59, 16.45it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 624.67it/s][A


[67680] loss: 0.071 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1467.57it/s][A
 21%|█████████████████████▉                                                                                  | 2115/10000 [02:08<08:00, 16.39it/s]
                                                                                                                                                  [A
 21%|█████████████████████▉                                                                                  | 2115/10000 [02:08<08:00, 16.39it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 732.48it/s][A


[67700] loss: 0.087 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2597.09it/s][A

                                                                                                                                                  [A
 21%|█████████████████████▉                                                                                  | 2115/10000 [02:08<08:00, 16.39it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[67720] loss: 0.038 


                                                                                                                                                  
 21%|█████████████████████▉                                                                                  | 2115/10000 [02:08<08:00, 16.39it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 559.25it/s][A


[67740] loss: 0.092 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1093.98it/s][A
 21%|██████████████████████                                                                                  | 2117/10000 [02:08<07:59, 16.45it/s]
                                                                                                                                                  [A
 21%|██████████████████████                                                                                  | 2117/10000 [02:08<07:59, 16.45it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[67760] loss: 0.063 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 731.40it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1352.13it/s][A

                                                                                                                                                  [A
 21%|██████████████████████                                                                                  | 2117/10000 [02:08<07:59, 16.45it/s]


[67780] loss: 0.040 


                                                                                                                                                  [A
 21%|██████████████████████                                                                                  | 2117/10000 [02:09<07:59, 16.45it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[67800] loss: 0.065 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 608.13it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1375.18it/s][A
 21%|██████████████████████                                                                                  | 2119/10000 [02:09<07:55, 16.59it/s]
                                                                                                                                                  [A
 21%|██████████████████████                                                                                  | 2119/10000 [02:09<07:55, 16.59it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[67820] loss: 0.046 


                                                                                                                                                  
 21%|██████████████████████                                                                                  | 2119/10000 [02:09<07:55, 16.59it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 662.49it/s][A


[67840] loss: 0.061 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1391.61it/s][A

                                                                                                                                                  [A
 21%|██████████████████████                                                                                  | 2119/10000 [02:09<07:55, 16.59it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 744.15it/s][A


[67860] loss: 0.067 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1639.04it/s][A
 21%|██████████████████████                                                                                  | 2121/10000 [02:09<07:44, 16.96it/s]
                                                                                                                                                  [A
 21%|██████████████████████                                                                                  | 2121/10000 [02:09<07:44, 16.96it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[67880] loss: 0.058 


                                                                                                                                                  
 21%|██████████████████████                                                                                  | 2121/10000 [02:09<07:44, 16.96it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 615.64it/s][A


[67900] loss: 0.072 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 726.92it/s][A

                                                                                                                                                  [A
 21%|██████████████████████                                                                                  | 2121/10000 [02:09<07:44, 16.96it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 755.14it/s][A


[67920] loss: 0.044 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2125.85it/s][A
 21%|██████████████████████                                                                                  | 2123/10000 [02:09<07:36, 17.27it/s]
                                                                                                                                                  [A
 21%|██████████████████████                                                                                  | 2123/10000 [02:09<07:36, 17.27it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[67940] loss: 0.066 


                                                                                                                                                  
 21%|██████████████████████                                                                                  | 2123/10000 [02:09<07:36, 17.27it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 636.01it/s][A


[67960] loss: 0.045 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1387.46it/s][A

                                                                                                                                                  [A
 21%|██████████████████████                                                                                  | 2123/10000 [02:09<07:36, 17.27it/s]
                                                                                                                                                  [A
[A                                                                                                                                               

[67980] loss: 0.065 


 21%|██████████████████████                                                                                  | 2123/10000 [02:09<07:36, 17.27it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 675.87it/s][A


[68000] loss: 0.118 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1499.04it/s][A
 21%|██████████████████████                                                                                  | 2125/10000 [02:09<07:35, 17.30it/s]
                                                                                                                                                  [A
 21%|██████████████████████                                                                                  | 2125/10000 [02:09<07:35, 17.30it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 761.29it/s][A


[68020] loss: 0.085 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 719.56it/s][A

                                                                                                                                                  [A
 21%|██████████████████████                                                                                  | 2125/10000 [02:09<07:35, 17.30it/s]
                                                                                                                                                  [A


[68040] loss: 0.036 


 21%|██████████████████████                                                                                  | 2125/10000 [02:09<07:35, 17.30it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 599.18it/s][A


[68060] loss: 0.046 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1538.63it/s][A
 21%|██████████████████████                                                                                  | 2127/10000 [02:09<07:31, 17.43it/s]
                                                                                                                                                  [A
 21%|██████████████████████                                                                                  | 2127/10000 [02:09<07:31, 17.43it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 670.96it/s][A


[68080] loss: 0.066 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 995.56it/s][A

                                                                                                                                                  [A
 21%|██████████████████████                                                                                  | 2127/10000 [02:09<07:31, 17.43it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[68100] loss: 0.051 


                                                                                                                                                  
 21%|██████████████████████                                                                                  | 2127/10000 [02:09<07:31, 17.43it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[68120] loss: 0.028 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 492.56it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 774.29it/s][A
 21%|██████████████████████▏                                                                                 | 2129/10000 [02:09<07:50, 16.72it/s]
                                                                                                                                                  [A
 21%|██████████████████████▏                                                                                 | 2129/10000 [02:09<07:50, 16.72it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[68140] loss: 0.049 


                                                                                                                                                  
 21%|██████████████████████▏                                                                                 | 2129/10000 [02:09<07:50, 16.72it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 509.03it/s][A


[68160] loss: 0.117 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 522.33it/s][A

                                                                                                                                                  [A
 21%|██████████████████████▏                                                                                 | 2129/10000 [02:09<07:50, 16.72it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 595.94it/s][A


[68180] loss: 0.060 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 578.37it/s][A
 21%|██████████████████████▏                                                                                 | 2131/10000 [02:09<08:12, 15.96it/s]
                                                                                                                                                  [A
 21%|██████████████████████▏                                                                                 | 2131/10000 [02:09<08:12, 15.96it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[68200] loss: 0.066 


                                                                                                                                                  
 21%|██████████████████████▏                                                                                 | 2131/10000 [02:09<08:12, 15.96it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 494.47it/s][A


[68220] loss: 0.048 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1177.51it/s][A

                                                                                                                                                  [A
 21%|██████████████████████▏                                                                                 | 2131/10000 [02:09<08:12, 15.96it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[68240] loss: 0.048 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 578.07it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 940.85it/s][A
 21%|██████████████████████▏                                                                                 | 2133/10000 [02:09<08:30, 15.42it/s]
                                                                                                                                                  [A
 21%|██████████████████████▏                                                                                 | 2133/10000 [02:09<08:30, 15.42it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[68260] loss: 0.066 


                                                                                                                                                  
 21%|██████████████████████▏                                                                                 | 2133/10000 [02:09<08:30, 15.42it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 481.82it/s][A


[68280] loss: 0.100 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 545.57it/s][A

                                                                                                                                                  [A
 21%|██████████████████████▏                                                                                 | 2133/10000 [02:09<08:30, 15.42it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[68300] loss: 0.042 


                                                                                                                                                  
 21%|██████████████████████▏                                                                                 | 2133/10000 [02:10<08:30, 15.42it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 534.61it/s][A


[68320] loss: 0.067 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 675.30it/s][A
 21%|██████████████████████▏                                                                                 | 2135/10000 [02:10<08:47, 14.91it/s]
                                                                                                                                                  [A
 21%|██████████████████████▏                                                                                 | 2135/10000 [02:10<08:47, 14.91it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 618.14it/s][A


[68340] loss: 0.052 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 474.42it/s][A

                                                                                                                                                  [A
 21%|██████████████████████▏                                                                                 | 2135/10000 [02:10<08:47, 14.91it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[68360] loss: 0.039 


                                                                                                                                                  
 21%|██████████████████████▏                                                                                 | 2135/10000 [02:10<08:47, 14.91it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 528.73it/s][A


[68380] loss: 0.084 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 568.72it/s][A
 21%|██████████████████████▏                                                                                 | 2137/10000 [02:10<08:46, 14.94it/s]
                                                                                                                                                  [A
 21%|██████████████████████▏                                                                                 | 2137/10000 [02:10<08:46, 14.94it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[68400] loss: 0.093 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 582.02it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 926.71it/s][A

                                                                                                                                                  [A
 21%|██████████████████████▏                                                                                 | 2137/10000 [02:10<08:46, 14.94it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[68420] loss: 0.069 


                                                                                                                                                  
 21%|██████████████████████▏                                                                                 | 2137/10000 [02:10<08:46, 14.94it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 489.82it/s][A


[68440] loss: 0.086 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 933.73it/s][A
 21%|██████████████████████▏                                                                                 | 2139/10000 [02:10<08:52, 14.76it/s]
                                                                                                                                                  [A
 21%|██████████████████████▏                                                                                 | 2139/10000 [02:10<08:52, 14.76it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[68460] loss: 0.065 


                                                                                                                                                  
 21%|██████████████████████▏                                                                                 | 2139/10000 [02:10<08:52, 14.76it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 503.74it/s][A


[68480] loss: 0.028 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 788.11it/s][A

                                                                                                                                                  [A
 21%|██████████████████████▏                                                                                 | 2139/10000 [02:10<08:52, 14.76it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 560.01it/s][A


[68500] loss: 0.060 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 426.81it/s][A
 21%|██████████████████████▎                                                                                 | 2141/10000 [02:10<09:00, 14.53it/s]
                                                                                                                                                  [A
 21%|██████████████████████▎                                                                                 | 2141/10000 [02:10<09:00, 14.53it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[68520] loss: 0.076 


                                                                                                                                                  
 21%|██████████████████████▎                                                                                 | 2141/10000 [02:10<09:00, 14.53it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 487.46it/s][A


[68540] loss: 0.063 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 808.77it/s][A

                                                                                                                                                  [A
 21%|██████████████████████▎                                                                                 | 2141/10000 [02:10<09:00, 14.53it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[68560] loss: 0.037 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 584.45it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 692.02it/s][A
 21%|██████████████████████▎                                                                                 | 2143/10000 [02:10<09:04, 14.43it/s]
                                                                                                                                                  [A
 21%|██████████████████████▎                                                                                 | 2143/10000 [02:10<09:04, 14.43it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[68580] loss: 0.051 


                                                                                                                                                  
 21%|██████████████████████▎                                                                                 | 2143/10000 [02:10<09:04, 14.43it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 470.32it/s][A


[68600] loss: 0.041 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 418.93it/s][A

                                                                                                                                                  [A
 21%|██████████████████████▎                                                                                 | 2143/10000 [02:10<09:04, 14.43it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[68620] loss: 0.053 


                                                                                                                                                  
 21%|██████████████████████▎                                                                                 | 2143/10000 [02:10<09:04, 14.43it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 542.50it/s][A


[68640] loss: 0.026 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1290.56it/s][A
 21%|██████████████████████▎                                                                                 | 2145/10000 [02:10<09:14, 14.17it/s]
                                                                                                                                                  [A
 21%|██████████████████████▎                                                                                 | 2145/10000 [02:10<09:14, 14.17it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 797.81it/s][A


[68660] loss: 0.053 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1587.55it/s][A

                                                                                                                                                  [A
 21%|██████████████████████▎                                                                                 | 2145/10000 [02:10<09:14, 14.17it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[68680] loss: 0.055 


                                                                                                                                                  
 21%|██████████████████████▎                                                                                 | 2145/10000 [02:10<09:14, 14.17it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 634.09it/s][A


[68700] loss: 0.046 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1400.44it/s][A
 21%|██████████████████████▎                                                                                 | 2147/10000 [02:10<08:31, 15.36it/s]
                                                                                                                                                  [A
 21%|██████████████████████▎                                                                                 | 2147/10000 [02:10<08:31, 15.36it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 710.15it/s][A


[68720] loss: 0.047 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 959.14it/s][A

                                                                                                                                                  [A
 21%|██████████████████████▎                                                                                 | 2147/10000 [02:10<08:31, 15.36it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[68740] loss: 0.041 


                                                                                                                                                  
 21%|██████████████████████▎                                                                                 | 2147/10000 [02:10<08:31, 15.36it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 651.26it/s][A


[68760] loss: 0.070 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 843.75it/s][A
 21%|██████████████████████▎                                                                                 | 2149/10000 [02:10<08:08, 16.06it/s]
                                                                                                                                                  [A
 21%|██████████████████████▎                                                                                 | 2149/10000 [02:10<08:08, 16.06it/s]
                                                                                                                                                  [A

[68780] loss: 0.049 



 21%|██████████████████████▎                                                                                 | 2149/10000 [02:11<08:08, 16.06it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 665.43it/s][A


[68800] loss: 0.077 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 814.74it/s][A

                                                                                                                                                  [A
 21%|██████████████████████▎                                                                                 | 2149/10000 [02:11<08:08, 16.06it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 727.65it/s][A


[68820] loss: 0.079 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 850.94it/s][A
 22%|██████████████████████▎                                                                                 | 2151/10000 [02:11<07:48, 16.76it/s]
                                                                                                                                                  [A
 22%|██████████████████████▎                                                                                 | 2151/10000 [02:11<07:48, 16.76it/s]
                                                                                                                                                  [A
 22%|██████████████████████▎                                                                                 | 2151/10000 [02:11<07:48, 16.76it/s]
Training Epoch:   0%|                                                                                       

[68840] loss: 0.042 
[68860] loss: 0.086 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 672.59it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1134.82it/s][A

                                                                                                                                                  [A
 22%|██████████████████████▎                                                                                 | 2151/10000 [02:11<07:48, 16.76it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 757.96it/s][A


[68880] loss: 0.051 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1429.06it/s][A
 22%|██████████████████████▍                                                                                 | 2153/10000 [02:11<07:34, 17.25it/s]
                                                                                                                                                  [A
 22%|██████████████████████▍                                                                                 | 2153/10000 [02:11<07:34, 17.25it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[68900] loss: 0.065 


                                                                                                                                                  
 22%|██████████████████████▍                                                                                 | 2153/10000 [02:11<07:34, 17.25it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 662.67it/s][A


[68920] loss: 0.064 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 901.42it/s][A

                                                                                                                                                  [A
 22%|██████████████████████▍                                                                                 | 2153/10000 [02:11<07:34, 17.25it/s]
                                                                                                                                                  [A
 22%|██████████████████████▍                                                                                 | 2153/10000 [02:11<07:34, 17.25it/s]


[68940] loss: 0.041 
[68960] loss: 0.086 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 632.46it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1598.44it/s][A
 22%|██████████████████████▍                                                                                 | 2155/10000 [02:11<07:35, 17.23it/s]
                                                                                                                                                  [A
 22%|██████████████████████▍                                                                                 | 2155/10000 [02:11<07:35, 17.23it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 803.75it/s][A


[68980] loss: 0.095 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2020.38it/s][A

                                                                                                                                                  [A
 22%|██████████████████████▍                                                                                 | 2155/10000 [02:11<07:35, 17.23it/s]
                                                                                                                                                  [A
 22%|██████████████████████▍                                                                                 | 2155/10000 [02:11<07:35, 17.23it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[69000] loss: 0.046 
[69020] loss: 0.059 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 643.70it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 942.75it/s][A
 22%|██████████████████████▍                                                                                 | 2157/10000 [02:11<07:22, 17.71it/s]
                                                                                                                                                  [A
 22%|██████████████████████▍                                                                                 | 2157/10000 [02:11<07:22, 17.71it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 765.10it/s][A


[69040] loss: 0.024 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1951.75it/s][A

                                                                                                                                                  [A
 22%|██████████████████████▍                                                                                 | 2157/10000 [02:11<07:22, 17.71it/s]
                                                                                                                                                  [A
 22%|██████████████████████▍                                                                                 | 2157/10000 [02:11<07:22, 17.71it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 638.04it/s][A


[69060] loss: 0.047 
[69080] loss: 0.045 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 766.36it/s][A
 22%|██████████████████████▍                                                                                 | 2159/10000 [02:11<07:19, 17.85it/s]
                                                                                                                                                  [A
 22%|██████████████████████▍                                                                                 | 2159/10000 [02:11<07:19, 17.85it/s]
                                                                                                                                                  [A
                                                                                                                                                  

[69100] loss: 0.049 


 22%|██████████████████████▍                                                                                 | 2159/10000 [02:11<07:19, 17.85it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 653.14it/s][A


[69120] loss: 0.066 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 556.42it/s][A

                                                                                                                                                  [A
 22%|██████████████████████▍                                                                                 | 2159/10000 [02:11<07:19, 17.85it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 797.29it/s][A


[69140] loss: 0.097 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 948.72it/s][A
 22%|██████████████████████▍                                                                                 | 2161/10000 [02:11<07:11, 18.16it/s]
                                                                                                                                                  [A
 22%|██████████████████████▍                                                                                 | 2161/10000 [02:11<07:11, 18.16it/s]
                                                                                                                                                  [A
 22%|██████████████████████▍                                                                                 | 2161/10000 [02:11<07:11, 18.16it/s]


[69160] loss: 0.064 
[69180] loss: 0.084 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 664.70it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1431.01it/s][A

                                                                                                                                                  [A
 22%|██████████████████████▍                                                                                 | 2161/10000 [02:11<07:11, 18.16it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 757.29it/s][A


[69200] loss: 0.051 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 637.82it/s][A
 22%|██████████████████████▍                                                                                 | 2163/10000 [02:11<07:08, 18.27it/s]
                                                                                                                                                  [A
 22%|██████████████████████▍                                                                                 | 2163/10000 [02:11<07:08, 18.27it/s]
                                                                                                                                                  [A
[A                                                                                                                                               

[69220] loss: 0.073 


 22%|██████████████████████▍                                                                                 | 2163/10000 [02:11<07:08, 18.27it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 712.46it/s][A


[69240] loss: 0.041 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1484.71it/s][A

                                                                                                                                                  [A
 22%|██████████████████████▍                                                                                 | 2163/10000 [02:11<07:08, 18.27it/s]
                                                                                                                                                  [A
 22%|██████████████████████▍                                                                                 | 2163/10000 [02:11<07:08, 18.27it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 723.71it/s][A


[69260] loss: 0.083 
[69280] loss: 0.058 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 740.26it/s][A
 22%|██████████████████████▌                                                                                 | 2165/10000 [02:11<07:03, 18.49it/s]
                                                                                                                                                  [A
 22%|██████████████████████▌                                                                                 | 2165/10000 [02:11<07:03, 18.49it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 646.75it/s][A


[69300] loss: 0.088 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 549.57it/s][A

                                                                                                                                                  [A
 22%|██████████████████████▌                                                                                 | 2165/10000 [02:11<07:03, 18.49it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[69320] loss: 0.062 


                                                                                                                                                  
 22%|██████████████████████▌                                                                                 | 2165/10000 [02:11<07:03, 18.49it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 538.67it/s][A


[69340] loss: 0.099 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 629.59it/s][A
 22%|██████████████████████▌                                                                                 | 2167/10000 [02:11<07:25, 17.59it/s]
                                                                                                                                                  [A
 22%|██████████████████████▌                                                                                 | 2167/10000 [02:11<07:25, 17.59it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[69360] loss: 0.086 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 602.65it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 423.58it/s][A

                                                                                                                                                  [A
 22%|██████████████████████▌                                                                                 | 2167/10000 [02:12<07:25, 17.59it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[69380] loss: 0.115 


                                                                                                                                                  
 22%|██████████████████████▌                                                                                 | 2167/10000 [02:12<07:25, 17.59it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 544.37it/s][A


[69400] loss: 0.066 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 550.22it/s][A
 22%|██████████████████████▌                                                                                 | 2169/10000 [02:12<07:47, 16.74it/s]
                                                                                                                                                  [A
 22%|██████████████████████▌                                                                                 | 2169/10000 [02:12<07:47, 16.74it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[69420] loss: 0.058 


                                                                                                                                                  
 22%|██████████████████████▌                                                                                 | 2169/10000 [02:12<07:47, 16.74it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 506.34it/s][A


[69440] loss: 0.184 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 383.25it/s][A

                                                                                                                                                  [A
 22%|██████████████████████▌                                                                                 | 2169/10000 [02:12<07:47, 16.74it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 605.37it/s][A


[69460] loss: 0.049 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 935.60it/s][A
 22%|██████████████████████▌                                                                                 | 2171/10000 [02:12<08:04, 16.15it/s]
                                                                                                                                                  [A
 22%|██████████████████████▌                                                                                 | 2171/10000 [02:12<08:04, 16.15it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[69480] loss: 0.065 


                                                                                                                                                  
 22%|██████████████████████▌                                                                                 | 2171/10000 [02:12<08:04, 16.15it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 459.77it/s][A


[69500] loss: 0.058 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 659.48it/s][A

                                                                                                                                                  [A
 22%|██████████████████████▌                                                                                 | 2171/10000 [02:12<08:04, 16.15it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[69520] loss: 0.041 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 607.93it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 823.87it/s][A
 22%|██████████████████████▌                                                                                 | 2173/10000 [02:12<08:28, 15.40it/s]
                                                                                                                                                  [A
 22%|██████████████████████▌                                                                                 | 2173/10000 [02:12<08:28, 15.40it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[69540] loss: 0.034 


                                                                                                                                                  
 22%|██████████████████████▌                                                                                 | 2173/10000 [02:12<08:28, 15.40it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 466.93it/s][A


[69560] loss: 0.033 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 435.18it/s][A

                                                                                                                                                  [A
 22%|██████████████████████▌                                                                                 | 2173/10000 [02:12<08:28, 15.40it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[69580] loss: 0.060 


                                                                                                                                                  
 22%|██████████████████████▌                                                                                 | 2173/10000 [02:12<08:28, 15.40it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 549.12it/s][A


[69600] loss: 0.077 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 327.19it/s][A
 22%|██████████████████████▌                                                                                 | 2175/10000 [02:12<08:49, 14.79it/s]
                                                                                                                                                  [A
 22%|██████████████████████▌                                                                                 | 2175/10000 [02:12<08:49, 14.79it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 536.59it/s][A


[69620] loss: 0.055 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 801.51it/s][A

                                                                                                                                                  [A
 22%|██████████████████████▌                                                                                 | 2175/10000 [02:12<08:49, 14.79it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[69640] loss: 0.067 


                                                                                                                                                  
 22%|██████████████████████▌                                                                                 | 2175/10000 [02:12<08:49, 14.79it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 499.67it/s][A


[69660] loss: 0.107 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 581.65it/s][A
 22%|██████████████████████▋                                                                                 | 2177/10000 [02:12<08:58, 14.51it/s]
                                                                                                                                                  [A
 22%|██████████████████████▋                                                                                 | 2177/10000 [02:12<08:58, 14.51it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[69680] loss: 0.049 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 576.45it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1466.03it/s][A

                                                                                                                                                  [A
 22%|██████████████████████▋                                                                                 | 2177/10000 [02:12<08:58, 14.51it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[69700] loss: 0.063 


                                                                                                                                                  
 22%|██████████████████████▋                                                                                 | 2177/10000 [02:12<08:58, 14.51it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 499.27it/s][A


[69720] loss: 0.055 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 507.66it/s][A
 22%|██████████████████████▋                                                                                 | 2179/10000 [02:12<09:00, 14.48it/s]
                                                                                                                                                  [A
 22%|██████████████████████▋                                                                                 | 2179/10000 [02:12<09:00, 14.48it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[69740] loss: 0.070 


                                                                                                                                                  
 22%|██████████████████████▋                                                                                 | 2179/10000 [02:12<09:00, 14.48it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 488.57it/s][A


[69760] loss: 0.036 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 423.92it/s][A

                                                                                                                                                  [A
 22%|██████████████████████▋                                                                                 | 2179/10000 [02:12<09:00, 14.48it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 566.21it/s][A


[69780] loss: 0.114 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 930.41it/s][A
 22%|██████████████████████▋                                                                                 | 2181/10000 [02:12<09:03, 14.39it/s]
                                                                                                                                                  [A
 22%|██████████████████████▋                                                                                 | 2181/10000 [02:12<09:03, 14.39it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[69800] loss: 0.068 


                                                                                                                                                  
 22%|██████████████████████▋                                                                                 | 2181/10000 [02:12<09:03, 14.39it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 494.88it/s][A


[69820] loss: 0.072 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 691.44it/s][A

                                                                                                                                                  [A
 22%|██████████████████████▋                                                                                 | 2181/10000 [02:13<09:03, 14.39it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 764.60it/s][A


[69840] loss: 0.069 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1793.20it/s][A
 22%|██████████████████████▋                                                                                 | 2183/10000 [02:13<08:50, 14.74it/s]
                                                                                                                                                  [A
 22%|██████████████████████▋                                                                                 | 2183/10000 [02:13<08:50, 14.74it/s]
                                                                                                                                                  [A

[69860] loss: 0.049 



 22%|██████████████████████▋                                                                                 | 2183/10000 [02:13<08:50, 14.74it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 596.51it/s][A


[69880] loss: 0.083 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 862.32it/s][A

                                                                                                                                                  [A
 22%|██████████████████████▋                                                                                 | 2183/10000 [02:13<08:50, 14.74it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[69900] loss: 0.043 


                                                                                                                                                  
 22%|██████████████████████▋                                                                                 | 2183/10000 [02:13<08:50, 14.74it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 552.66it/s][A


[69920] loss: 0.065 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 956.51it/s][A
 22%|██████████████████████▋                                                                                 | 2185/10000 [02:13<08:46, 14.83it/s]
                                                                                                                                                  [A
 22%|██████████████████████▋                                                                                 | 2185/10000 [02:13<08:46, 14.83it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[69940] loss: 0.042 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 664.10it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1824.40it/s][A

                                                                                                                                                  [A
 22%|██████████████████████▋                                                                                 | 2185/10000 [02:13<08:46, 14.83it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[69960] loss: 0.066 


                                                                                                                                                  
 22%|██████████████████████▋                                                                                 | 2185/10000 [02:13<08:46, 14.83it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[69980] loss: 0.070 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 602.47it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1076.57it/s][A
 22%|██████████████████████▋                                                                                 | 2187/10000 [02:13<08:30, 15.29it/s]
                                                                                                                                                  [A
 22%|██████████████████████▋                                                                                 | 2187/10000 [02:13<08:30, 15.29it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[70000] loss: 0.059 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 633.84it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1298.95it/s][A

                                                                                                                                                  [A
 22%|██████████████████████▋                                                                                 | 2187/10000 [02:13<08:30, 15.29it/s]
                                                                                                                                                  [A
 22%|██████████████████████▋                                                                                 | 2187/10000 [02:13<08:30, 15.29it/s]
Training Epoch:   0%|                                                                                      

[70020] loss: 0.043 
[70040] loss: 0.079 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 584.13it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1230.36it/s][A
 22%|██████████████████████▊                                                                                 | 2189/10000 [02:13<08:28, 15.38it/s]
                                                                                                                                                  [A
 22%|██████████████████████▊                                                                                 | 2189/10000 [02:13<08:28, 15.38it/s]

[70060] loss: 0.062 



                                                                                                                                                  [A
 22%|██████████████████████▊                                                                                 | 2189/10000 [02:13<08:28, 15.38it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 627.28it/s][A


[70080] loss: 0.037 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1386.55it/s][A

                                                                                                                                                  [A
 22%|██████████████████████▊                                                                                 | 2189/10000 [02:13<08:28, 15.38it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[70100] loss: 0.059 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 712.94it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1319.38it/s][A
 22%|██████████████████████▊                                                                                 | 2191/10000 [02:13<08:05, 16.07it/s]
                                                                                                                                                  [A
 22%|██████████████████████▊                                                                                 | 2191/10000 [02:13<08:05, 16.07it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[70120] loss: 0.040 


                                                                                                                                                  
 22%|██████████████████████▊                                                                                 | 2191/10000 [02:13<08:05, 16.07it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 603.72it/s][A


[70140] loss: 0.073 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 644.39it/s][A

                                                                                                                                                  [A
 22%|██████████████████████▊                                                                                 | 2191/10000 [02:13<08:05, 16.07it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 815.46it/s][A


[70160] loss: 0.062 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 808.15it/s][A
 22%|██████████████████████▊                                                                                 | 2193/10000 [02:13<07:51, 16.56it/s]
                                                                                                                                                  [A
 22%|██████████████████████▊                                                                                 | 2193/10000 [02:13<07:51, 16.56it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[70180] loss: 0.043 


                                                                                                                                                  
 22%|██████████████████████▊                                                                                 | 2193/10000 [02:13<07:51, 16.56it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 573.62it/s][A


[70200] loss: 0.086 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1453.83it/s][A

                                                                                                                                                  [A
 22%|██████████████████████▊                                                                                 | 2193/10000 [02:13<07:51, 16.56it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[70220] loss: 0.045 


                                                                                                                                                  
 22%|██████████████████████▊                                                                                 | 2193/10000 [02:13<07:51, 16.56it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 698.52it/s][A


[70240] loss: 0.022 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 253.80it/s][A
 22%|██████████████████████▊                                                                                 | 2195/10000 [02:13<07:53, 16.48it/s]
                                                                                                                                                  [A
 22%|██████████████████████▊                                                                                 | 2195/10000 [02:13<07:53, 16.48it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 821.16it/s][A


[70260] loss: 0.062 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1922.23it/s][A

                                                                                                                                                  [A
 22%|██████████████████████▊                                                                                 | 2195/10000 [02:13<07:53, 16.48it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[70280] loss: 0.040 


                                                                                                                                                  
 22%|██████████████████████▊                                                                                 | 2195/10000 [02:13<07:53, 16.48it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 629.95it/s][A


[70300] loss: 0.050 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1449.81it/s][A
 22%|██████████████████████▊                                                                                 | 2197/10000 [02:13<07:37, 17.04it/s]
                                                                                                                                                  [A
 22%|██████████████████████▊                                                                                 | 2197/10000 [02:13<07:37, 17.04it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 845.96it/s][A


[70320] loss: 0.066 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2143.23it/s][A

                                                                                                                                                  [A
 22%|██████████████████████▊                                                                                 | 2197/10000 [02:13<07:37, 17.04it/s]
                                                                                                                                                  [A

[70340] loss: 0.035 



 22%|██████████████████████▊                                                                                 | 2197/10000 [02:13<07:37, 17.04it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 674.31it/s][A


[70360] loss: 0.089 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2115.13it/s][A

                                                                                                                                                  [A
 22%|██████████████████████▊                                                                                 | 2197/10000 [02:14<07:37, 17.04it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[70380] loss: 0.053 


                                                                                                                                                  
 22%|██████████████████████▊                                                                                 | 2197/10000 [02:14<07:37, 17.04it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 753.62it/s][A


[70400] loss: 0.043 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2174.34it/s][A
 22%|██████████████████████▉                                                                                 | 2200/10000 [02:14<07:08, 18.21it/s]
                                                                                                                                                  [A
 22%|██████████████████████▉                                                                                 | 2200/10000 [02:14<07:08, 18.21it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[70420] loss: 0.074 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 738.44it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2067.18it/s][A

                                                                                                                                                  [A
 22%|██████████████████████▉                                                                                 | 2200/10000 [02:14<07:08, 18.21it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[70440] loss: 0.036 


                                                                                                                                                  
 22%|██████████████████████▉                                                                                 | 2200/10000 [02:14<07:08, 18.21it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 734.44it/s][A


[70460] loss: 0.018 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1290.16it/s][A
 22%|██████████████████████▉                                                                                 | 2202/10000 [02:14<07:00, 18.56it/s]
                                                                                                                                                  [A
 22%|██████████████████████▉                                                                                 | 2202/10000 [02:14<07:00, 18.56it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[70480] loss: 0.027 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 566.90it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 718.82it/s][A

                                                                                                                                                  [A
 22%|██████████████████████▉                                                                                 | 2202/10000 [02:14<07:00, 18.56it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[70500] loss: 0.057 


                                                                                                                                                  
 22%|██████████████████████▉                                                                                 | 2202/10000 [02:14<07:00, 18.56it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 542.39it/s][A

[70520] loss: 0.075 




Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1043.62it/s][A
 22%|██████████████████████▉                                                                                 | 2204/10000 [02:14<07:25, 17.50it/s]
                                                                                                                                                  [A
 22%|██████████████████████▉                                                                                 | 2204/10000 [02:14<07:25, 17.50it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[70540] loss: 0.062 


                                                                                                                                                  
 22%|██████████████████████▉                                                                                 | 2204/10000 [02:14<07:25, 17.50it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 548.91it/s][A


[70560] loss: 0.053 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 289.00it/s][A

                                                                                                                                                  [A
 22%|██████████████████████▉                                                                                 | 2204/10000 [02:14<07:25, 17.50it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 574.60it/s][A


[70580] loss: 0.053 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 629.96it/s][A
 22%|██████████████████████▉                                                                                 | 2206/10000 [02:14<07:44, 16.77it/s]
                                                                                                                                                  [A
 22%|██████████████████████▉                                                                                 | 2206/10000 [02:14<07:44, 16.77it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[70600] loss: 0.027 


                                                                                                                                                  
 22%|██████████████████████▉                                                                                 | 2206/10000 [02:14<07:44, 16.77it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 536.64it/s][A


[70620] loss: 0.041 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 448.78it/s][A

                                                                                                                                                  [A
 22%|██████████████████████▉                                                                                 | 2206/10000 [02:14<07:44, 16.77it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 599.71it/s][A

[70640] loss: 0.079 




Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 938.53it/s][A
 22%|██████████████████████▉                                                                                 | 2208/10000 [02:14<08:00, 16.21it/s]
                                                                                                                                                  [A
 22%|██████████████████████▉                                                                                 | 2208/10000 [02:14<08:00, 16.21it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[70660] loss: 0.057 


                                                                                                                                                  
 22%|██████████████████████▉                                                                                 | 2208/10000 [02:14<08:00, 16.21it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 498.48it/s][A


[70680] loss: 0.046 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 573.85it/s][A

                                                                                                                                                  [A
 22%|██████████████████████▉                                                                                 | 2208/10000 [02:14<08:00, 16.21it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[70700] loss: 0.045 


                                                                                                                                                  
 22%|██████████████████████▉                                                                                 | 2208/10000 [02:14<08:00, 16.21it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 535.35it/s][A


[70720] loss: 0.110 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 832.37it/s][A
 22%|██████████████████████▉                                                                                 | 2210/10000 [02:14<08:22, 15.51it/s]
                                                                                                                                                  [A
 22%|██████████████████████▉                                                                                 | 2210/10000 [02:14<08:22, 15.51it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 572.00it/s][A


[70740] loss: 0.046 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 538.28it/s][A

                                                                                                                                                  [A
 22%|██████████████████████▉                                                                                 | 2210/10000 [02:14<08:22, 15.51it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[70760] loss: 0.035 


                                                                                                                                                  
 22%|██████████████████████▉                                                                                 | 2210/10000 [02:14<08:22, 15.51it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 465.19it/s][A


[70780] loss: 0.085 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 773.57it/s][A
 22%|███████████████████████                                                                                 | 2212/10000 [02:14<08:38, 15.01it/s]
                                                                                                                                                  [A
 22%|███████████████████████                                                                                 | 2212/10000 [02:14<08:38, 15.01it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[70800] loss: 0.062 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 583.29it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 980.21it/s][A

                                                                                                                                                  [A
 22%|███████████████████████                                                                                 | 2212/10000 [02:14<08:38, 15.01it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[70820] loss: 0.026 


                                                                                                                                                  
 22%|███████████████████████                                                                                 | 2212/10000 [02:14<08:38, 15.01it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 518.68it/s][A


[70840] loss: 0.118 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1651.95it/s][A
 22%|███████████████████████                                                                                 | 2214/10000 [02:14<08:37, 15.03it/s]
                                                                                                                                                  [A
 22%|███████████████████████                                                                                 | 2214/10000 [02:14<08:37, 15.03it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[70860] loss: 0.061 


                                                                                                                                                  
 22%|███████████████████████                                                                                 | 2214/10000 [02:15<08:37, 15.03it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 529.12it/s][A


[70880] loss: 0.066 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 280.44it/s][A

                                                                                                                                                  [A
 22%|███████████████████████                                                                                 | 2214/10000 [02:15<08:37, 15.03it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 582.90it/s][A


[70900] loss: 0.058 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 914.19it/s][A
 22%|███████████████████████                                                                                 | 2216/10000 [02:15<08:42, 14.90it/s]
                                                                                                                                                  [A
 22%|███████████████████████                                                                                 | 2216/10000 [02:15<08:42, 14.90it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[70920] loss: 0.129 


                                                                                                                                                  
 22%|███████████████████████                                                                                 | 2216/10000 [02:15<08:42, 14.90it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 469.75it/s][A


[70940] loss: 0.034 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 870.19it/s][A

                                                                                                                                                  [A
 22%|███████████████████████                                                                                 | 2216/10000 [02:15<08:42, 14.90it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[70960] loss: 0.054 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 543.34it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1745.44it/s][A
 22%|███████████████████████                                                                                 | 2218/10000 [02:15<08:58, 14.46it/s]
                                                                                                                                                  [A
 22%|███████████████████████                                                                                 | 2218/10000 [02:15<08:58, 14.46it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[70980] loss: 0.042 


                                                                                                                                                  
 22%|███████████████████████                                                                                 | 2218/10000 [02:15<08:58, 14.46it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 500.45it/s][A


[71000] loss: 0.058 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 539.39it/s][A

                                                                                                                                                  [A
 22%|███████████████████████                                                                                 | 2218/10000 [02:15<08:58, 14.46it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[71020] loss: 0.067 


                                                                                                                                                  
 22%|███████████████████████                                                                                 | 2218/10000 [02:15<08:58, 14.46it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 587.56it/s][A


[71040] loss: 0.064 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1150.39it/s][A
 22%|███████████████████████                                                                                 | 2220/10000 [02:15<08:58, 14.44it/s]
                                                                                                                                                  [A
 22%|███████████████████████                                                                                 | 2220/10000 [02:15<08:58, 14.44it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 726.45it/s][A


[71060] loss: 0.040 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 656.39it/s][A

                                                                                                                                                  [A
 22%|███████████████████████                                                                                 | 2220/10000 [02:15<08:58, 14.44it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[71080] loss: 0.035 


                                                                                                                                                  
 22%|███████████████████████                                                                                 | 2220/10000 [02:15<08:58, 14.44it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 649.05it/s][A


[71100] loss: 0.061 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1380.61it/s][A
 22%|███████████████████████                                                                                 | 2222/10000 [02:15<08:27, 15.34it/s]
                                                                                                                                                  [A
 22%|███████████████████████                                                                                 | 2222/10000 [02:15<08:27, 15.34it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[71120] loss: 0.065 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 683.81it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1242.76it/s][A

                                                                                                                                                  [A
 22%|███████████████████████                                                                                 | 2222/10000 [02:15<08:27, 15.34it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[71140] loss: 0.062 


                                                                                                                                                  
 22%|███████████████████████                                                                                 | 2222/10000 [02:15<08:27, 15.34it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 566.31it/s][A


[71160] loss: 0.075 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1599.05it/s][A
 22%|███████████████████████▏                                                                                | 2224/10000 [02:15<08:20, 15.54it/s]
                                                                                                                                                  [A
 22%|███████████████████████▏                                                                                | 2224/10000 [02:15<08:20, 15.54it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[71180] loss: 0.038 


                                                                                                                                                  
 22%|███████████████████████▏                                                                                | 2224/10000 [02:15<08:20, 15.54it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 619.49it/s][A


[71200] loss: 0.102 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 382.45it/s][A

                                                                                                                                                  [A
 22%|███████████████████████▏                                                                                | 2224/10000 [02:15<08:20, 15.54it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[71220] loss: 0.073 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 725.18it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1066.71it/s][A
 22%|███████████████████████▏                                                                                | 2226/10000 [02:15<08:10, 15.84it/s]
                                                                                                                                                  [A
 22%|███████████████████████▏                                                                                | 2226/10000 [02:15<08:10, 15.84it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[71240] loss: 0.045 


                                                                                                                                                  
 22%|███████████████████████▏                                                                                | 2226/10000 [02:15<08:10, 15.84it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[71260] loss: 0.075 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 578.36it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1426.63it/s][A

                                                                                                                                                  [A
 22%|███████████████████████▏                                                                                | 2226/10000 [02:15<08:10, 15.84it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[71280] loss: 0.078 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 604.25it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1330.68it/s][A
 22%|███████████████████████▏                                                                                | 2228/10000 [02:15<08:10, 15.83it/s]
                                                                                                                                                  [A
 22%|███████████████████████▏                                                                                | 2228/10000 [02:15<08:10, 15.83it/s]
                                                                                                                                                  [A
 22%|███████████████████████▏                                                                               

[71300] loss: 0.074 
[71320] loss: 0.049 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 613.33it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 668.20it/s][A

                                                                                                                                                  [A
 22%|███████████████████████▏                                                                                | 2228/10000 [02:15<08:10, 15.83it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[71340] loss: 0.095 


                                                                                                                                                  
 22%|███████████████████████▏                                                                                | 2228/10000 [02:15<08:10, 15.83it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 576.89it/s][A


[71360] loss: 0.048 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1004.62it/s][A
 22%|███████████████████████▏                                                                                | 2230/10000 [02:16<08:12, 15.77it/s]
                                                                                                                                                  [A
 22%|███████████████████████▏                                                                                | 2230/10000 [02:16<08:12, 15.77it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[71380] loss: 0.094 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 655.39it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 874.72it/s][A

                                                                                                                                                  [A
 22%|███████████████████████▏                                                                                | 2230/10000 [02:16<08:12, 15.77it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[71400] loss: 0.055 


                                                                                                                                                  
 22%|███████████████████████▏                                                                                | 2230/10000 [02:16<08:12, 15.77it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 646.99it/s][A


[71420] loss: 0.079 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 978.83it/s][A
 22%|███████████████████████▏                                                                                | 2232/10000 [02:16<08:05, 15.99it/s]
                                                                                                                                                  [A
 22%|███████████████████████▏                                                                                | 2232/10000 [02:16<08:05, 15.99it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[71440] loss: 0.081 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 734.34it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 786.63it/s][A

                                                                                                                                                  [A
 22%|███████████████████████▏                                                                                | 2232/10000 [02:16<08:05, 15.99it/s]


[71460] loss: 0.040 


                                                                                                                                                  [A
 22%|███████████████████████▏                                                                                | 2232/10000 [02:16<08:05, 15.99it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[71480] loss: 0.102 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 563.54it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1485.24it/s][A
 22%|███████████████████████▏                                                                                | 2234/10000 [02:16<07:59, 16.20it/s]
                                                                                                                                                  [A
 22%|███████████████████████▏                                                                                | 2234/10000 [02:16<07:59, 16.20it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[71500] loss: 0.070 


                                                                                                                                                  
 22%|███████████████████████▏                                                                                | 2234/10000 [02:16<07:59, 16.20it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 737.65it/s][A


[71520] loss: 0.013 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1998.24it/s][A

                                                                                                                                                  [A
 22%|███████████████████████▏                                                                                | 2234/10000 [02:16<07:59, 16.20it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 996.01it/s][A


[71540] loss: 0.046 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2495.12it/s][A

                                                                                                                                                  [A
 22%|███████████████████████▏                                                                                | 2234/10000 [02:16<07:59, 16.20it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[71560] loss: 0.025 


                                                                                                                                                  
 22%|███████████████████████▏                                                                                | 2234/10000 [02:16<07:59, 16.20it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 767.50it/s][A


[71580] loss: 0.042 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1006.79it/s][A
 22%|███████████████████████▎                                                                                | 2237/10000 [02:16<07:11, 17.98it/s]
                                                                                                                                                  [A
 22%|███████████████████████▎                                                                                | 2237/10000 [02:16<07:11, 17.98it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[71600] loss: 0.061 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 583.37it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 939.37it/s][A

                                                                                                                                                  [A
 22%|███████████████████████▎                                                                                | 2237/10000 [02:16<07:11, 17.98it/s]

[71620] loss: 0.043 



                                                                                                                                                  [A
 22%|███████████████████████▎                                                                                | 2237/10000 [02:16<07:11, 17.98it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 507.67it/s][A


[71640] loss: 0.038 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 957.60it/s][A
 22%|███████████████████████▎                                                                                | 2239/10000 [02:16<07:39, 16.89it/s]
                                                                                                                                                  [A
 22%|███████████████████████▎                                                                                | 2239/10000 [02:16<07:39, 16.89it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[71660] loss: 0.049 


                                                                                                                                                  
 22%|███████████████████████▎                                                                                | 2239/10000 [02:16<07:39, 16.89it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 513.05it/s][A


[71680] loss: 0.062 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 754.64it/s][A

                                                                                                                                                  [A
 22%|███████████████████████▎                                                                                | 2239/10000 [02:16<07:39, 16.89it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 643.13it/s][A


[71700] loss: 0.060 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 880.05it/s][A
 22%|███████████████████████▎                                                                                | 2241/10000 [02:16<07:52, 16.43it/s]
                                                                                                                                                  [A
 22%|███████████████████████▎                                                                                | 2241/10000 [02:16<07:52, 16.43it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[71720] loss: 0.062 


                                                                                                                                                  
 22%|███████████████████████▎                                                                                | 2241/10000 [02:16<07:52, 16.43it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 523.18it/s][A


[71740] loss: 0.043 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 810.18it/s][A

                                                                                                                                                  [A
 22%|███████████████████████▎                                                                                | 2241/10000 [02:16<07:52, 16.43it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 605.08it/s][A


[71760] loss: 0.083 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 745.12it/s][A
 22%|███████████████████████▎                                                                                | 2243/10000 [02:16<08:06, 15.94it/s]
                                                                                                                                                  [A
 22%|███████████████████████▎                                                                                | 2243/10000 [02:16<08:06, 15.94it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[71780] loss: 0.046 


                                                                                                                                                  
 22%|███████████████████████▎                                                                                | 2243/10000 [02:16<08:06, 15.94it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 510.96it/s][A


[71800] loss: 0.067 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 576.46it/s][A

                                                                                                                                                  [A
 22%|███████████████████████▎                                                                                | 2243/10000 [02:16<08:06, 15.94it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[71820] loss: 0.070 


                                                                                                                                                  
 22%|███████████████████████▎                                                                                | 2243/10000 [02:16<08:06, 15.94it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 518.21it/s][A


[71840] loss: 0.080 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 793.92it/s][A
 22%|███████████████████████▎                                                                                | 2245/10000 [02:16<08:26, 15.30it/s]
                                                                                                                                                  [A
 22%|███████████████████████▎                                                                                | 2245/10000 [02:16<08:26, 15.30it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 607.22it/s][A


[71860] loss: 0.079 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 586.94it/s][A

                                                                                                                                                  [A
 22%|███████████████████████▎                                                                                | 2245/10000 [02:17<08:26, 15.30it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[71880] loss: 0.045 


                                                                                                                                                  
 22%|███████████████████████▎                                                                                | 2245/10000 [02:17<08:26, 15.30it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 505.38it/s][A


[71900] loss: 0.081 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 834.36it/s][A
 22%|███████████████████████▎                                                                                | 2247/10000 [02:17<08:31, 15.16it/s]
                                                                                                                                                  [A
 22%|███████████████████████▎                                                                                | 2247/10000 [02:17<08:31, 15.16it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[71920] loss: 0.075 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 583.08it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 585.71it/s][A

                                                                                                                                                  [A
 22%|███████████████████████▎                                                                                | 2247/10000 [02:17<08:31, 15.16it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[71940] loss: 0.062 


                                                                                                                                                  
 22%|███████████████████████▎                                                                                | 2247/10000 [02:17<08:31, 15.16it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 489.05it/s][A


[71960] loss: 0.053 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 485.06it/s][A
 22%|███████████████████████▍                                                                                | 2249/10000 [02:17<08:41, 14.86it/s]
                                                                                                                                                  [A
 22%|███████████████████████▍                                                                                | 2249/10000 [02:17<08:41, 14.86it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[71980] loss: 0.042 


                                                                                                                                                  
 22%|███████████████████████▍                                                                                | 2249/10000 [02:17<08:41, 14.86it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 512.93it/s][A


[72000] loss: 0.070 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 687.82it/s][A

                                                                                                                                                  [A
 22%|███████████████████████▍                                                                                | 2249/10000 [02:17<08:41, 14.86it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 569.79it/s][A


[72020] loss: 0.068 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 508.83it/s][A
 23%|███████████████████████▍                                                                                | 2251/10000 [02:17<08:49, 14.62it/s]
                                                                                                                                                  [A
 23%|███████████████████████▍                                                                                | 2251/10000 [02:17<08:49, 14.62it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[72040] loss: 0.089 


                                                                                                                                                  
 23%|███████████████████████▍                                                                                | 2251/10000 [02:17<08:49, 14.62it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 504.10it/s][A


[72060] loss: 0.058 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 810.49it/s][A

                                                                                                                                                  [A
 23%|███████████████████████▍                                                                                | 2251/10000 [02:17<08:49, 14.62it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[72080] loss: 0.038 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 528.43it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 691.90it/s][A
 23%|███████████████████████▍                                                                                | 2253/10000 [02:17<08:56, 14.45it/s]
                                                                                                                                                  [A
 23%|███████████████████████▍                                                                                | 2253/10000 [02:17<08:56, 14.45it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[72100] loss: 0.050 


                                                                                                                                                  
 23%|███████████████████████▍                                                                                | 2253/10000 [02:17<08:56, 14.45it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 560.69it/s][A


[72120] loss: 0.055 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1335.34it/s][A

                                                                                                                                                  [A
 23%|███████████████████████▍                                                                                | 2253/10000 [02:17<08:56, 14.45it/s]
                                                                                                                                                  [A
                                                                                                                                                  

[72140] loss: 0.054 


 23%|███████████████████████▍                                                                                | 2253/10000 [02:17<08:56, 14.45it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 621.50it/s][A


[72160] loss: 0.081 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1175.20it/s][A
 23%|███████████████████████▍                                                                                | 2255/10000 [02:17<08:44, 14.76it/s]
                                                                                                                                                  [A
 23%|███████████████████████▍                                                                                | 2255/10000 [02:17<08:44, 14.76it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[72180] loss: 0.110 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 781.28it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 925.89it/s][A

                                                                                                                                                  [A
 23%|███████████████████████▍                                                                                | 2255/10000 [02:17<08:44, 14.76it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[72200] loss: 0.065 


                                                                                                                                                  
 23%|███████████████████████▍                                                                                | 2255/10000 [02:17<08:44, 14.76it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 730.60it/s][A


[72220] loss: 0.062 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1986.88it/s][A
 23%|███████████████████████▍                                                                                | 2257/10000 [02:17<08:05, 15.95it/s]
                                                                                                                                                  [A
 23%|███████████████████████▍                                                                                | 2257/10000 [02:17<08:05, 15.95it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 1050.21it/s][A


[72240] loss: 0.076 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 554.14it/s][A

                                                                                                                                                  [A
 23%|███████████████████████▍                                                                                | 2257/10000 [02:17<08:05, 15.95it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[72260] loss: 0.034 


                                                                                                                                                  
 23%|███████████████████████▍                                                                                | 2257/10000 [02:17<08:05, 15.95it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[72280] loss: 0.110 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 670.41it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1241.65it/s][A
 23%|███████████████████████▍                                                                                | 2259/10000 [02:17<07:36, 16.95it/s]
                                                                                                                                                  [A
 23%|███████████████████████▍                                                                                | 2259/10000 [02:17<07:36, 16.95it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[72300] loss: 0.045 


                                                                                                                                                  
 23%|███████████████████████▍                                                                                | 2259/10000 [02:17<07:36, 16.95it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 631.62it/s][A


[72320] loss: 0.039 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1346.49it/s][A

                                                                                                                                                  [A
 23%|███████████████████████▍                                                                                | 2259/10000 [02:17<07:36, 16.95it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[72340] loss: 0.093 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 841.20it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1869.12it/s][A
 23%|███████████████████████▌                                                                                | 2261/10000 [02:17<07:24, 17.41it/s]
                                                                                                                                                  [A
 23%|███████████████████████▌                                                                                | 2261/10000 [02:17<07:24, 17.41it/s]
                                                                                                                                                  [A
[A                                                                                                         

[72360] loss: 0.049 
[72380] loss: 0.078 


 23%|███████████████████████▌                                                                                | 2261/10000 [02:17<07:24, 17.41it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 645.60it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1300.96it/s][A

                                                                                                                                                  [A
 23%|███████████████████████▌                                                                                | 2261/10000 [02:18<07:24, 17.41it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 709.85it/s][A


[72400] loss: 0.061 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1805.55it/s][A
 23%|███████████████████████▌                                                                                | 2263/10000 [02:18<07:23, 17.46it/s]
                                                                                                                                                  [A
 23%|███████████████████████▌                                                                                | 2263/10000 [02:18<07:23, 17.46it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[72420] loss: 0.072 


                                                                                                                                                  
 23%|███████████████████████▌                                                                                | 2263/10000 [02:18<07:23, 17.46it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 593.79it/s][A


[72440] loss: 0.042 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 664.18it/s][A

                                                                                                                                                  [A
 23%|███████████████████████▌                                                                                | 2263/10000 [02:18<07:23, 17.46it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[72460] loss: 0.039 


                                                                                                                                                  
 23%|███████████████████████▌                                                                                | 2263/10000 [02:18<07:23, 17.46it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 633.97it/s][A


[72480] loss: 0.096 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1361.79it/s][A
 23%|███████████████████████▌                                                                                | 2265/10000 [02:18<07:33, 17.06it/s]
                                                                                                                                                  [A
 23%|███████████████████████▌                                                                                | 2265/10000 [02:18<07:33, 17.06it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 747.21it/s][A


[72500] loss: 0.044 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1901.32it/s][A

                                                                                                                                                  [A
 23%|███████████████████████▌                                                                                | 2265/10000 [02:18<07:33, 17.06it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[72520] loss: 0.039 


                                                                                                                                                  
 23%|███████████████████████▌                                                                                | 2265/10000 [02:18<07:33, 17.06it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 624.01it/s][A


[72540] loss: 0.047 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1344.76it/s][A
 23%|███████████████████████▌                                                                                | 2267/10000 [02:18<07:27, 17.27it/s]
                                                                                                                                                  [A
 23%|███████████████████████▌                                                                                | 2267/10000 [02:18<07:27, 17.27it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 756.19it/s][A


[72560] loss: 0.039 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 631.29it/s][A

                                                                                                                                                  [A
 23%|███████████████████████▌                                                                                | 2267/10000 [02:18<07:27, 17.27it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[72580] loss: 0.049 


                                                                                                                                                  
 23%|███████████████████████▌                                                                                | 2267/10000 [02:18<07:27, 17.27it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 666.00it/s][A


[72600] loss: 0.054 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1141.93it/s][A
 23%|███████████████████████▌                                                                                | 2269/10000 [02:18<07:20, 17.55it/s]
                                                                                                                                                  [A
 23%|███████████████████████▌                                                                                | 2269/10000 [02:18<07:20, 17.55it/s]
                                                                                                                                                  [A
                                                                                                                                                  

[72620] loss: 0.057 


 23%|███████████████████████▌                                                                                | 2269/10000 [02:18<07:20, 17.55it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 668.38it/s][A


[72640] loss: 0.019 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1210.13it/s][A

                                                                                                                                                  [A
 23%|███████████████████████▌                                                                                | 2269/10000 [02:18<07:20, 17.55it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 807.64it/s][A


[72660] loss: 0.082 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 967.77it/s][A
 23%|███████████████████████▌                                                                                | 2271/10000 [02:18<07:08, 18.02it/s]
                                                                                                                                                  [A
 23%|███████████████████████▌                                                                                | 2271/10000 [02:18<07:08, 18.02it/s]
                                                                                                                                                  [A
 23%|███████████████████████▌                                                                                | 2271/10000 [02:18<07:08, 18.02it/s]
Training Epoch:   0%|                                                                                       

[72680] loss: 0.077 
[72700] loss: 0.056 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 613.52it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1598.44it/s][A

                                                                                                                                                  [A
 23%|███████████████████████▌                                                                                | 2271/10000 [02:18<07:08, 18.02it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 742.09it/s][A


[72720] loss: 0.074 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 514.70it/s][A
 23%|███████████████████████▋                                                                                | 2273/10000 [02:18<07:12, 17.87it/s]
                                                                                                                                                  [A
 23%|███████████████████████▋                                                                                | 2273/10000 [02:18<07:12, 17.87it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[72740] loss: 0.054 


                                                                                                                                                  
 23%|███████████████████████▋                                                                                | 2273/10000 [02:18<07:12, 17.87it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[72760] loss: 0.095 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 477.43it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1532.45it/s][A

                                                                                                                                                  [A
 23%|███████████████████████▋                                                                                | 2273/10000 [02:18<07:12, 17.87it/s]
                                                                                                                                                  [A
 23%|███████████████████████▋                                                                                | 2273/10000 [02:18<07:12, 17.87it/s]
Training Epoch: 100%|██████████████████████████████████████████████████████████████████████████████████████

[72780] loss: 0.067 
[72800] loss: 0.058 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 322.22it/s][A
 23%|███████████████████████▋                                                                                | 2275/10000 [02:18<08:04, 15.95it/s]
                                                                                                                                                  [A
 23%|███████████████████████▋                                                                                | 2275/10000 [02:18<08:04, 15.95it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[72820] loss: 0.059 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 562.84it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 675.09it/s][A

                                                                                                                                                  [A
 23%|███████████████████████▋                                                                                | 2275/10000 [02:18<08:04, 15.95it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[72840] loss: 0.057 


                                                                                                                                                  
 23%|███████████████████████▋                                                                                | 2275/10000 [02:18<08:04, 15.95it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 456.03it/s][A


[72860] loss: 0.062 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 840.04it/s][A
 23%|███████████████████████▋                                                                                | 2277/10000 [02:18<08:29, 15.17it/s]
                                                                                                                                                  [A
 23%|███████████████████████▋                                                                                | 2277/10000 [02:18<08:29, 15.17it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 592.22it/s][A


[72880] loss: 0.089 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 649.37it/s][A

                                                                                                                                                  [A
 23%|███████████████████████▋                                                                                | 2277/10000 [02:18<08:29, 15.17it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[72900] loss: 0.042 


                                                                                                                                                  
 23%|███████████████████████▋                                                                                | 2277/10000 [02:19<08:29, 15.17it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 510.04it/s][A


[72920] loss: 0.058 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 432.71it/s][A
 23%|███████████████████████▋                                                                                | 2279/10000 [02:19<08:33, 15.03it/s]
                                                                                                                                                  [A
 23%|███████████████████████▋                                                                                | 2279/10000 [02:19<08:33, 15.03it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[72940] loss: 0.039 


                                                                                                                                                  
 23%|███████████████████████▋                                                                                | 2279/10000 [02:19<08:33, 15.03it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 489.67it/s][A


[72960] loss: 0.019 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 639.47it/s][A

                                                                                                                                                  [A
 23%|███████████████████████▋                                                                                | 2279/10000 [02:19<08:33, 15.03it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 585.90it/s][A


[72980] loss: 0.050 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 803.97it/s][A
 23%|███████████████████████▋                                                                                | 2281/10000 [02:19<08:41, 14.81it/s]
                                                                                                                                                  [A
 23%|███████████████████████▋                                                                                | 2281/10000 [02:19<08:41, 14.81it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[73000] loss: 0.065 


                                                                                                                                                  
 23%|███████████████████████▋                                                                                | 2281/10000 [02:19<08:41, 14.81it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 478.73it/s][A


[73020] loss: 0.057 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 409.68it/s][A

                                                                                                                                                  [A
 23%|███████████████████████▋                                                                                | 2281/10000 [02:19<08:41, 14.81it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[73040] loss: 0.078 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 604.49it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 660.62it/s][A
 23%|███████████████████████▋                                                                                | 2283/10000 [02:19<08:49, 14.58it/s]
                                                                                                                                                  [A
 23%|███████████████████████▋                                                                                | 2283/10000 [02:19<08:49, 14.58it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[73060] loss: 0.067 


                                                                                                                                                  
 23%|███████████████████████▋                                                                                | 2283/10000 [02:19<08:49, 14.58it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 475.70it/s][A


[73080] loss: 0.071 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 643.00it/s][A

                                                                                                                                                  [A
 23%|███████████████████████▋                                                                                | 2283/10000 [02:19<08:49, 14.58it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[73100] loss: 0.055 


                                                                                                                                                  
 23%|███████████████████████▋                                                                                | 2283/10000 [02:19<08:49, 14.58it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 522.24it/s][A


[73120] loss: 0.048 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 851.46it/s][A
 23%|███████████████████████▊                                                                                | 2285/10000 [02:19<09:01, 14.25it/s]
                                                                                                                                                  [A
 23%|███████████████████████▊                                                                                | 2285/10000 [02:19<09:01, 14.25it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 550.89it/s][A


[73140] loss: 0.049 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 659.90it/s][A

                                                                                                                                                  [A
 23%|███████████████████████▊                                                                                | 2285/10000 [02:19<09:01, 14.25it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[73160] loss: 0.037 


                                                                                                                                                  
 23%|███████████████████████▊                                                                                | 2285/10000 [02:19<09:01, 14.25it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 454.11it/s][A


[73180] loss: 0.027 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 632.91it/s][A
 23%|███████████████████████▊                                                                                | 2287/10000 [02:19<09:10, 14.00it/s]
                                                                                                                                                  [A
 23%|███████████████████████▊                                                                                | 2287/10000 [02:19<09:10, 14.00it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[73200] loss: 0.072 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 539.06it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 592.25it/s][A

                                                                                                                                                  [A
 23%|███████████████████████▊                                                                                | 2287/10000 [02:19<09:10, 14.00it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[73220] loss: 0.059 


                                                                                                                                                  
 23%|███████████████████████▊                                                                                | 2287/10000 [02:19<09:10, 14.00it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 518.09it/s][A


[73240] loss: 0.067 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 752.21it/s][A
 23%|███████████████████████▊                                                                                | 2289/10000 [02:19<09:09, 14.02it/s]
                                                                                                                                                  [A
 23%|███████████████████████▊                                                                                | 2289/10000 [02:19<09:09, 14.02it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[73260] loss: 0.070 


                                                                                                                                                  
 23%|███████████████████████▊                                                                                | 2289/10000 [02:19<09:09, 14.02it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 518.75it/s][A


[73280] loss: 0.024 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 789.89it/s][A

                                                                                                                                                  [A
 23%|███████████████████████▊                                                                                | 2289/10000 [02:19<09:09, 14.02it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 761.20it/s][A


[73300] loss: 0.058 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 692.93it/s][A
 23%|███████████████████████▊                                                                                | 2291/10000 [02:19<08:46, 14.63it/s]
                                                                                                                                                  [A
 23%|███████████████████████▊                                                                                | 2291/10000 [02:19<08:46, 14.63it/s]
                                                                                                                                                  [A
 23%|███████████████████████▊                                                                                | 2291/10000 [02:19<08:46, 14.63it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[73320] loss: 0.041 
[73340] loss: 0.104 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 539.67it/s][A

                                                                                                                                                  [A
 23%|███████████████████████▊                                                                                | 2291/10000 [02:19<08:46, 14.63it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[73360] loss: 0.056 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 758.01it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 861.43it/s][A
 23%|███████████████████████▊                                                                                | 2293/10000 [02:19<08:16, 15.54it/s]
                                                                                                                                                  [A
 23%|███████████████████████▊                                                                                | 2293/10000 [02:20<08:16, 15.54it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[73380] loss: 0.028 


                                                                                                                                                  
 23%|███████████████████████▊                                                                                | 2293/10000 [02:20<08:16, 15.54it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 559.50it/s][A


[73400] loss: 0.087 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1700.85it/s][A

                                                                                                                                                  [A
 23%|███████████████████████▊                                                                                | 2293/10000 [02:20<08:16, 15.54it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[73420] loss: 0.087 


                                                                                                                                                  
 23%|███████████████████████▊                                                                                | 2293/10000 [02:20<08:16, 15.54it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 555.10it/s][A


[73440] loss: 0.032 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1090.00it/s][A
 23%|███████████████████████▊                                                                                | 2295/10000 [02:20<08:19, 15.42it/s]
                                                                                                                                                  [A
 23%|███████████████████████▊                                                                                | 2295/10000 [02:20<08:19, 15.42it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[73460] loss: 0.043 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 753.08it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1963.63it/s][A

                                                                                                                                                  [A
 23%|███████████████████████▊                                                                                | 2295/10000 [02:20<08:19, 15.42it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[73480] loss: 0.053 


                                                                                                                                                  
 23%|███████████████████████▊                                                                                | 2295/10000 [02:20<08:19, 15.42it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 637.05it/s][A


[73500] loss: 0.041 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 725.66it/s][A
 23%|███████████████████████▉                                                                                | 2297/10000 [02:20<07:55, 16.19it/s]
                                                                                                                                                  [A
 23%|███████████████████████▉                                                                                | 2297/10000 [02:20<07:55, 16.19it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 767.25it/s][A


[73520] loss: 0.029 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1127.20it/s][A

                                                                                                                                                  [A
 23%|███████████████████████▉                                                                                | 2297/10000 [02:20<07:55, 16.19it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[73540] loss: 0.050 


                                                                                                                                                  
 23%|███████████████████████▉                                                                                | 2297/10000 [02:20<07:55, 16.19it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 663.15it/s][A


[73560] loss: 0.073 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1003.18it/s][A
 23%|███████████████████████▉                                                                                | 2299/10000 [02:20<07:36, 16.88it/s]
                                                                                                                                                  [A
 23%|███████████████████████▉                                                                                | 2299/10000 [02:20<07:36, 16.88it/s]
                                                                                                                                                  [A
 23%|███████████████████████▉                                                                                | 2299/10000 [02:20<07:36, 16.88it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[73580] loss: 0.046 
[73600] loss: 0.038 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 768.33it/s][A

                                                                                                                                                  [A
 23%|███████████████████████▉                                                                                | 2299/10000 [02:20<07:36, 16.88it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 787.24it/s][A


[73620] loss: 0.064 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 644.29it/s][A
 23%|███████████████████████▉                                                                                | 2301/10000 [02:20<07:19, 17.50it/s]
                                                                                                                                                  [A
 23%|███████████████████████▉                                                                                | 2301/10000 [02:20<07:19, 17.50it/s]


[73640] loss: 0.029 


                                                                                                                                                  [A
 23%|███████████████████████▉                                                                                | 2301/10000 [02:20<07:19, 17.50it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 808.53it/s][A


[73660] loss: 0.059 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 991.56it/s][A

                                                                                                                                                  [A
 23%|███████████████████████▉                                                                                | 2301/10000 [02:20<07:19, 17.50it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[73680] loss: 0.041 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 820.06it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2366.99it/s][A

                                                                                                                                                  [A
 23%|███████████████████████▉                                                                                | 2301/10000 [02:20<07:19, 17.50it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[73700] loss: 0.044 


                                                                                                                                                  
 23%|███████████████████████▉                                                                                | 2301/10000 [02:20<07:19, 17.50it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 770.29it/s][A


[73720] loss: 0.058 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1365.33it/s][A
 23%|███████████████████████▉                                                                                | 2304/10000 [02:20<06:47, 18.86it/s]
                                                                                                                                                  [A
 23%|███████████████████████▉                                                                                | 2304/10000 [02:20<06:47, 18.86it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[73740] loss: 0.085 


                                                                                                                                                  
 23%|███████████████████████▉                                                                                | 2304/10000 [02:20<06:47, 18.86it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 710.69it/s][A


[73760] loss: 0.058 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 514.51it/s][A

                                                                                                                                                  [A
 23%|███████████████████████▉                                                                                | 2304/10000 [02:20<06:47, 18.86it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[73780] loss: 0.037 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 725.54it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 870.91it/s][A
 23%|███████████████████████▉                                                                                | 2306/10000 [02:20<06:47, 18.86it/s]
                                                                                                                                                  [A
 23%|███████████████████████▉                                                                                | 2306/10000 [02:20<06:47, 18.86it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[73800] loss: 0.071 


                                                                                                                                                  
 23%|███████████████████████▉                                                                                | 2306/10000 [02:20<06:47, 18.86it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 696.20it/s][A


[73820] loss: 0.083 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1084.08it/s][A

                                                                                                                                                  [A
 23%|███████████████████████▉                                                                                | 2306/10000 [02:20<06:47, 18.86it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 782.03it/s][A


[73840] loss: 0.068 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 889.57it/s][A
 23%|████████████████████████                                                                                | 2308/10000 [02:20<06:46, 18.91it/s]
                                                                                                                                                  [A
 23%|████████████████████████                                                                                | 2308/10000 [02:20<06:46, 18.91it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[73860] loss: 0.069 


                                                                                                                                                  
 23%|████████████████████████                                                                                | 2308/10000 [02:20<06:46, 18.91it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 654.00it/s][A


[73880] loss: 0.068 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 659.27it/s][A

                                                                                                                                                  [A
 23%|████████████████████████                                                                                | 2308/10000 [02:20<06:46, 18.91it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[73900] loss: 0.067 


                                                                                                                                                  
 23%|████████████████████████                                                                                | 2308/10000 [02:20<06:46, 18.91it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 403.55it/s][A


[73920] loss: 0.094 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 580.93it/s][A
 23%|████████████████████████                                                                                | 2310/10000 [02:20<07:33, 16.97it/s]
                                                                                                                                                  [A
 23%|████████████████████████                                                                                | 2310/10000 [02:20<07:33, 16.97it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 519.93it/s][A

[73940] loss: 0.067 




Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 757.64it/s][A

                                                                                                                                                  [A
 23%|████████████████████████                                                                                | 2310/10000 [02:21<07:33, 16.97it/s]

[73960] loss: 0.062 



                                                                                                                                                  [A
 23%|████████████████████████                                                                                | 2310/10000 [02:21<07:33, 16.97it/s]


[73980] loss: 0.054 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 451.78it/s][A

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 930.83it/s][A
 23%|████████████████████████                                                                                | 2312/10000 [02:21<08:11, 15.63it/s]
                                                                                                                                                  [A
 23%|████████████████████████                                                                                | 2312/10000 [02:21<08:11, 15.63it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[74000] loss: 0.055 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 571.34it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 945.51it/s][A

                                                                                                                                                  [A
 23%|████████████████████████                                                                                | 2312/10000 [02:21<08:11, 15.63it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[74020] loss: 0.063 


                                                                                                                                                  
 23%|████████████████████████                                                                                | 2312/10000 [02:21<08:11, 15.63it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 502.43it/s][A


[74040] loss: 0.100 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 901.81it/s][A
 23%|████████████████████████                                                                                | 2314/10000 [02:21<08:22, 15.31it/s]
                                                                                                                                                  [A
 23%|████████████████████████                                                                                | 2314/10000 [02:21<08:22, 15.31it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[74060] loss: 0.048 


                                                                                                                                                  
 23%|████████████████████████                                                                                | 2314/10000 [02:21<08:22, 15.31it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 529.34it/s][A


[74080] loss: 0.061 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1027.76it/s][A

                                                                                                                                                  [A
 23%|████████████████████████                                                                                | 2314/10000 [02:21<08:22, 15.31it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 510.36it/s][A


[74100] loss: 0.061 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 639.18it/s][A
 23%|████████████████████████                                                                                | 2316/10000 [02:21<08:37, 14.86it/s]
                                                                                                                                                  [A
 23%|████████████████████████                                                                                | 2316/10000 [02:21<08:37, 14.86it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[74120] loss: 0.049 


                                                                                                                                                  
 23%|████████████████████████                                                                                | 2316/10000 [02:21<08:37, 14.86it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 477.18it/s][A


[74140] loss: 0.089 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 833.20it/s][A

                                                                                                                                                  [A
 23%|████████████████████████                                                                                | 2316/10000 [02:21<08:37, 14.86it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[74160] loss: 0.074 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 563.12it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 374.86it/s][A
 23%|████████████████████████                                                                                | 2318/10000 [02:21<08:48, 14.53it/s]
                                                                                                                                                  [A
 23%|████████████████████████                                                                                | 2318/10000 [02:21<08:48, 14.53it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[74180] loss: 0.087 


                                                                                                                                                  
 23%|████████████████████████                                                                                | 2318/10000 [02:21<08:48, 14.53it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 431.86it/s][A


[74200] loss: 0.071 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1060.51it/s][A

                                                                                                                                                  [A
 23%|████████████████████████                                                                                | 2318/10000 [02:21<08:48, 14.53it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[74220] loss: 0.039 


                                                                                                                                                  
 23%|████████████████████████                                                                                | 2318/10000 [02:21<08:48, 14.53it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 459.64it/s][A


[74240] loss: 0.205 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 515.40it/s][A
 23%|████████████████████████▏                                                                               | 2320/10000 [02:21<09:21, 13.69it/s]
                                                                                                                                                  [A
[A                                                                                                                                               

[74260] loss: 0.085 

 23%|████████████████████████▏                                                                               | 2320/10000 [02:21<09:21, 13.69it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 491.50it/s][A






Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 941.06it/s][A

                                                                                                                                                  [A
 23%|████████████████████████▏                                                                               | 2320/10000 [02:21<09:21, 13.69it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[74280] loss: 0.039 


                                                                                                                                                  
 23%|████████████████████████▏                                                                               | 2320/10000 [02:21<09:21, 13.69it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 478.85it/s][A


[74300] loss: 0.067 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1116.69it/s][A
 23%|████████████████████████▏                                                                               | 2322/10000 [02:21<09:25, 13.58it/s]
                                                                                                                                                  [A
 23%|████████████████████████▏                                                                               | 2322/10000 [02:21<09:25, 13.58it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[74320] loss: 0.059 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 520.81it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 905.90it/s][A

                                                                                                                                                  [A
 23%|████████████████████████▏                                                                               | 2322/10000 [02:21<09:25, 13.58it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[74340] loss: 0.085 


                                                                                                                                                  
 23%|████████████████████████▏                                                                               | 2322/10000 [02:21<09:25, 13.58it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 517.90it/s][A


[74360] loss: 0.060 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 969.11it/s][A
 23%|████████████████████████▏                                                                               | 2324/10000 [02:21<09:14, 13.84it/s]
                                                                                                                                                  [A
 23%|████████████████████████▏                                                                               | 2324/10000 [02:22<09:14, 13.84it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[74380] loss: 0.037 


                                                                                                                                                  
 23%|████████████████████████▏                                                                               | 2324/10000 [02:22<09:14, 13.84it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 575.94it/s][A


[74400] loss: 0.041 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 336.68it/s][A

                                                                                                                                                  [A
 23%|████████████████████████▏                                                                               | 2324/10000 [02:22<09:14, 13.84it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[74420] loss: 0.036 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 826.27it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2168.72it/s][A
 23%|████████████████████████▏                                                                               | 2326/10000 [02:22<08:34, 14.92it/s]
                                                                                                                                                  [A
 23%|████████████████████████▏                                                                               | 2326/10000 [02:22<08:34, 14.92it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[74440] loss: 0.057 


                                                                                                                                                  
 23%|████████████████████████▏                                                                               | 2326/10000 [02:22<08:34, 14.92it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 765.35it/s][A


[74460] loss: 0.040 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1207.69it/s][A

                                                                                                                                                  [A
 23%|████████████████████████▏                                                                               | 2326/10000 [02:22<08:34, 14.92it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[74480] loss: 0.032 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 821.29it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 987.59it/s][A

                                                                                                                                                  [A
 23%|████████████████████████▏                                                                               | 2326/10000 [02:22<08:34, 14.92it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[74500] loss: 0.086 


                                                                                                                                                  
 23%|████████████████████████▏                                                                               | 2326/10000 [02:22<08:34, 14.92it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 673.34it/s][A


[74520] loss: 0.084 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1340.46it/s][A
 23%|████████████████████████▏                                                                               | 2329/10000 [02:22<07:43, 16.53it/s]
                                                                                                                                                  [A
 23%|████████████████████████▏                                                                               | 2329/10000 [02:22<07:43, 16.53it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[74540] loss: 0.070 


                                                                                                                                                  
 23%|████████████████████████▏                                                                               | 2329/10000 [02:22<07:43, 16.53it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 779.61it/s][A


[74560] loss: 0.123 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 727.55it/s][A

                                                                                                                                                  [A
 23%|████████████████████████▏                                                                               | 2329/10000 [02:22<07:43, 16.53it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[74580] loss: 0.087 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 856.42it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2054.02it/s][A

                                                                                                                                                  [A
 23%|████████████████████████▏                                                                               | 2329/10000 [02:22<07:43, 16.53it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[74600] loss: 0.030 


                                                                                                                                                  
 23%|████████████████████████▏                                                                               | 2329/10000 [02:22<07:43, 16.53it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 629.52it/s][A


[74620] loss: 0.063 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 776.58it/s][A
 23%|████████████████████████▎                                                                               | 2332/10000 [02:22<07:14, 17.64it/s]
                                                                                                                                                  [A
 23%|████████████████████████▎                                                                               | 2332/10000 [02:22<07:14, 17.64it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[74640] loss: 0.051 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 719.17it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1255.03it/s][A

                                                                                                                                                  [A
 23%|████████████████████████▎                                                                               | 2332/10000 [02:22<07:14, 17.64it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[74660] loss: 0.093 


                                                                                                                                                  
 23%|████████████████████████▎                                                                               | 2332/10000 [02:22<07:14, 17.64it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[74680] loss: 0.049 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 675.05it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1486.29it/s][A
 23%|████████████████████████▎                                                                               | 2334/10000 [02:22<07:10, 17.81it/s]
                                                                                                                                                  [A
 23%|████████████████████████▎                                                                               | 2334/10000 [02:22<07:10, 17.81it/s]
                                                                                                                                                  [A
 23%|████████████████████████▎                                                                              

[74700] loss: 0.049 
[74720] loss: 0.050 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 662.71it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1112.25it/s][A

                                                                                                                                                  [A
 23%|████████████████████████▎                                                                               | 2334/10000 [02:22<07:10, 17.81it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 749.46it/s][A


[74740] loss: 0.028 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 713.92it/s][A
 23%|████████████████████████▎                                                                               | 2336/10000 [02:22<07:08, 17.87it/s]
                                                                                                                                                  [A
 23%|████████████████████████▎                                                                               | 2336/10000 [02:22<07:08, 17.87it/s]
                                                                                                                                                  [A
 23%|████████████████████████▎                                                                               | 2336/10000 [02:22<07:08, 17.87it/s]
Training Epoch:   0%|                                                                                       

[74760] loss: 0.089 
[74780] loss: 0.074 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 760.88it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1328.15it/s][A

                                                                                                                                                  [A
 23%|████████████████████████▎                                                                               | 2336/10000 [02:22<07:08, 17.87it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 736.49it/s][A


[74800] loss: 0.059 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2458.56it/s][A
 23%|████████████████████████▎                                                                               | 2338/10000 [02:22<06:58, 18.33it/s]
                                                                                                                                                  [A
 23%|████████████████████████▎                                                                               | 2338/10000 [02:22<06:58, 18.33it/s]
                                                                                                                                                  [A
 23%|████████████████████████▎                                                                               | 2338/10000 [02:22<06:58, 18.33it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[74820] loss: 0.040 
[74840] loss: 0.061 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1258.04it/s][A

                                                                                                                                                  [A
 23%|████████████████████████▎                                                                               | 2338/10000 [02:22<06:58, 18.33it/s]
                                                                                                                                                  [A
 23%|████████████████████████▎                                                                               | 2338/10000 [02:22<06:58, 18.33it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 727.72it/s][A


[74860] loss: 0.060 
[74880] loss: 0.102 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 346.49it/s][A
 23%|████████████████████████▎                                                                               | 2340/10000 [02:22<07:02, 18.12it/s]
                                                                                                                                                  [A
 23%|████████████████████████▎                                                                               | 2340/10000 [02:22<07:02, 18.12it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 785.37it/s][A


[74900] loss: 0.094 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 633.29it/s][A

                                                                                                                                                  [A
 23%|████████████████████████▎                                                                               | 2340/10000 [02:22<07:02, 18.12it/s]
                                                                                                                                                  [A
 23%|████████████████████████▎                                                                               | 2340/10000 [02:22<07:02, 18.12it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[74920] loss: 0.058 
[74940] loss: 0.031 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 617.73it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1296.94it/s][A
 23%|████████████████████████▎                                                                               | 2342/10000 [02:22<07:05, 18.01it/s]
                                                                                                                                                  [A
 23%|████████████████████████▎                                                                               | 2342/10000 [02:22<07:05, 18.01it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 758.35it/s][A


[74960] loss: 0.038 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 843.25it/s][A

                                                                                                                                                  [A
 23%|████████████████████████▎                                                                               | 2342/10000 [02:23<07:05, 18.01it/s]
                                                                                                                                                  [A
 23%|████████████████████████▎                                                                               | 2342/10000 [02:23<07:05, 18.01it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 605.21it/s][A


[74980] loss: 0.033 
[75000] loss: 0.052 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1276.03it/s][A
 23%|████████████████████████▍                                                                               | 2344/10000 [02:23<07:11, 17.76it/s]
                                                                                                                                                  [A
 23%|████████████████████████▍                                                                               | 2344/10000 [02:23<07:11, 17.76it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[75020] loss: 0.051 


                                                                                                                                                  
 23%|████████████████████████▍                                                                               | 2344/10000 [02:23<07:11, 17.76it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 586.94it/s][A


[75040] loss: 0.039 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1049.89it/s][A

                                                                                                                                                  [A
 23%|████████████████████████▍                                                                               | 2344/10000 [02:23<07:11, 17.76it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[75060] loss: 0.066 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 692.02it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 659.38it/s][A
 23%|████████████████████████▍                                                                               | 2346/10000 [02:23<07:20, 17.36it/s]
                                                                                                                                                  [A
 23%|████████████████████████▍                                                                               | 2346/10000 [02:23<07:20, 17.36it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[75080] loss: 0.035 


                                                                                                                                                  
 23%|████████████████████████▍                                                                               | 2346/10000 [02:23<07:20, 17.36it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 502.91it/s][A


[75100] loss: 0.056 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 529.85it/s][A

                                                                                                                                                  [A
 23%|████████████████████████▍                                                                               | 2346/10000 [02:23<07:20, 17.36it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 588.17it/s][A


[75120] loss: 0.038 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 586.37it/s][A
 23%|████████████████████████▍                                                                               | 2348/10000 [02:23<07:45, 16.45it/s]
                                                                                                                                                  [A
 23%|████████████████████████▍                                                                               | 2348/10000 [02:23<07:45, 16.45it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[75140] loss: 0.063 


                                                                                                                                                  
 23%|████████████████████████▍                                                                               | 2348/10000 [02:23<07:45, 16.45it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 480.83it/s][A


[75160] loss: 0.067 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 604.54it/s][A

                                                                                                                                                  [A
 23%|████████████████████████▍                                                                               | 2348/10000 [02:23<07:45, 16.45it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[75180] loss: 0.085 


                                                                                                                                                  
 23%|████████████████████████▍                                                                               | 2348/10000 [02:23<07:45, 16.45it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 495.84it/s][A


[75200] loss: 0.055 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 701.74it/s][A
 24%|████████████████████████▍                                                                               | 2350/10000 [02:23<08:18, 15.36it/s]
                                                                                                                                                  [A
 24%|████████████████████████▍                                                                               | 2350/10000 [02:23<08:18, 15.36it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 554.49it/s][A


[75220] loss: 0.074 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 876.37it/s][A

                                                                                                                                                  [A
 24%|████████████████████████▍                                                                               | 2350/10000 [02:23<08:18, 15.36it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[75240] loss: 0.054 


                                                                                                                                                  
 24%|████████████████████████▍                                                                               | 2350/10000 [02:23<08:18, 15.36it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 502.42it/s][A


[75260] loss: 0.055 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 796.19it/s][A
 24%|████████████████████████▍                                                                               | 2352/10000 [02:23<08:31, 14.94it/s]
                                                                                                                                                  [A
 24%|████████████████████████▍                                                                               | 2352/10000 [02:23<08:31, 14.94it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[75280] loss: 0.018 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 584.65it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1009.70it/s][A

                                                                                                                                                  [A
 24%|████████████████████████▍                                                                               | 2352/10000 [02:23<08:31, 14.94it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[75300] loss: 0.041 


                                                                                                                                                  
 24%|████████████████████████▍                                                                               | 2352/10000 [02:23<08:31, 14.94it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 469.66it/s][A


[75320] loss: 0.075 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 417.59it/s][A
 24%|████████████████████████▍                                                                               | 2354/10000 [02:23<08:43, 14.61it/s]
                                                                                                                                                  [A
 24%|████████████████████████▍                                                                               | 2354/10000 [02:23<08:43, 14.61it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[75340] loss: 0.047 


                                                                                                                                                  
 24%|████████████████████████▍                                                                               | 2354/10000 [02:23<08:43, 14.61it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 472.37it/s][A


[75360] loss: 0.009 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 571.59it/s][A

                                                                                                                                                  [A
 24%|████████████████████████▍                                                                               | 2354/10000 [02:23<08:43, 14.61it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[75380] loss: 0.110 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 558.93it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 860.02it/s][A
 24%|████████████████████████▌                                                                               | 2356/10000 [02:23<08:54, 14.29it/s]
                                                                                                                                                  [A
 24%|████████████████████████▌                                                                               | 2356/10000 [02:23<08:54, 14.29it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[75400] loss: 0.111 


                                                                                                                                                  
 24%|████████████████████████▌                                                                               | 2356/10000 [02:23<08:54, 14.29it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 525.73it/s][A


[75420] loss: 0.072 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 464.18it/s][A

                                                                                                                                                  [A
 24%|████████████████████████▌                                                                               | 2356/10000 [02:24<08:54, 14.29it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[75440] loss: 0.056 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 523.80it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 742.75it/s][A
 24%|████████████████████████▌                                                                               | 2358/10000 [02:24<08:58, 14.20it/s]
                                                                                                                                                  [A
 24%|████████████████████████▌                                                                               | 2358/10000 [02:24<08:58, 14.20it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[75460] loss: 0.058 


                                                                                                                                                  
 24%|████████████████████████▌                                                                               | 2358/10000 [02:24<08:58, 14.20it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 494.10it/s][A


[75480] loss: 0.026 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 473.13it/s][A

                                                                                                                                                  [A
 24%|████████████████████████▌                                                                               | 2358/10000 [02:24<08:58, 14.20it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[75500] loss: 0.076 


                                                                                                                                                  
 24%|████████████████████████▌                                                                               | 2358/10000 [02:24<08:58, 14.20it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 482.74it/s][A


[75520] loss: 0.032 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1687.85it/s][A
 24%|████████████████████████▌                                                                               | 2360/10000 [02:24<09:10, 13.89it/s]
                                                                                                                                                  [A
 24%|████████████████████████▌                                                                               | 2360/10000 [02:24<09:10, 13.89it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 629.77it/s][A


[75540] loss: 0.043 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 904.92it/s][A

                                                                                                                                                  [A
 24%|████████████████████████▌                                                                               | 2360/10000 [02:24<09:10, 13.89it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[75560] loss: 0.053 


                                                                                                                                                  
 24%|████████████████████████▌                                                                               | 2360/10000 [02:24<09:10, 13.89it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 515.87it/s][A


[75580] loss: 0.055 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 772.43it/s][A
 24%|████████████████████████▌                                                                               | 2362/10000 [02:24<08:55, 14.27it/s]
                                                                                                                                                  [A
 24%|████████████████████████▌                                                                               | 2362/10000 [02:24<08:55, 14.27it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 660.34it/s][A


[75600] loss: 0.058 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1307.04it/s][A

                                                                                                                                                  [A
 24%|████████████████████████▌                                                                               | 2362/10000 [02:24<08:55, 14.27it/s]
                                                                                                                                                  [A
[A                                                                                                                                               

[75620] loss: 0.054 


 24%|████████████████████████▌                                                                               | 2362/10000 [02:24<08:55, 14.27it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 594.91it/s][A


[75640] loss: 0.091 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 477.28it/s][A
 24%|████████████████████████▌                                                                               | 2364/10000 [02:24<08:40, 14.66it/s]
                                                                                                                                                  [A
 24%|████████████████████████▌                                                                               | 2364/10000 [02:24<08:40, 14.66it/s]
                                                                                                                                                  [A
 24%|████████████████████████▌                                                                               | 2364/10000 [02:24<08:40, 14.66it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[75660] loss: 0.061 
[75680] loss: 0.038 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 793.32it/s][A

                                                                                                                                                  [A
 24%|████████████████████████▌                                                                               | 2364/10000 [02:24<08:40, 14.66it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[75700] loss: 0.061 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 724.06it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1908.24it/s][A
 24%|████████████████████████▌                                                                               | 2366/10000 [02:24<08:17, 15.34it/s]
                                                                                                                                                  [A
 24%|████████████████████████▌                                                                               | 2366/10000 [02:24<08:17, 15.34it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[75720] loss: 0.038 


                                                                                                                                                  
 24%|████████████████████████▌                                                                               | 2366/10000 [02:24<08:17, 15.34it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 621.93it/s][A


[75740] loss: 0.052 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1247.19it/s][A

                                                                                                                                                  [A
 24%|████████████████████████▌                                                                               | 2366/10000 [02:24<08:17, 15.34it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[75760] loss: 0.065 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 653.70it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1193.26it/s][A
 24%|████████████████████████▋                                                                               | 2368/10000 [02:24<08:02, 15.81it/s]
                                                                                                                                                  [A
 24%|████████████████████████▋                                                                               | 2368/10000 [02:24<08:02, 15.81it/s]
                                                                                                                                                  [A
 24%|████████████████████████▋                                                                              

[75780] loss: 0.042 
[75800] loss: 0.062 




Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1963.63it/s][A

                                                                                                                                                  [A
 24%|████████████████████████▋                                                                               | 2368/10000 [02:24<08:02, 15.81it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[75820] loss: 0.051 


                                                                                                                                                  
 24%|████████████████████████▋                                                                               | 2368/10000 [02:24<08:02, 15.81it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 651.24it/s][A


[75840] loss: 0.073 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 725.28it/s][A
 24%|████████████████████████▋                                                                               | 2370/10000 [02:24<08:07, 15.66it/s]
                                                                                                                                                  [A
 24%|████████████████████████▋                                                                               | 2370/10000 [02:24<08:07, 15.66it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[75860] loss: 0.045 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 651.94it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1119.08it/s][A

                                                                                                                                                  [A
 24%|████████████████████████▋                                                                               | 2370/10000 [02:24<08:07, 15.66it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[75880] loss: 0.046 


                                                                                                                                                  
 24%|████████████████████████▋                                                                               | 2370/10000 [02:24<08:07, 15.66it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 620.54it/s][A


[75900] loss: 0.075 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1010.43it/s][A
 24%|████████████████████████▋                                                                               | 2372/10000 [02:24<08:02, 15.82it/s]
                                                                                                                                                  [A
 24%|████████████████████████▋                                                                               | 2372/10000 [02:24<08:02, 15.82it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[75920] loss: 0.056 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 746.35it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 964.65it/s][A

                                                                                                                                                  [A
 24%|████████████████████████▋                                                                               | 2372/10000 [02:25<08:02, 15.82it/s]
                                                                                                                                                  [A
 24%|████████████████████████▋                                                                               | 2372/10000 [02:25<08:02, 15.82it/s]
Training Epoch: 100%|██████████████████████████████████████████████████████████████████████████████████████

[75940] loss: 0.052 
[75960] loss: 0.058 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1103.47it/s][A
 24%|████████████████████████▋                                                                               | 2374/10000 [02:25<07:49, 16.25it/s]
                                                                                                                                                  [A
 24%|████████████████████████▋                                                                               | 2374/10000 [02:25<07:49, 16.25it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[75980] loss: 0.095 


                                                                                                                                                  
 24%|████████████████████████▋                                                                               | 2374/10000 [02:25<07:49, 16.25it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 639.76it/s][A


[76000] loss: 0.063 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 739.34it/s][A

                                                                                                                                                  [A
 24%|████████████████████████▋                                                                               | 2374/10000 [02:25<07:49, 16.25it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 824.25it/s][A


[76020] loss: 0.083 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 765.52it/s][A
 24%|████████████████████████▋                                                                               | 2376/10000 [02:25<07:28, 16.99it/s]
                                                                                                                                                  [A
 24%|████████████████████████▋                                                                               | 2376/10000 [02:25<07:28, 16.99it/s]
                                                                                                                                                  [A
 24%|████████████████████████▋                                                                               | 2376/10000 [02:25<07:28, 16.99it/s]
Training Epoch:   0%|                                                                                       

[76040] loss: 0.085 
[76060] loss: 0.067 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 669.12it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 936.23it/s][A

                                                                                                                                                  [A
 24%|████████████████████████▋                                                                               | 2376/10000 [02:25<07:28, 16.99it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 943.82it/s][A


[76080] loss: 0.047 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1043.88it/s][A

                                                                                                                                                  [A
 24%|████████████████████████▋                                                                               | 2376/10000 [02:25<07:28, 16.99it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[76100] loss: 0.047 


                                                                                                                                                  
 24%|████████████████████████▋                                                                               | 2376/10000 [02:25<07:28, 16.99it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 729.09it/s][A


[76120] loss: 0.048 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1426.63it/s][A
 24%|████████████████████████▋                                                                               | 2379/10000 [02:25<06:58, 18.20it/s]
                                                                                                                                                  [A
 24%|████████████████████████▋                                                                               | 2379/10000 [02:25<06:58, 18.20it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[76140] loss: 0.057 


                                                                                                                                                  
 24%|████████████████████████▋                                                                               | 2379/10000 [02:25<06:58, 18.20it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 620.94it/s][A


[76160] loss: 0.168 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1108.72it/s][A

                                                                                                                                                  [A
 24%|████████████████████████▋                                                                               | 2379/10000 [02:25<06:58, 18.20it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 781.92it/s][A


[76180] loss: 0.048 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 827.93it/s][A
 24%|████████████████████████▊                                                                               | 2381/10000 [02:25<06:56, 18.29it/s]
                                                                                                                                                  [A
 24%|████████████████████████▊                                                                               | 2381/10000 [02:25<06:56, 18.29it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[76200] loss: 0.042 


                                                                                                                                                  
 24%|████████████████████████▊                                                                               | 2381/10000 [02:25<06:56, 18.29it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 502.96it/s][A


[76220] loss: 0.061 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 813.16it/s][A

                                                                                                                                                  [A
 24%|████████████████████████▊                                                                               | 2381/10000 [02:25<06:56, 18.29it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[76240] loss: 0.053 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 599.81it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 925.08it/s][A
 24%|████████████████████████▊                                                                               | 2383/10000 [02:25<07:27, 17.00it/s]
                                                                                                                                                  [A
 24%|████████████████████████▊                                                                               | 2383/10000 [02:25<07:27, 17.00it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[76260] loss: 0.023 


                                                                                                                                                  
 24%|████████████████████████▊                                                                               | 2383/10000 [02:25<07:27, 17.00it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 443.40it/s][A


[76280] loss: 0.062 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 382.80it/s][A

                                                                                                                                                  [A
 24%|████████████████████████▊                                                                               | 2383/10000 [02:25<07:27, 17.00it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[76300] loss: 0.036 


                                                                                                                                                  
 24%|████████████████████████▊                                                                               | 2383/10000 [02:25<07:27, 17.00it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 478.60it/s][A


[76320] loss: 0.007 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 355.81it/s][A
 24%|████████████████████████▊                                                                               | 2385/10000 [02:25<08:16, 15.33it/s]
                                                                                                                                                  [A
 24%|████████████████████████▊                                                                               | 2385/10000 [02:25<08:16, 15.33it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[76340] loss: 0.070 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 566.42it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 929.18it/s][A

                                                                                                                                                  [A
 24%|████████████████████████▊                                                                               | 2385/10000 [02:25<08:16, 15.33it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[76360] loss: 0.036 


                                                                                                                                                  
 24%|████████████████████████▊                                                                               | 2385/10000 [02:25<08:16, 15.33it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 504.48it/s][A


[76380] loss: 0.052 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 889.57it/s][A
 24%|████████████████████████▊                                                                               | 2387/10000 [02:25<08:25, 15.07it/s]
                                                                                                                                                  [A
 24%|████████████████████████▊                                                                               | 2387/10000 [02:25<08:25, 15.07it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[76400] loss: 0.067 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 613.77it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 861.25it/s][A

                                                                                                                                                  [A
 24%|████████████████████████▊                                                                               | 2387/10000 [02:25<08:25, 15.07it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[76420] loss: 0.055 


                                                                                                                                                  
 24%|████████████████████████▊                                                                               | 2387/10000 [02:25<08:25, 15.07it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 486.13it/s][A


[76440] loss: 0.061 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 947.44it/s][A
 24%|████████████████████████▊                                                                               | 2389/10000 [02:25<08:32, 14.85it/s]
                                                                                                                                                  [A
 24%|████████████████████████▊                                                                               | 2389/10000 [02:26<08:32, 14.85it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[76460] loss: 0.044 


                                                                                                                                                  
 24%|████████████████████████▊                                                                               | 2389/10000 [02:26<08:32, 14.85it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 535.83it/s][A


[76480] loss: 0.142 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 523.18it/s][A

                                                                                                                                                  [A
 24%|████████████████████████▊                                                                               | 2389/10000 [02:26<08:32, 14.85it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 636.34it/s][A


[76500] loss: 0.063 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 929.59it/s][A
 24%|████████████████████████▊                                                                               | 2391/10000 [02:26<08:26, 15.04it/s]
                                                                                                                                                  [A
 24%|████████████████████████▊                                                                               | 2391/10000 [02:26<08:26, 15.04it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[76520] loss: 0.031 


                                                                                                                                                  
 24%|████████████████████████▊                                                                               | 2391/10000 [02:26<08:26, 15.04it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 507.37it/s][A


[76540] loss: 0.071 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 807.53it/s][A

                                                                                                                                                  [A
 24%|████████████████████████▊                                                                               | 2391/10000 [02:26<08:26, 15.04it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 641.74it/s][A


[76560] loss: 0.031 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 587.60it/s][A
 24%|████████████████████████▉                                                                               | 2393/10000 [02:26<08:23, 15.09it/s]
                                                                                                                                                  [A
 24%|████████████████████████▉                                                                               | 2393/10000 [02:26<08:23, 15.09it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[76580] loss: 0.023 


                                                                                                                                                  
 24%|████████████████████████▉                                                                               | 2393/10000 [02:26<08:23, 15.09it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 541.07it/s][A


[76600] loss: 0.057 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 495.55it/s][A

                                                                                                                                                  [A
 24%|████████████████████████▉                                                                               | 2393/10000 [02:26<08:23, 15.09it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[76620] loss: 0.065 


                                                                                                                                                  
 24%|████████████████████████▉                                                                               | 2393/10000 [02:26<08:23, 15.09it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 482.47it/s][A


[76640] loss: 0.053 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 559.54it/s][A
 24%|████████████████████████▉                                                                               | 2395/10000 [02:26<08:37, 14.70it/s]
                                                                                                                                                  [A
 24%|████████████████████████▉                                                                               | 2395/10000 [02:26<08:37, 14.70it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 594.78it/s][A


[76660] loss: 0.059 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 667.99it/s][A

                                                                                                                                                  [A
 24%|████████████████████████▉                                                                               | 2395/10000 [02:26<08:37, 14.70it/s]
                                                                                                                                                  [A

[76680] loss: 0.076 



 24%|████████████████████████▉                                                                               | 2395/10000 [02:26<08:37, 14.70it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 720.28it/s][A


[76700] loss: 0.054 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2088.80it/s][A
 24%|████████████████████████▉                                                                               | 2397/10000 [02:26<08:12, 15.44it/s]
                                                                                                                                                  [A
 24%|████████████████████████▉                                                                               | 2397/10000 [02:26<08:12, 15.44it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 973.08it/s][A


[76720] loss: 0.076 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 591.08it/s][A

                                                                                                                                                  [A
 24%|████████████████████████▉                                                                               | 2397/10000 [02:26<08:12, 15.44it/s]
                                                                                                                                                  [A
 24%|████████████████████████▉                                                                               | 2397/10000 [02:26<08:12, 15.44it/s]

[76740] loss: 0.062 
[76760] loss: 0.049 



Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 772.13it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1320.21it/s][A

                                                                                                                                                  [A
 24%|████████████████████████▉                                                                               | 2397/10000 [02:26<08:12, 15.44it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[76780] loss: 0.059 


                                                                                                                                                  
 24%|████████████████████████▉                                                                               | 2397/10000 [02:26<08:12, 15.44it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 639.42it/s][A


[76800] loss: 0.069 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 640.16it/s][A
 24%|████████████████████████▉                                                                               | 2400/10000 [02:26<07:30, 16.86it/s]
                                                                                                                                                  [A
 24%|████████████████████████▉                                                                               | 2400/10000 [02:26<07:30, 16.86it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[76820] loss: 0.064 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 711.67it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2009.73it/s][A

                                                                                                                                                  [A
 24%|████████████████████████▉                                                                               | 2400/10000 [02:26<07:30, 16.86it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[76840] loss: 0.052 


                                                                                                                                                  
 24%|████████████████████████▉                                                                               | 2400/10000 [02:26<07:30, 16.86it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 594.53it/s][A


[76860] loss: 0.079 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1349.95it/s][A
 24%|████████████████████████▉                                                                               | 2402/10000 [02:26<07:30, 16.87it/s]
                                                                                                                                                  [A
 24%|████████████████████████▉                                                                               | 2402/10000 [02:26<07:30, 16.87it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 742.63it/s][A

[76880] loss: 0.070 




Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1194.28it/s][A

                                                                                                                                                  [A
 24%|████████████████████████▉                                                                               | 2402/10000 [02:26<07:30, 16.87it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[76900] loss: 0.063 


                                                                                                                                                  
 24%|████████████████████████▉                                                                               | 2402/10000 [02:26<07:30, 16.87it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 688.95it/s][A


[76920] loss: 0.041 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 662.50it/s][A
 24%|█████████████████████████                                                                               | 2404/10000 [02:26<07:19, 17.27it/s]
                                                                                                                                                  [A
 24%|█████████████████████████                                                                               | 2404/10000 [02:26<07:19, 17.27it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[76940] loss: 0.055 


                                                                                                                                                  
 24%|█████████████████████████                                                                               | 2404/10000 [02:26<07:19, 17.27it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 653.64it/s][A


[76960] loss: 0.052 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 467.75it/s][A

                                                                                                                                                  [A
 24%|█████████████████████████                                                                               | 2404/10000 [02:26<07:19, 17.27it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 796.34it/s][A


[76980] loss: 0.096 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1753.47it/s][A
 24%|█████████████████████████                                                                               | 2406/10000 [02:27<07:12, 17.56it/s]
                                                                                                                                                  [A
 24%|█████████████████████████                                                                               | 2406/10000 [02:27<07:12, 17.56it/s]
                                                                                                                                                  [A
 24%|█████████████████████████                                                                               | 2406/10000 [02:27<07:12, 17.56it/s]
Training Epoch:   0%|                                                                                       

[77000] loss: 0.073 
[77020] loss: 0.070 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 652.13it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1284.63it/s][A

                                                                                                                                                  [A
 24%|█████████████████████████                                                                               | 2406/10000 [02:27<07:12, 17.56it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 723.29it/s][A


[77040] loss: 0.066 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 786.63it/s][A
 24%|█████████████████████████                                                                               | 2408/10000 [02:27<07:09, 17.67it/s]
                                                                                                                                                  [A
 24%|█████████████████████████                                                                               | 2408/10000 [02:27<07:09, 17.67it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[77060] loss: 0.064 


                                                                                                                                                  
 24%|█████████████████████████                                                                               | 2408/10000 [02:27<07:09, 17.67it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 619.54it/s][A


[77080] loss: 0.069 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1582.16it/s][A

                                                                                                                                                  [A
 24%|█████████████████████████                                                                               | 2408/10000 [02:27<07:09, 17.67it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[77100] loss: 0.074 


                                                                                                                                                  
 24%|█████████████████████████                                                                               | 2408/10000 [02:27<07:09, 17.67it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 613.61it/s][A


[77120] loss: 0.219 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1655.21it/s][A
 24%|█████████████████████████                                                                               | 2410/10000 [02:27<07:20, 17.24it/s]
                                                                                                                                                  [A
 24%|█████████████████████████                                                                               | 2410/10000 [02:27<07:20, 17.24it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 735.69it/s][A


[77140] loss: 0.040 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 777.88it/s][A

                                                                                                                                                  [A
 24%|█████████████████████████                                                                               | 2410/10000 [02:27<07:20, 17.24it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[77160] loss: 0.079 


                                                                                                                                                  
 24%|█████████████████████████                                                                               | 2410/10000 [02:27<07:20, 17.24it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 549.05it/s][A


[77180] loss: 0.040 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 608.22it/s][A
 24%|█████████████████████████                                                                               | 2412/10000 [02:27<07:24, 17.07it/s]
                                                                                                                                                  [A
 24%|█████████████████████████                                                                               | 2412/10000 [02:27<07:24, 17.07it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[77200] loss: 0.035 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 724.34it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 898.72it/s][A

                                                                                                                                                  [A
 24%|█████████████████████████                                                                               | 2412/10000 [02:27<07:24, 17.07it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[77220] loss: 0.051 


                                                                                                                                                  
 24%|█████████████████████████                                                                               | 2412/10000 [02:27<07:24, 17.07it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[77240] loss: 0.085 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 563.73it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1086.33it/s][A
 24%|█████████████████████████                                                                               | 2414/10000 [02:27<07:27, 16.94it/s]
                                                                                                                                                  [A
 24%|█████████████████████████                                                                               | 2414/10000 [02:27<07:27, 16.94it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[77260] loss: 0.048 


                                                                                                                                                  
 24%|█████████████████████████                                                                               | 2414/10000 [02:27<07:27, 16.94it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 579.98it/s][A


[77280] loss: 0.027 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1344.76it/s][A

                                                                                                                                                  [A
 24%|█████████████████████████                                                                               | 2414/10000 [02:27<07:27, 16.94it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[77300] loss: 0.061 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 686.20it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1096.55it/s][A
 24%|█████████████████████████▏                                                                              | 2416/10000 [02:27<07:29, 16.89it/s]
                                                                                                                                                  [A
 24%|█████████████████████████▏                                                                              | 2416/10000 [02:27<07:29, 16.89it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[77320] loss: 0.069 


                                                                                                                                                  
 24%|█████████████████████████▏                                                                              | 2416/10000 [02:27<07:29, 16.89it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 679.26it/s][A


[77340] loss: 0.077 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 635.50it/s][A

                                                                                                                                                  [A
 24%|█████████████████████████▏                                                                              | 2416/10000 [02:27<07:29, 16.89it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[77360] loss: 0.051 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 580.43it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 901.61it/s][A
 24%|█████████████████████████▏                                                                              | 2418/10000 [02:27<07:33, 16.72it/s]
                                                                                                                                                  [A
 24%|█████████████████████████▏                                                                              | 2418/10000 [02:27<07:33, 16.72it/s]
                                                                                                                                                  [A
 24%|█████████████████████████▏                                                                             

[77380] loss: 0.049 
[77400] loss: 0.052 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 532.82it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 862.14it/s][A

                                                                                                                                                  [A
 24%|█████████████████████████▏                                                                              | 2418/10000 [02:27<07:33, 16.72it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[77420] loss: 0.031 


                                                                                                                                                  
 24%|█████████████████████████▏                                                                              | 2418/10000 [02:27<07:33, 16.72it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 474.74it/s][A


[77440] loss: 0.018 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 702.68it/s][A
 24%|█████████████████████████▏                                                                              | 2420/10000 [02:27<08:08, 15.51it/s]
                                                                                                                                                  [A
 24%|█████████████████████████▏                                                                              | 2420/10000 [02:27<08:08, 15.51it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 568.77it/s][A


[77460] loss: 0.060 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1421.32it/s][A

                                                                                                                                                  [A
 24%|█████████████████████████▏                                                                              | 2420/10000 [02:27<08:08, 15.51it/s]
                                                                                                                                                  [A
 24%|█████████████████████████▏                                                                              | 2420/10000 [02:28<08:08, 15.51it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 450.16it/s][A


[77480] loss: 0.054 
[77500] loss: 0.047 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 733.91it/s][A
 24%|█████████████████████████▏                                                                              | 2422/10000 [02:28<08:32, 14.79it/s]
                                                                                                                                                  [A
 24%|█████████████████████████▏                                                                              | 2422/10000 [02:28<08:32, 14.79it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[77520] loss: 0.067 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 552.87it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 948.29it/s][A

                                                                                                                                                  [A
 24%|█████████████████████████▏                                                                              | 2422/10000 [02:28<08:32, 14.79it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[77540] loss: 0.038 


                                                                                                                                                  
 24%|█████████████████████████▏                                                                              | 2422/10000 [02:28<08:32, 14.79it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 472.92it/s][A


[77560] loss: 0.066 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 898.52it/s][A
 24%|█████████████████████████▏                                                                              | 2424/10000 [02:28<08:42, 14.49it/s]
                                                                                                                                                  [A
 24%|█████████████████████████▏                                                                              | 2424/10000 [02:28<08:42, 14.49it/s]
                                                                                                                                                  [A
 24%|█████████████████████████▏                                                                              | 2424/10000 [02:28<08:42, 14.49it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[77580] loss: 0.045 
[77600] loss: 0.044 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 833.53it/s][A

                                                                                                                                                  [A
 24%|█████████████████████████▏                                                                              | 2424/10000 [02:28<08:42, 14.49it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 580.69it/s][A


[77620] loss: 0.024 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 879.31it/s][A
 24%|█████████████████████████▏                                                                              | 2426/10000 [02:28<08:47, 14.35it/s]
                                                                                                                                                  [A
 24%|█████████████████████████▏                                                                              | 2426/10000 [02:28<08:47, 14.35it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[77640] loss: 0.040 


                                                                                                                                                  
 24%|█████████████████████████▏                                                                              | 2426/10000 [02:28<08:47, 14.35it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 454.89it/s][A


[77660] loss: 0.045 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 563.90it/s][A

                                                                                                                                                  [A
 24%|█████████████████████████▏                                                                              | 2426/10000 [02:28<08:47, 14.35it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 603.24it/s][A


[77680] loss: 0.053 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 602.20it/s][A
 24%|█████████████████████████▎                                                                              | 2428/10000 [02:28<08:49, 14.29it/s]
                                                                                                                                                  [A
 24%|█████████████████████████▎                                                                              | 2428/10000 [02:28<08:49, 14.29it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[77700] loss: 0.082 


                                                                                                                                                  
 24%|█████████████████████████▎                                                                              | 2428/10000 [02:28<08:49, 14.29it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 555.63it/s][A


[77720] loss: 0.052 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 615.09it/s][A

                                                                                                                                                  [A
 24%|█████████████████████████▎                                                                              | 2428/10000 [02:28<08:49, 14.29it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[77740] loss: 0.042 


                                                                                                                                                  
 24%|█████████████████████████▎                                                                              | 2428/10000 [02:28<08:49, 14.29it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 514.93it/s][A


[77760] loss: 0.038 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 863.91it/s][A
 24%|█████████████████████████▎                                                                              | 2430/10000 [02:28<08:48, 14.32it/s]
                                                                                                                                                  [A
 24%|█████████████████████████▎                                                                              | 2430/10000 [02:28<08:48, 14.32it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 639.68it/s][A


[77780] loss: 0.035 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 912.80it/s][A

                                                                                                                                                  [A
 24%|█████████████████████████▎                                                                              | 2430/10000 [02:28<08:48, 14.32it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[77800] loss: 0.053 


                                                                                                                                                  
 24%|█████████████████████████▎                                                                              | 2430/10000 [02:28<08:48, 14.32it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 471.83it/s][A


[77820] loss: 0.075 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 797.24it/s][A
 24%|█████████████████████████▎                                                                              | 2432/10000 [02:28<08:47, 14.34it/s]
                                                                                                                                                  [A
 24%|█████████████████████████▎                                                                              | 2432/10000 [02:28<08:47, 14.34it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[77840] loss: 0.081 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 631.08it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1277.97it/s][A

                                                                                                                                                  [A
 24%|█████████████████████████▎                                                                              | 2432/10000 [02:28<08:47, 14.34it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[77860] loss: 0.038 


                                                                                                                                                  
 24%|█████████████████████████▎                                                                              | 2432/10000 [02:28<08:47, 14.34it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 624.87it/s][A


[77880] loss: 0.058 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 560.81it/s][A
 24%|█████████████████████████▎                                                                              | 2434/10000 [02:28<08:28, 14.89it/s]
                                                                                                                                                  [A
 24%|█████████████████████████▎                                                                              | 2434/10000 [02:28<08:28, 14.89it/s]
                                                                                                                                                  [A
 24%|█████████████████████████▎                                                                              | 2434/10000 [02:28<08:28, 14.89it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[77900] loss: 0.076 
[77920] loss: 0.074 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 559.46it/s][A

                                                                                                                                                  [A
 24%|█████████████████████████▎                                                                              | 2434/10000 [02:28<08:28, 14.89it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 749.83it/s][A


[77940] loss: 0.113 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1261.07it/s][A
 24%|█████████████████████████▎                                                                              | 2436/10000 [02:28<08:01, 15.72it/s]
                                                                                                                                                  [A
 24%|█████████████████████████▎                                                                              | 2436/10000 [02:28<08:01, 15.72it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[77960] loss: 0.068 


                                                                                                                                                  
 24%|█████████████████████████▎                                                                              | 2436/10000 [02:29<08:01, 15.72it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 599.14it/s][A


[77980] loss: 0.051 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 711.38it/s][A

                                                                                                                                                  [A
 24%|█████████████████████████▎                                                                              | 2436/10000 [02:29<08:01, 15.72it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 755.48it/s][A


[78000] loss: 0.049 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1262.96it/s][A
 24%|█████████████████████████▎                                                                              | 2438/10000 [02:29<07:48, 16.13it/s]
                                                                                                                                                  [A
 24%|█████████████████████████▎                                                                              | 2438/10000 [02:29<07:48, 16.13it/s]
                                                                                                                                                  [A
 24%|█████████████████████████▎                                                                              | 2438/10000 [02:29<07:48, 16.13it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[78020] loss: 0.062 
[78040] loss: 0.045 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 454.82it/s][A

                                                                                                                                                  [A
 24%|█████████████████████████▎                                                                              | 2438/10000 [02:29<07:48, 16.13it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[78060] loss: 0.045 


                                                                                                                                                  
 24%|█████████████████████████▎                                                                              | 2438/10000 [02:29<07:48, 16.13it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 605.20it/s][A


[78080] loss: 0.091 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1109.02it/s][A
 24%|█████████████████████████▍                                                                              | 2440/10000 [02:29<07:53, 15.97it/s]
                                                                                                                                                  [A
 24%|█████████████████████████▍                                                                              | 2440/10000 [02:29<07:53, 15.97it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[78100] loss: 0.090 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 716.22it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1572.67it/s][A

                                                                                                                                                  [A
 24%|█████████████████████████▍                                                                              | 2440/10000 [02:29<07:53, 15.97it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[78120] loss: 0.041 


                                                                                                                                                  
 24%|█████████████████████████▍                                                                              | 2440/10000 [02:29<07:53, 15.97it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 527.19it/s][A


[78140] loss: 0.054 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 562.62it/s][A
 24%|█████████████████████████▍                                                                              | 2442/10000 [02:29<07:57, 15.81it/s]
                                                                                                                                                  [A
 24%|█████████████████████████▍                                                                              | 2442/10000 [02:29<07:57, 15.81it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 658.07it/s][A


[78160] loss: 0.036 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 751.80it/s][A

                                                                                                                                                  [A
 24%|█████████████████████████▍                                                                              | 2442/10000 [02:29<07:57, 15.81it/s]
                                                                                                                                                  [A


[78180] loss: 0.042 


 24%|█████████████████████████▍                                                                              | 2442/10000 [02:29<07:57, 15.81it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 669.71it/s][A


[78200] loss: 0.058 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1292.54it/s][A
 24%|█████████████████████████▍                                                                              | 2444/10000 [02:29<07:48, 16.14it/s]
                                                                                                                                                  [A
 24%|█████████████████████████▍                                                                              | 2444/10000 [02:29<07:48, 16.14it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[78220] loss: 0.057 


                                                                                                                                                  
 24%|█████████████████████████▍                                                                              | 2444/10000 [02:29<07:48, 16.14it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 665.32it/s][A


[78240] loss: 0.121 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 625.83it/s][A

                                                                                                                                                  [A
 24%|█████████████████████████▍                                                                              | 2444/10000 [02:29<07:48, 16.14it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 789.84it/s][A


[78260] loss: 0.068 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 718.45it/s][A
 24%|█████████████████████████▍                                                                              | 2446/10000 [02:29<07:29, 16.81it/s]
                                                                                                                                                  [A
 24%|█████████████████████████▍                                                                              | 2446/10000 [02:29<07:29, 16.81it/s]
                                                                                                                                                  [A
 24%|█████████████████████████▍                                                                              | 2446/10000 [02:29<07:29, 16.81it/s]
Training Epoch:   0%|                                                                                       

[78280] loss: 0.048 
[78300] loss: 0.058 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 635.06it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1401.84it/s][A

                                                                                                                                                  [A
 24%|█████████████████████████▍                                                                              | 2446/10000 [02:29<07:29, 16.81it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 844.12it/s][A


[78320] loss: 0.057 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 700.10it/s][A
 24%|█████████████████████████▍                                                                              | 2448/10000 [02:29<07:15, 17.33it/s]
                                                                                                                                                  [A
 24%|█████████████████████████▍                                                                              | 2448/10000 [02:29<07:15, 17.33it/s]
                                                                                                                                                  [A

[78340] loss: 0.042 



 24%|█████████████████████████▍                                                                              | 2448/10000 [02:29<07:15, 17.33it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 671.10it/s][A


[78360] loss: 0.046 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 674.98it/s][A

                                                                                                                                                  [A
 24%|█████████████████████████▍                                                                              | 2448/10000 [02:29<07:15, 17.33it/s]
                                                                                                                                                  [A
 24%|█████████████████████████▍                                                                              | 2448/10000 [02:29<07:15, 17.33it/s]

[78380] loss: 0.049 
[78400] loss: 0.021 



Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 599.57it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1400.90it/s][A
 24%|█████████████████████████▍                                                                              | 2450/10000 [02:29<07:19, 17.20it/s]
                                                                                                                                                  [A
 24%|█████████████████████████▍                                                                              | 2450/10000 [02:29<07:19, 17.20it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 684.74it/s][A


[78420] loss: 0.056 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1239.09it/s][A

                                                                                                                                                  [A
 24%|█████████████████████████▍                                                                              | 2450/10000 [02:29<07:19, 17.20it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[78440] loss: 0.068 


                                                                                                                                                  
 24%|█████████████████████████▍                                                                              | 2450/10000 [02:29<07:19, 17.20it/s]

[78460] loss: 0.062 



Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 444.85it/s][A

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 731.61it/s][A
 25%|█████████████████████████▌                                                                              | 2452/10000 [02:29<07:45, 16.21it/s]
                                                                                                                                                  [A
 25%|█████████████████████████▌                                                                              | 2452/10000 [02:29<07:45, 16.21it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 534.59it/s][A


[78480] loss: 0.117 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 662.82it/s][A

                                                                                                                                                  [A
 25%|█████████████████████████▌                                                                              | 2452/10000 [02:30<07:45, 16.21it/s]


[78500] loss: 0.047 


                                                                                                                                                  [A
 25%|█████████████████████████▌                                                                              | 2452/10000 [02:30<07:45, 16.21it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[78520] loss: 0.089 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 481.01it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 931.03it/s][A
 25%|█████████████████████████▌                                                                              | 2454/10000 [02:30<08:13, 15.28it/s]
                                                                                                                                                  [A
 25%|█████████████████████████▌                                                                              | 2454/10000 [02:30<08:13, 15.28it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[78540] loss: 0.044 


                                                                                                                                                  
 25%|█████████████████████████▌                                                                              | 2454/10000 [02:30<08:13, 15.28it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 491.67it/s][A


[78560] loss: 0.100 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 642.90it/s][A

                                                                                                                                                  [A
 25%|█████████████████████████▌                                                                              | 2454/10000 [02:30<08:13, 15.28it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 576.65it/s][A


[78580] loss: 0.053 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 807.06it/s][A
 25%|█████████████████████████▌                                                                              | 2456/10000 [02:30<08:28, 14.84it/s]
                                                                                                                                                  [A
 25%|█████████████████████████▌                                                                              | 2456/10000 [02:30<08:28, 14.84it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[78600] loss: 0.065 


                                                                                                                                                  
 25%|█████████████████████████▌                                                                              | 2456/10000 [02:30<08:28, 14.84it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 424.57it/s][A


[78620] loss: 0.067 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 701.74it/s][A

                                                                                                                                                  [A
[A                                                                                                                                               

[78640] loss: 0.043 


 25%|█████████████████████████▌                                                                              | 2456/10000 [02:30<08:28, 14.84it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 473.96it/s][A

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 840.71it/s][A
 25%|█████████████████████████▌                                                                              | 2458/10000 [02:30<08:58, 13.99it/s]
                                                                                                                                                  [A
 25%|█████████████████████████▌                                                                              | 2458/10000 [02:30<08:58, 13.99it/s]
                                                                                                            

[78660] loss: 0.027 
[78680] loss: 0.051 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 439.47it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 833.03it/s][A

                                                                                                                                                  [A
 25%|█████████████████████████▌                                                                              | 2458/10000 [02:30<08:58, 13.99it/s]
                                                                                                                                                  [A
 25%|█████████████████████████▌                                                                              | 2458/10000 [02:30<08:58, 13.99it/s]
Training Epoch: 100%|██████████████████████████████████████████████████████████████████████████████████████

[78700] loss: 0.073 
[78720] loss: 0.027 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 596.37it/s][A
 25%|█████████████████████████▌                                                                              | 2460/10000 [02:30<09:19, 13.47it/s]
                                                                                                                                                  [A
 25%|█████████████████████████▌                                                                              | 2460/10000 [02:30<09:19, 13.47it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[78740] loss: 0.037 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 484.70it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1264.49it/s][A

                                                                                                                                                  [A
 25%|█████████████████████████▌                                                                              | 2460/10000 [02:30<09:19, 13.47it/s]
                                                                                                                                                  [A
 25%|█████████████████████████▌                                                                              | 2460/10000 [02:30<09:19, 13.47it/s]
Training Epoch: 100%|██████████████████████████████████████████████████████████████████████████████████████

[78760] loss: 0.049 
[78780] loss: 0.070 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 753.56it/s][A
 25%|█████████████████████████▌                                                                              | 2462/10000 [02:30<09:23, 13.37it/s]
                                                                                                                                                  [A
 25%|█████████████████████████▌                                                                              | 2462/10000 [02:30<09:23, 13.37it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 569.47it/s][A


[78800] loss: 0.065 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 625.18it/s][A

                                                                                                                                                  [A
 25%|█████████████████████████▌                                                                              | 2462/10000 [02:30<09:23, 13.37it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[78820] loss: 0.046 


                                                                                                                                                  
 25%|█████████████████████████▌                                                                              | 2462/10000 [02:30<09:23, 13.37it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 489.77it/s][A


[78840] loss: 0.051 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 717.34it/s][A
 25%|█████████████████████████▋                                                                              | 2464/10000 [02:30<09:13, 13.62it/s]
                                                                                                                                                  [A
 25%|█████████████████████████▋                                                                              | 2464/10000 [02:30<09:13, 13.62it/s]
                                                                                                                                                  [A
 25%|█████████████████████████▋                                                                              | 2464/10000 [02:30<09:13, 13.62it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[78860] loss: 0.059 
[78880] loss: 0.080 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 811.43it/s][A

                                                                                                                                                  [A
 25%|█████████████████████████▋                                                                              | 2464/10000 [02:30<09:13, 13.62it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 559.64it/s][A


[78900] loss: 0.057 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 476.46it/s][A
 25%|█████████████████████████▋                                                                              | 2466/10000 [02:30<09:02, 13.89it/s]
                                                                                                                                                  [A
 25%|█████████████████████████▋                                                                              | 2466/10000 [02:30<09:02, 13.89it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[78920] loss: 0.058 


                                                                                                                                                  
 25%|█████████████████████████▋                                                                              | 2466/10000 [02:31<09:02, 13.89it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 501.31it/s][A


[78940] loss: 0.064 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 595.19it/s][A

                                                                                                                                                  [A
 25%|█████████████████████████▋                                                                              | 2466/10000 [02:31<09:02, 13.89it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 672.75it/s][A


[78960] loss: 0.075 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1251.66it/s][A
 25%|█████████████████████████▋                                                                              | 2468/10000 [02:31<08:51, 14.17it/s]
                                                                                                                                                  [A
 25%|█████████████████████████▋                                                                              | 2468/10000 [02:31<08:51, 14.17it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[78980] loss: 0.057 


                                                                                                                                                  
 25%|█████████████████████████▋                                                                              | 2468/10000 [02:31<08:51, 14.17it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 638.80it/s][A


[79000] loss: 0.051 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 633.48it/s][A

                                                                                                                                                  [A
 25%|█████████████████████████▋                                                                              | 2468/10000 [02:31<08:51, 14.17it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[79020] loss: 0.054 


                                                                                                                                                  
 25%|█████████████████████████▋                                                                              | 2468/10000 [02:31<08:51, 14.17it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 627.61it/s][A


[79040] loss: 0.030 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1181.16it/s][A
 25%|█████████████████████████▋                                                                              | 2470/10000 [02:31<08:28, 14.79it/s]
                                                                                                                                                  [A
 25%|█████████████████████████▋                                                                              | 2470/10000 [02:31<08:28, 14.79it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 825.80it/s][A


[79060] loss: 0.070 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 986.66it/s][A

                                                                                                                                                  [A
 25%|█████████████████████████▋                                                                              | 2470/10000 [02:31<08:28, 14.79it/s]
                                                                                                                                                  [A
 25%|█████████████████████████▋                                                                              | 2470/10000 [02:31<08:28, 14.79it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[79080] loss: 0.071 
[79100] loss: 0.077 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 672.61it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1124.48it/s][A
 25%|█████████████████████████▋                                                                              | 2472/10000 [02:31<07:50, 15.99it/s]
                                                                                                                                                  [A
 25%|█████████████████████████▋                                                                              | 2472/10000 [02:31<07:50, 15.99it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 712.86it/s][A


[79120] loss: 0.068 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1177.51it/s][A

                                                                                                                                                  [A
 25%|█████████████████████████▋                                                                              | 2472/10000 [02:31<07:50, 15.99it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[79140] loss: 0.090 


                                                                                                                                                  
 25%|█████████████████████████▋                                                                              | 2472/10000 [02:31<07:50, 15.99it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 376.91it/s][A


[79160] loss: 0.075 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 638.69it/s][A
 25%|█████████████████████████▋                                                                              | 2474/10000 [02:31<08:15, 15.20it/s]
                                                                                                                                                  [A
 25%|█████████████████████████▋                                                                              | 2474/10000 [02:31<08:15, 15.20it/s]
                                                                                                                                                  [A
 25%|█████████████████████████▋                                                                              | 2474/10000 [02:31<08:15, 15.20it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[79180] loss: 0.069 
[79200] loss: 0.107 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 796.19it/s][A

                                                                                                                                                  [A
 25%|█████████████████████████▋                                                                              | 2474/10000 [02:31<08:15, 15.20it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 706.72it/s][A


[79220] loss: 0.035 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 497.78it/s][A
 25%|█████████████████████████▊                                                                              | 2476/10000 [02:31<07:57, 15.75it/s]
                                                                                                                                                  [A
 25%|█████████████████████████▊                                                                              | 2476/10000 [02:31<07:57, 15.75it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[79240] loss: 0.055 


                                                                                                                                                  
 25%|█████████████████████████▊                                                                              | 2476/10000 [02:31<07:57, 15.75it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 729.16it/s][A


[79260] loss: 0.054 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1216.09it/s][A

                                                                                                                                                  [A
 25%|█████████████████████████▊                                                                              | 2476/10000 [02:31<07:57, 15.75it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[79280] loss: 0.047 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 703.27it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1256.53it/s][A
 25%|█████████████████████████▊                                                                              | 2478/10000 [02:31<07:37, 16.45it/s]
                                                                                                                                                  [A
 25%|█████████████████████████▊                                                                              | 2478/10000 [02:31<07:37, 16.45it/s]
                                                                                                                                                  [A
 25%|█████████████████████████▊                                                                             

[79300] loss: 0.028 
[79320] loss: 0.074 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 819.84it/s][A

                                                                                                                                                  [A
 25%|█████████████████████████▊                                                                              | 2478/10000 [02:31<07:37, 16.45it/s]
                                                                                                                                                  [A
 25%|█████████████████████████▊                                                                              | 2478/10000 [02:31<07:37, 16.45it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 688.74it/s][A


[79340] loss: 0.050 
[79360] loss: 0.025 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1024.50it/s][A
 25%|█████████████████████████▊                                                                              | 2480/10000 [02:31<07:23, 16.95it/s]
                                                                                                                                                  [A
 25%|█████████████████████████▊                                                                              | 2480/10000 [02:31<07:23, 16.95it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 873.79it/s][A


[79380] loss: 0.040 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1829.98it/s][A

                                                                                                                                                  [A
 25%|█████████████████████████▊                                                                              | 2480/10000 [02:31<07:23, 16.95it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[79400] loss: 0.072 


                                                                                                                                                  
 25%|█████████████████████████▊                                                                              | 2480/10000 [02:31<07:23, 16.95it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 736.67it/s][A


[79420] loss: 0.094 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1607.01it/s][A

                                                                                                                                                  [A
 25%|█████████████████████████▊                                                                              | 2480/10000 [02:31<07:23, 16.95it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 757.27it/s][A


[79440] loss: 0.063 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 889.57it/s][A
 25%|█████████████████████████▊                                                                              | 2483/10000 [02:31<06:58, 17.96it/s]
                                                                                                                                                  [A
 25%|█████████████████████████▊                                                                              | 2483/10000 [02:31<06:58, 17.96it/s]
                                                                                                                                                  [A
 25%|█████████████████████████▊                                                                              | 2483/10000 [02:32<06:58, 17.96it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[79460] loss: 0.032 
[79480] loss: 0.040 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 676.17it/s][A

                                                                                                                                                  [A
 25%|█████████████████████████▊                                                                              | 2483/10000 [02:32<06:58, 17.96it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[79500] loss: 0.043 


                                                                                                                                                  
 25%|█████████████████████████▊                                                                              | 2483/10000 [02:32<06:58, 17.96it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 501.25it/s][A

[79520] loss: 0.118 




Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 688.72it/s][A
 25%|█████████████████████████▊                                                                              | 2485/10000 [02:32<07:28, 16.77it/s]
                                                                                                                                                  [A
 25%|█████████████████████████▊                                                                              | 2485/10000 [02:32<07:28, 16.77it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 593.33it/s][A


[79540] loss: 0.078 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 707.42it/s][A

                                                                                                                                                  [A
 25%|█████████████████████████▊                                                                              | 2485/10000 [02:32<07:28, 16.77it/s]
                                                                                                                                                  [A
 25%|█████████████████████████▊                                                                              | 2485/10000 [02:32<07:28, 16.77it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[79560] loss: 0.044 
[79580] loss: 0.054 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 380.65it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 388.94it/s][A
 25%|█████████████████████████▊                                                                              | 2487/10000 [02:32<08:18, 15.08it/s]
                                                                                                                                                  [A
 25%|█████████████████████████▊                                                                              | 2487/10000 [02:32<08:18, 15.08it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[79600] loss: 0.055 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 408.97it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 555.46it/s][A

                                                                                                                                                  [A
 25%|█████████████████████████▊                                                                              | 2487/10000 [02:32<08:18, 15.08it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[79620] loss: 0.048 


                                                                                                                                                  
 25%|█████████████████████████▊                                                                              | 2487/10000 [02:32<08:18, 15.08it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 449.11it/s][A


[79640] loss: 0.058 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 906.68it/s][A
 25%|█████████████████████████▉                                                                              | 2489/10000 [02:32<08:59, 13.91it/s]
                                                                                                                                                  [A
 25%|█████████████████████████▉                                                                              | 2489/10000 [02:32<08:59, 13.91it/s]
                                                                                                                                                  [A
 25%|█████████████████████████▉                                                                              | 2489/10000 [02:32<08:59, 13.91it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[79660] loss: 0.060 
[79680] loss: 0.020 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 401.45it/s][A

                                                                                                                                                  [A
 25%|█████████████████████████▉                                                                              | 2489/10000 [02:32<08:59, 13.91it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[79700] loss: 0.065 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 527.18it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 767.77it/s][A
 25%|█████████████████████████▉                                                                              | 2491/10000 [02:32<09:00, 13.90it/s]
                                                                                                                                                  [A
 25%|█████████████████████████▉                                                                              | 2491/10000 [02:32<09:00, 13.90it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[79720] loss: 0.063 


                                                                                                                                                  
 25%|█████████████████████████▉                                                                              | 2491/10000 [02:32<09:00, 13.90it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 440.38it/s][A


[79740] loss: 0.035 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 788.70it/s][A

                                                                                                                                                  [A
 25%|█████████████████████████▉                                                                              | 2491/10000 [02:32<09:00, 13.90it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 521.29it/s][A


[79760] loss: 0.069 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 345.44it/s][A
 25%|█████████████████████████▉                                                                              | 2493/10000 [02:32<09:15, 13.51it/s]
                                                                                                                                                  [A
 25%|█████████████████████████▉                                                                              | 2493/10000 [02:32<09:15, 13.51it/s]
                                                                                                                                                  [A
 25%|█████████████████████████▉                                                                              | 2493/10000 [02:32<09:15, 13.51it/s]
Training Epoch:   0%|                                                                                       

[79780] loss: 0.062 
[79800] loss: 0.056 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 452.15it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 537.46it/s][A

                                                                                                                                                  [A
 25%|█████████████████████████▉                                                                              | 2493/10000 [02:32<09:15, 13.51it/s]
                                                                                                                                                  [A
 25%|█████████████████████████▉                                                                              | 2493/10000 [02:32<09:15, 13.51it/s]
Training Epoch: 100%|██████████████████████████████████████████████████████████████████████████████████████

[79820] loss: 0.050 
[79840] loss: 0.088 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 305.80it/s][A
 25%|█████████████████████████▉                                                                              | 2495/10000 [02:32<09:28, 13.20it/s]
                                                                                                                                                  [A
 25%|█████████████████████████▉                                                                              | 2495/10000 [02:32<09:28, 13.20it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[79860] loss: 0.082 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 565.36it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 672.27it/s][A

                                                                                                                                                  [A
 25%|█████████████████████████▉                                                                              | 2495/10000 [02:32<09:28, 13.20it/s]
                                                                                                                                                  [A
 25%|█████████████████████████▉                                                                              | 2495/10000 [02:33<09:28, 13.20it/s]
Training Epoch: 100%|██████████████████████████████████████████████████████████████████████████████████████

[79880] loss: 0.058 
[79900] loss: 0.051 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1789.38it/s][A
 25%|█████████████████████████▉                                                                              | 2497/10000 [02:33<09:10, 13.63it/s]
                                                                                                                                                  [A
 25%|█████████████████████████▉                                                                              | 2497/10000 [02:33<09:10, 13.63it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 616.14it/s][A


[79920] loss: 0.061 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 484.89it/s][A

                                                                                                                                                  [A
 25%|█████████████████████████▉                                                                              | 2497/10000 [02:33<09:10, 13.63it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[79940] loss: 0.086 


                                                                                                                                                  
 25%|█████████████████████████▉                                                                              | 2497/10000 [02:33<09:10, 13.63it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 477.22it/s][A


[79960] loss: 0.074 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 714.78it/s][A
 25%|█████████████████████████▉                                                                              | 2499/10000 [02:33<09:00, 13.87it/s]
                                                                                                                                                  [A
 25%|█████████████████████████▉                                                                              | 2499/10000 [02:33<09:00, 13.87it/s]
                                                                                                                                                  [A
 25%|█████████████████████████▉                                                                              | 2499/10000 [02:33<09:00, 13.87it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[79980] loss: 0.069 
[80000] loss: 0.053 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 671.52it/s][A

                                                                                                                                                  [A
 25%|█████████████████████████▉                                                                              | 2499/10000 [02:33<09:00, 13.87it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 637.11it/s][A


[80020] loss: 0.045 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 615.36it/s][A
 25%|██████████████████████████                                                                              | 2501/10000 [02:33<08:41, 14.38it/s]
                                                                                                                                                  [A
 25%|██████████████████████████                                                                              | 2501/10000 [02:33<08:41, 14.38it/s]
                                                                                                                                                  [A
 25%|██████████████████████████                                                                              | 2501/10000 [02:33<08:41, 14.38it/s]
Training Epoch:   0%|                                                                                       

[80040] loss: 0.061 
[80060] loss: 0.041 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 652.07it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1630.76it/s][A

                                                                                                                                                  [A
 25%|██████████████████████████                                                                              | 2501/10000 [02:33<08:41, 14.38it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[80080] loss: 0.063 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 734.47it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1762.31it/s][A
 25%|██████████████████████████                                                                              | 2503/10000 [02:33<08:07, 15.37it/s]
                                                                                                                                                  [A
 25%|██████████████████████████                                                                              | 2503/10000 [02:33<08:07, 15.37it/s]
                                                                                                                                                  [A
 25%|██████████████████████████                                                                             

[80100] loss: 0.046 
[80120] loss: 0.076 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1373.38it/s][A

                                                                                                                                                  [A
 25%|██████████████████████████                                                                              | 2503/10000 [02:33<08:07, 15.37it/s]
                                                                                                                                                  [A
 25%|██████████████████████████                                                                              | 2503/10000 [02:33<08:07, 15.37it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 718.03it/s][A


[80140] loss: 0.098 
[80160] loss: 0.095 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1980.31it/s][A
 25%|██████████████████████████                                                                              | 2505/10000 [02:33<07:40, 16.28it/s]
                                                                                                                                                  [A
 25%|██████████████████████████                                                                              | 2505/10000 [02:33<07:40, 16.28it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 787.86it/s][A


[80180] loss: 0.053 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2008.77it/s][A

                                                                                                                                                  [A
 25%|██████████████████████████                                                                              | 2505/10000 [02:33<07:40, 16.28it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[80200] loss: 0.064 


                                                                                                                                                  
 25%|██████████████████████████                                                                              | 2505/10000 [02:33<07:40, 16.28it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 732.03it/s][A


[80220] loss: 0.067 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1355.19it/s][A

                                                                                                                                                  [A
 25%|██████████████████████████                                                                              | 2505/10000 [02:33<07:40, 16.28it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 758.26it/s][A


[80240] loss: 0.088 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1978.45it/s][A
 25%|██████████████████████████                                                                              | 2508/10000 [02:33<07:03, 17.68it/s]
                                                                                                                                                  [A
 25%|██████████████████████████                                                                              | 2508/10000 [02:33<07:03, 17.68it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[80260] loss: 0.065 


                                                                                                                                                  
 25%|██████████████████████████                                                                              | 2508/10000 [02:33<07:03, 17.68it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 705.11it/s][A


[80280] loss: 0.063 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1408.43it/s][A

                                                                                                                                                  [A
 25%|██████████████████████████                                                                              | 2508/10000 [02:33<07:03, 17.68it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[80300] loss: 0.093 


                                                                                                                                                  
 25%|██████████████████████████                                                                              | 2508/10000 [02:33<07:03, 17.68it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 619.17it/s][A


[80320] loss: 0.020 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1127.80it/s][A
 25%|██████████████████████████                                                                              | 2510/10000 [02:33<07:03, 17.70it/s]
                                                                                                                                                  [A
 25%|██████████████████████████                                                                              | 2510/10000 [02:33<07:03, 17.70it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 776.38it/s][A


[80340] loss: 0.075 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 941.69it/s][A

                                                                                                                                                  [A
 25%|██████████████████████████                                                                              | 2510/10000 [02:33<07:03, 17.70it/s]
                                                                                                                                                  [A
 25%|██████████████████████████                                                                              | 2510/10000 [02:33<07:03, 17.70it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[80360] loss: 0.055 
[80380] loss: 0.065 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 610.94it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1401.37it/s][A
 25%|██████████████████████████                                                                              | 2512/10000 [02:33<06:58, 17.88it/s]
                                                                                                                                                  [A
 25%|██████████████████████████                                                                              | 2512/10000 [02:33<06:58, 17.88it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 750.44it/s][A


[80400] loss: 0.036 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1262.96it/s][A

                                                                                                                                                  [A
 25%|██████████████████████████                                                                              | 2512/10000 [02:33<06:58, 17.88it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[80420] loss: 0.058 


                                                                                                                                                  
 25%|██████████████████████████                                                                              | 2512/10000 [02:33<06:58, 17.88it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 602.27it/s][A


[80440] loss: 0.098 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 588.67it/s][A
 25%|██████████████████████████▏                                                                             | 2514/10000 [02:33<07:01, 17.74it/s]
                                                                                                                                                  [A
 25%|██████████████████████████▏                                                                             | 2514/10000 [02:34<07:01, 17.74it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[80460] loss: 0.060 


                                                                                                                                                  
 25%|██████████████████████████▏                                                                             | 2514/10000 [02:34<07:01, 17.74it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 573.55it/s][A


[80480] loss: 0.095 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 895.45it/s][A

                                                                                                                                                  [A
 25%|██████████████████████████▏                                                                             | 2514/10000 [02:34<07:01, 17.74it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[80500] loss: 0.054 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 748.55it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 865.70it/s][A
 25%|██████████████████████████▏                                                                             | 2516/10000 [02:34<07:05, 17.60it/s]
                                                                                                                                                  [A
 25%|██████████████████████████▏                                                                             | 2516/10000 [02:34<07:05, 17.60it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[80520] loss: 0.075 


                                                                                                                                                  
 25%|██████████████████████████▏                                                                             | 2516/10000 [02:34<07:05, 17.60it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 591.00it/s][A


[80540] loss: 0.048 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1307.86it/s][A

                                                                                                                                                  [A
 25%|██████████████████████████▏                                                                             | 2516/10000 [02:34<07:05, 17.60it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[80560] loss: 0.050 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 696.84it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 935.60it/s][A
 25%|██████████████████████████▏                                                                             | 2518/10000 [02:34<07:11, 17.36it/s]
                                                                                                                                                  [A
 25%|██████████████████████████▏                                                                             | 2518/10000 [02:34<07:11, 17.36it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[80580] loss: 0.033 


                                                                                                                                                  
 25%|██████████████████████████▏                                                                             | 2518/10000 [02:34<07:11, 17.36it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 602.42it/s][A

[80600] loss: 0.088 




Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1277.97it/s][A

                                                                                                                                                  [A
 25%|██████████████████████████▏                                                                             | 2518/10000 [02:34<07:11, 17.36it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[80620] loss: 0.063 


                                                                                                                                                  
 25%|██████████████████████████▏                                                                             | 2518/10000 [02:34<07:11, 17.36it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 569.91it/s][A


[80640] loss: 0.105 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 825.33it/s][A
 25%|██████████████████████████▏                                                                             | 2520/10000 [02:34<07:26, 16.76it/s]
                                                                                                                                                  [A
 25%|██████████████████████████▏                                                                             | 2520/10000 [02:34<07:26, 16.76it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[80660] loss: 0.072 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 536.41it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1223.90it/s][A

                                                                                                                                                  [A
 25%|██████████████████████████▏                                                                             | 2520/10000 [02:34<07:26, 16.76it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[80680] loss: 0.027 


                                                                                                                                                  
 25%|██████████████████████████▏                                                                             | 2520/10000 [02:34<07:26, 16.76it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 468.66it/s][A


[80700] loss: 0.056 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 604.02it/s][A
 25%|██████████████████████████▏                                                                             | 2522/10000 [02:34<07:55, 15.73it/s]
                                                                                                                                                  [A
 25%|██████████████████████████▏                                                                             | 2522/10000 [02:34<07:55, 15.73it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[80720] loss: 0.047 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 556.23it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 801.51it/s][A

                                                                                                                                                  [A
 25%|██████████████████████████▏                                                                             | 2522/10000 [02:34<07:55, 15.73it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[80740] loss: 0.036 


                                                                                                                                                  
 25%|██████████████████████████▏                                                                             | 2522/10000 [02:34<07:55, 15.73it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 485.78it/s][A


[80760] loss: 0.085 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1075.19it/s][A
 25%|██████████████████████████▏                                                                             | 2524/10000 [02:34<08:13, 15.15it/s]
                                                                                                                                                  [A
 25%|██████████████████████████▏                                                                             | 2524/10000 [02:34<08:13, 15.15it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[80780] loss: 0.054 


                                                                                                                                                  
 25%|██████████████████████████▏                                                                             | 2524/10000 [02:34<08:13, 15.15it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 477.08it/s][A


[80800] loss: 0.027 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 241.55it/s][A

                                                                                                                                                  [A
 25%|██████████████████████████▏                                                                             | 2524/10000 [02:34<08:13, 15.15it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[80820] loss: 0.052 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 551.03it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 608.49it/s][A
 25%|██████████████████████████▎                                                                             | 2526/10000 [02:34<08:31, 14.60it/s]
                                                                                                                                                  [A
 25%|██████████████████████████▎                                                                             | 2526/10000 [02:34<08:31, 14.60it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[80840] loss: 0.083 


                                                                                                                                                  
 25%|██████████████████████████▎                                                                             | 2526/10000 [02:34<08:31, 14.60it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 468.14it/s][A


[80860] loss: 0.043 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 751.67it/s][A

                                                                                                                                                  [A
 25%|██████████████████████████▎                                                                             | 2526/10000 [02:34<08:31, 14.60it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[80880] loss: 0.062 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 566.91it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 759.84it/s][A
 25%|██████████████████████████▎                                                                             | 2528/10000 [02:34<08:42, 14.31it/s]
                                                                                                                                                  [A
 25%|██████████████████████████▎                                                                             | 2528/10000 [02:34<08:42, 14.31it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[80900] loss: 0.061 


                                                                                                                                                  
 25%|██████████████████████████▎                                                                             | 2528/10000 [02:35<08:42, 14.31it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 490.61it/s][A


[80920] loss: 0.041 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 487.88it/s][A

                                                                                                                                                  [A
 25%|██████████████████████████▎                                                                             | 2528/10000 [02:35<08:42, 14.31it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[80940] loss: 0.042 


                                                                                                                                                  
 25%|██████████████████████████▎                                                                             | 2528/10000 [02:35<08:42, 14.31it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 516.16it/s][A


[80960] loss: 0.174 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 678.91it/s][A
 25%|██████████████████████████▎                                                                             | 2530/10000 [02:35<08:51, 14.06it/s]
                                                                                                                                                  [A
 25%|██████████████████████████▎                                                                             | 2530/10000 [02:35<08:51, 14.06it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 556.73it/s][A


[80980] loss: 0.073 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 710.90it/s][A

                                                                                                                                                  [A
 25%|██████████████████████████▎                                                                             | 2530/10000 [02:35<08:51, 14.06it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[81000] loss: 0.042 


                                                                                                                                                  
 25%|██████████████████████████▎                                                                             | 2530/10000 [02:35<08:51, 14.06it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 468.65it/s][A


[81020] loss: 0.070 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 702.80it/s][A
 25%|██████████████████████████▎                                                                             | 2532/10000 [02:35<08:56, 13.91it/s]
                                                                                                                                                  [A
 25%|██████████████████████████▎                                                                             | 2532/10000 [02:35<08:56, 13.91it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[81040] loss: 0.044 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 553.62it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 767.34it/s][A

                                                                                                                                                  [A
 25%|██████████████████████████▎                                                                             | 2532/10000 [02:35<08:56, 13.91it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[81060] loss: 0.079 


                                                                                                                                                  
 25%|██████████████████████████▎                                                                             | 2532/10000 [02:35<08:56, 13.91it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 503.12it/s][A


[81080] loss: 0.058 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 513.76it/s][A
 25%|██████████████████████████▎                                                                             | 2534/10000 [02:35<08:56, 13.93it/s]
                                                                                                                                                  [A
 25%|██████████████████████████▎                                                                             | 2534/10000 [02:35<08:56, 13.93it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[81100] loss: 0.064 


                                                                                                                                                  
 25%|██████████████████████████▎                                                                             | 2534/10000 [02:35<08:56, 13.93it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 484.17it/s][A


[81120] loss: 0.049 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 559.09it/s][A

                                                                                                                                                  [A
 25%|██████████████████████████▎                                                                             | 2534/10000 [02:35<08:56, 13.93it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 540.54it/s][A

[81140] loss: 0.052 




Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 849.91it/s][A
 25%|██████████████████████████▎                                                                             | 2536/10000 [02:35<09:00, 13.80it/s]
                                                                                                                                                  [A
 25%|██████████████████████████▎                                                                             | 2536/10000 [02:35<09:00, 13.80it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[81160] loss: 0.071 


                                                                                                                                                  
 25%|██████████████████████████▎                                                                             | 2536/10000 [02:35<09:00, 13.80it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 571.85it/s][A


[81180] loss: 0.079 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1227.48it/s][A

                                                                                                                                                  [A
 25%|██████████████████████████▎                                                                             | 2536/10000 [02:35<09:00, 13.80it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 688.81it/s][A


[81200] loss: 0.055 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1385.63it/s][A
 25%|██████████████████████████▍                                                                             | 2538/10000 [02:35<08:33, 14.54it/s]
                                                                                                                                                  [A
 25%|██████████████████████████▍                                                                             | 2538/10000 [02:35<08:33, 14.54it/s]
                                                                                                                                                  [A
 25%|██████████████████████████▍                                                                             | 2538/10000 [02:35<08:33, 14.54it/s]
Training Epoch:   0%|                                                                                       

[81220] loss: 0.068 
[81240] loss: 0.072 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 604.39it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1784.05it/s][A

                                                                                                                                                  [A
 25%|██████████████████████████▍                                                                             | 2538/10000 [02:35<08:33, 14.54it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[81260] loss: 0.051 


                                                                                                                                                  
 25%|██████████████████████████▍                                                                             | 2538/10000 [02:35<08:33, 14.54it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 647.65it/s][A


[81280] loss: 0.098 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 973.38it/s][A
 25%|██████████████████████████▍                                                                             | 2540/10000 [02:35<08:14, 15.08it/s]
                                                                                                                                                  [A
 25%|██████████████████████████▍                                                                             | 2540/10000 [02:35<08:14, 15.08it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 786.63it/s][A


[81300] loss: 0.047 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 673.46it/s][A

                                                                                                                                                  [A
 25%|██████████████████████████▍                                                                             | 2540/10000 [02:35<08:14, 15.08it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[81320] loss: 0.078 


                                                                                                                                                  
 25%|██████████████████████████▍                                                                             | 2540/10000 [02:35<08:14, 15.08it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 611.28it/s][A


[81340] loss: 0.097 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 675.74it/s][A
 25%|██████████████████████████▍                                                                             | 2542/10000 [02:35<07:51, 15.83it/s]
                                                                                                                                                  [A
 25%|██████████████████████████▍                                                                             | 2542/10000 [02:35<07:51, 15.83it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 687.96it/s][A

[81360] loss: 0.061 




Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 876.37it/s][A

                                                                                                                                                  [A
 25%|██████████████████████████▍                                                                             | 2542/10000 [02:35<07:51, 15.83it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[81380] loss: 0.031 


                                                                                                                                                  
 25%|██████████████████████████▍                                                                             | 2542/10000 [02:35<07:51, 15.83it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 672.63it/s][A


[81400] loss: 0.077 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 857.91it/s][A
 25%|██████████████████████████▍                                                                             | 2544/10000 [02:36<07:37, 16.30it/s]
                                                                                                                                                  [A
 25%|██████████████████████████▍                                                                             | 2544/10000 [02:36<07:37, 16.30it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[81420] loss: 0.058 


                                                                                                                                                  
 25%|██████████████████████████▍                                                                             | 2544/10000 [02:36<07:37, 16.30it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 593.64it/s][A


[81440] loss: 0.026 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1334.07it/s][A

                                                                                                                                                  [A
 25%|██████████████████████████▍                                                                             | 2544/10000 [02:36<07:37, 16.30it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 758.86it/s][A


[81460] loss: 0.050 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 688.72it/s][A
 25%|██████████████████████████▍                                                                             | 2546/10000 [02:36<07:26, 16.68it/s]
                                                                                                                                                  [A
 25%|██████████████████████████▍                                                                             | 2546/10000 [02:36<07:26, 16.68it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[81480] loss: 0.055 


                                                                                                                                                  
 25%|██████████████████████████▍                                                                             | 2546/10000 [02:36<07:26, 16.68it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 615.49it/s][A


[81500] loss: 0.051 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1214.33it/s][A

                                                                                                                                                  [A
 25%|██████████████████████████▍                                                                             | 2546/10000 [02:36<07:26, 16.68it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[81520] loss: 0.047 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 709.69it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1897.88it/s][A
 25%|██████████████████████████▍                                                                             | 2548/10000 [02:36<07:22, 16.84it/s]
                                                                                                                                                  [A
 25%|██████████████████████████▍                                                                             | 2548/10000 [02:36<07:22, 16.84it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[81540] loss: 0.046 


                                                                                                                                                  
 25%|██████████████████████████▍                                                                             | 2548/10000 [02:36<07:22, 16.84it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 632.93it/s][A


[81560] loss: 0.065 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 590.41it/s][A

                                                                                                                                                  [A
 25%|██████████████████████████▍                                                                             | 2548/10000 [02:36<07:22, 16.84it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[81580] loss: 0.035 


                                                                                                                                                  
 25%|██████████████████████████▍                                                                             | 2548/10000 [02:36<07:22, 16.84it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 604.15it/s][A


[81600] loss: 0.059 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 612.75it/s][A
 26%|██████████████████████████▌                                                                             | 2550/10000 [02:36<07:25, 16.72it/s]
                                                                                                                                                  [A
 26%|██████████████████████████▌                                                                             | 2550/10000 [02:36<07:25, 16.72it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 857.62it/s][A


[81620] loss: 0.052 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2024.28it/s][A

                                                                                                                                                  [A
 26%|██████████████████████████▌                                                                             | 2550/10000 [02:36<07:25, 16.72it/s]
                                                                                                                                                  [A
[A                                                                                                                                               

[81640] loss: 0.028 


 26%|██████████████████████████▌                                                                             | 2550/10000 [02:36<07:25, 16.72it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 570.42it/s][A


[81660] loss: 0.030 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1554.02it/s][A
 26%|██████████████████████████▌                                                                             | 2552/10000 [02:36<07:12, 17.21it/s]
                                                                                                                                                  [A
 26%|██████████████████████████▌                                                                             | 2552/10000 [02:36<07:12, 17.21it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 700.76it/s][A


[81680] loss: 0.066 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 902.19it/s][A

                                                                                                                                                  [A
 26%|██████████████████████████▌                                                                             | 2552/10000 [02:36<07:12, 17.21it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[81700] loss: 0.046 


                                                                                                                                                  
 26%|██████████████████████████▌                                                                             | 2552/10000 [02:36<07:12, 17.21it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 646.80it/s][A


[81720] loss: 0.060 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 728.81it/s][A
 26%|██████████████████████████▌                                                                             | 2554/10000 [02:36<07:13, 17.16it/s]
                                                                                                                                                  [A
 26%|██████████████████████████▌                                                                             | 2554/10000 [02:36<07:13, 17.16it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[81740] loss: 0.075 


                                                                                                                                                  
 26%|██████████████████████████▌                                                                             | 2554/10000 [02:36<07:13, 17.16it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 640.37it/s][A


[81760] loss: 0.045 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 424.95it/s][A

                                                                                                                                                  [A
 26%|██████████████████████████▌                                                                             | 2554/10000 [02:36<07:13, 17.16it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[81780] loss: 0.065 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 529.14it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1026.76it/s][A
 26%|██████████████████████████▌                                                                             | 2556/10000 [02:36<07:33, 16.40it/s]
                                                                                                                                                  [A
 26%|██████████████████████████▌                                                                             | 2556/10000 [02:36<07:33, 16.40it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[81800] loss: 0.050 


                                                                                                                                                  
 26%|██████████████████████████▌                                                                             | 2556/10000 [02:36<07:33, 16.40it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 455.56it/s][A


[81820] loss: 0.091 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 549.50it/s][A

                                                                                                                                                  [A
[A                                                                                                                                               

[81840] loss: 0.057 

 26%|██████████████████████████▌                                                                             | 2556/10000 [02:36<07:33, 16.40it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 548.04it/s][A






Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 705.87it/s][A
 26%|██████████████████████████▌                                                                             | 2558/10000 [02:36<08:07, 15.28it/s]
                                                                                                                                                  [A
 26%|██████████████████████████▌                                                                             | 2558/10000 [02:36<08:07, 15.28it/s]
                                                                                                                                                  [A
 26%|██████████████████████████▌                                                                             | 2558/10000 [02:36<08:07, 15.28it/s]
Training Epoch:   0%|                                                                                       

[81860] loss: 0.045 
[81880] loss: 0.038 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 457.39it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 756.41it/s][A

                                                                                                                                                  [A
 26%|██████████████████████████▌                                                                             | 2558/10000 [02:36<08:07, 15.28it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[81900] loss: 0.030 


                                                                                                                                                  
 26%|██████████████████████████▌                                                                             | 2558/10000 [02:37<08:07, 15.28it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 532.61it/s][A


[81920] loss: 0.282 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 388.65it/s][A
 26%|██████████████████████████▌                                                                             | 2560/10000 [02:37<08:28, 14.64it/s]
                                                                                                                                                  [A
 26%|██████████████████████████▌                                                                             | 2560/10000 [02:37<08:28, 14.64it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 521.23it/s][A


[81940] loss: 0.035 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 698.93it/s][A

                                                                                                                                                  [A
 26%|██████████████████████████▌                                                                             | 2560/10000 [02:37<08:28, 14.64it/s]
                                                                                                                                                  [A
 26%|██████████████████████████▌                                                                             | 2560/10000 [02:37<08:28, 14.64it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 467.82it/s][A


[81960] loss: 0.064 
[81980] loss: 0.089 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 686.47it/s][A
 26%|██████████████████████████▋                                                                             | 2562/10000 [02:37<08:43, 14.22it/s]
                                                                                                                                                  [A
 26%|██████████████████████████▋                                                                             | 2562/10000 [02:37<08:43, 14.22it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[82000] loss: 0.042 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 557.09it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 582.70it/s][A

                                                                                                                                                  [A
 26%|██████████████████████████▋                                                                             | 2562/10000 [02:37<08:43, 14.22it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[82020] loss: 0.080 


                                                                                                                                                  
 26%|██████████████████████████▋                                                                             | 2562/10000 [02:37<08:43, 14.22it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 504.50it/s][A


[82040] loss: 0.061 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 576.93it/s][A
 26%|██████████████████████████▋                                                                             | 2564/10000 [02:37<08:43, 14.21it/s]
                                                                                                                                                  [A
 26%|██████████████████████████▋                                                                             | 2564/10000 [02:37<08:43, 14.21it/s]
                                                                                                                                                  [A
 26%|██████████████████████████▋                                                                             | 2564/10000 [02:37<08:43, 14.21it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[82060] loss: 0.046 
[82080] loss: 0.043 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 707.66it/s][A

                                                                                                                                                  [A
 26%|██████████████████████████▋                                                                             | 2564/10000 [02:37<08:43, 14.21it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 527.95it/s][A


[82100] loss: 0.030 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 716.73it/s][A
 26%|██████████████████████████▋                                                                             | 2566/10000 [02:37<08:43, 14.21it/s]
                                                                                                                                                  [A
 26%|██████████████████████████▋                                                                             | 2566/10000 [02:37<08:43, 14.21it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[82120] loss: 0.042 


                                                                                                                                                  
 26%|██████████████████████████▋                                                                             | 2566/10000 [02:37<08:43, 14.21it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 484.90it/s][A


[82140] loss: 0.056 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 524.22it/s][A

                                                                                                                                                  [A
 26%|██████████████████████████▋                                                                             | 2566/10000 [02:37<08:43, 14.21it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 593.13it/s][A


[82160] loss: 0.053 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 734.81it/s][A
 26%|██████████████████████████▋                                                                             | 2568/10000 [02:37<08:41, 14.24it/s]
                                                                                                                                                  [A
 26%|██████████████████████████▋                                                                             | 2568/10000 [02:37<08:41, 14.24it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[82180] loss: 0.036 


                                                                                                                                                  
 26%|██████████████████████████▋                                                                             | 2568/10000 [02:37<08:41, 14.24it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 429.97it/s][A

[82200] loss: 0.083 




Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 712.71it/s][A

                                                                                                                                                  [A
 26%|██████████████████████████▋                                                                             | 2568/10000 [02:37<08:41, 14.24it/s]
                                                                                                                                                  [A
 26%|██████████████████████████▋                                                                             | 2568/10000 [02:37<08:41, 14.24it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 430.45it/s][A


[82220] loss: 0.083 
[82240] loss: 0.044 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 542.88it/s][A
 26%|██████████████████████████▋                                                                             | 2570/10000 [02:37<09:17, 13.33it/s]
                                                                                                                                                  [A
 26%|██████████████████████████▋                                                                             | 2570/10000 [02:37<09:17, 13.33it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[82260] loss: 0.046 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 729.81it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1980.31it/s][A

                                                                                                                                                  [A
 26%|██████████████████████████▋                                                                             | 2570/10000 [02:37<09:17, 13.33it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[82280] loss: 0.052 


                                                                                                                                                  
 26%|██████████████████████████▋                                                                             | 2570/10000 [02:37<09:17, 13.33it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 593.92it/s][A


[82300] loss: 0.064 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1380.16it/s][A
 26%|██████████████████████████▋                                                                             | 2572/10000 [02:37<08:36, 14.37it/s]
                                                                                                                                                  [A
 26%|██████████████████████████▋                                                                             | 2572/10000 [02:37<08:36, 14.37it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[82320] loss: 0.059 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 736.49it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 791.38it/s][A

                                                                                                                                                  [A
 26%|██████████████████████████▋                                                                             | 2572/10000 [02:37<08:36, 14.37it/s]
                                                                                                                                                  [A
 26%|██████████████████████████▋                                                                             | 2572/10000 [02:37<08:36, 14.37it/s]
Training Epoch: 100%|██████████████████████████████████████████████████████████████████████████████████████

[82340] loss: 0.061 
[82360] loss: 0.069 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 448.78it/s][A
 26%|██████████████████████████▊                                                                             | 2574/10000 [02:37<08:15, 15.00it/s]
                                                                                                                                                  [A
 26%|██████████████████████████▊                                                                             | 2574/10000 [02:38<08:15, 15.00it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[82380] loss: 0.082 


                                                                                                                                                  
 26%|██████████████████████████▊                                                                             | 2574/10000 [02:38<08:15, 15.00it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 642.51it/s][A


[82400] loss: 0.054 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1194.62it/s][A

                                                                                                                                                  [A
 26%|██████████████████████████▊                                                                             | 2574/10000 [02:38<08:15, 15.00it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 758.11it/s][A


[82420] loss: 0.067 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1800.13it/s][A
 26%|██████████████████████████▊                                                                             | 2576/10000 [02:38<07:49, 15.82it/s]
                                                                                                                                                  [A
 26%|██████████████████████████▊                                                                             | 2576/10000 [02:38<07:49, 15.82it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[82440] loss: 0.035 


                                                                                                                                                  
 26%|██████████████████████████▊                                                                             | 2576/10000 [02:38<07:49, 15.82it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 564.78it/s][A


[82460] loss: 0.058 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 681.78it/s][A

                                                                                                                                                  [A
 26%|██████████████████████████▊                                                                             | 2576/10000 [02:38<07:49, 15.82it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[82480] loss: 0.087 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 710.59it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 950.66it/s][A
 26%|██████████████████████████▊                                                                             | 2578/10000 [02:38<07:43, 16.03it/s]
                                                                                                                                                  [A
 26%|██████████████████████████▊                                                                             | 2578/10000 [02:38<07:43, 16.03it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[82500] loss: 0.059 


                                                                                                                                                  
 26%|██████████████████████████▊                                                                             | 2578/10000 [02:38<07:43, 16.03it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[82520] loss: 0.061 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 599.61it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1065.63it/s][A

                                                                                                                                                  [A
 26%|██████████████████████████▊                                                                             | 2578/10000 [02:38<07:43, 16.03it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[82540] loss: 0.060 


                                                                                                                                                  
 26%|██████████████████████████▊                                                                             | 2578/10000 [02:38<07:43, 16.03it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 659.48it/s][A


[82560] loss: 0.010 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 733.53it/s][A
 26%|██████████████████████████▊                                                                             | 2580/10000 [02:38<07:37, 16.21it/s]
                                                                                                                                                  [A
 26%|██████████████████████████▊                                                                             | 2580/10000 [02:38<07:37, 16.21it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 697.33it/s][A


[82580] loss: 0.050 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2414.68it/s][A

                                                                                                                                                  [A
 26%|██████████████████████████▊                                                                             | 2580/10000 [02:38<07:37, 16.21it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[82600] loss: 0.059 


                                                                                                                                                  
 26%|██████████████████████████▊                                                                             | 2580/10000 [02:38<07:37, 16.21it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 544.96it/s][A


[82620] loss: 0.072 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 798.76it/s][A
 26%|██████████████████████████▊                                                                             | 2582/10000 [02:38<07:39, 16.15it/s]
                                                                                                                                                  [A
 26%|██████████████████████████▊                                                                             | 2582/10000 [02:38<07:39, 16.15it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[82640] loss: 0.038 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 730.93it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1330.68it/s][A

                                                                                                                                                  [A
 26%|██████████████████████████▊                                                                             | 2582/10000 [02:38<07:39, 16.15it/s]
                                                                                                                                                  [A
 26%|██████████████████████████▊                                                                             | 2582/10000 [02:38<07:39, 16.15it/s]
Training Epoch:   0%|                                                                                      

[82660] loss: 0.061 
[82680] loss: 0.072 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 588.40it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1214.68it/s][A
 26%|██████████████████████████▊                                                                             | 2584/10000 [02:38<07:30, 16.47it/s]
                                                                                                                                                  [A
 26%|██████████████████████████▊                                                                             | 2584/10000 [02:38<07:30, 16.47it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[82700] loss: 0.038 


                                                                                                                                                  
 26%|██████████████████████████▊                                                                             | 2584/10000 [02:38<07:30, 16.47it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 640.53it/s][A


[82720] loss: 0.038 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1237.26it/s][A

                                                                                                                                                  [A
 26%|██████████████████████████▊                                                                             | 2584/10000 [02:38<07:30, 16.47it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 702.93it/s][A


[82740] loss: 0.090 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 796.03it/s][A
 26%|██████████████████████████▉                                                                             | 2586/10000 [02:38<07:23, 16.72it/s]
                                                                                                                                                  [A
 26%|██████████████████████████▉                                                                             | 2586/10000 [02:38<07:23, 16.72it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[82760] loss: 0.037 


                                                                                                                                                  
 26%|██████████████████████████▉                                                                             | 2586/10000 [02:38<07:23, 16.72it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 596.09it/s][A


[82780] loss: 0.067 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1363.11it/s][A

                                                                                                                                                  [A
 26%|██████████████████████████▉                                                                             | 2586/10000 [02:38<07:23, 16.72it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[82800] loss: 0.072 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 799.11it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1589.96it/s][A
 26%|██████████████████████████▉                                                                             | 2588/10000 [02:38<07:16, 16.97it/s]
                                                                                                                                                  [A
 26%|██████████████████████████▉                                                                             | 2588/10000 [02:38<07:16, 16.97it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[82820] loss: 0.068 


                                                                                                                                                  
 26%|██████████████████████████▉                                                                             | 2588/10000 [02:38<07:16, 16.97it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[82840] loss: 0.060 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 523.74it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 700.69it/s][A

                                                                                                                                                  [A
 26%|██████████████████████████▉                                                                             | 2588/10000 [02:38<07:16, 16.97it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[82860] loss: 0.037 


                                                                                                                                                  
 26%|██████████████████████████▉                                                                             | 2588/10000 [02:38<07:16, 16.97it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 603.46it/s][A


[82880] loss: 0.099 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 790.04it/s][A
 26%|██████████████████████████▉                                                                             | 2590/10000 [02:38<07:35, 16.25it/s]
                                                                                                                                                  [A
 26%|██████████████████████████▉                                                                             | 2590/10000 [02:38<07:35, 16.25it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[82900] loss: 0.062 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 603.37it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 974.74it/s][A

                                                                                                                                                  [A
 26%|██████████████████████████▉                                                                             | 2590/10000 [02:39<07:35, 16.25it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[82920] loss: 0.062 


                                                                                                                                                  
 26%|██████████████████████████▉                                                                             | 2590/10000 [02:39<07:35, 16.25it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 540.54it/s][A


[82940] loss: 0.059 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 773.00it/s][A
 26%|██████████████████████████▉                                                                             | 2592/10000 [02:39<07:44, 15.95it/s]
                                                                                                                                                  [A
 26%|██████████████████████████▉                                                                             | 2592/10000 [02:39<07:44, 15.95it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 594.28it/s][A


[82960] loss: 0.059 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1001.03it/s][A

                                                                                                                                                  [A
 26%|██████████████████████████▉                                                                             | 2592/10000 [02:39<07:44, 15.95it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[82980] loss: 0.054 


                                                                                                                                                  
 26%|██████████████████████████▉                                                                             | 2592/10000 [02:39<07:44, 15.95it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 523.50it/s][A


[83000] loss: 0.039 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 539.53it/s][A
 26%|██████████████████████████▉                                                                             | 2594/10000 [02:39<07:54, 15.59it/s]
                                                                                                                                                  [A
 26%|██████████████████████████▉                                                                             | 2594/10000 [02:39<07:54, 15.59it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[83020] loss: 0.073 


                                                                                                                                                  
 26%|██████████████████████████▉                                                                             | 2594/10000 [02:39<07:54, 15.59it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 549.27it/s][A


[83040] loss: 0.045 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 823.70it/s][A

                                                                                                                                                  [A
 26%|██████████████████████████▉                                                                             | 2594/10000 [02:39<07:54, 15.59it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 638.54it/s][A


[83060] loss: 0.039 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 840.88it/s][A
 26%|██████████████████████████▉                                                                             | 2596/10000 [02:39<07:52, 15.66it/s]
                                                                                                                                                  [A
 26%|██████████████████████████▉                                                                             | 2596/10000 [02:39<07:52, 15.66it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[83080] loss: 0.048 


                                                                                                                                                  
 26%|██████████████████████████▉                                                                             | 2596/10000 [02:39<07:52, 15.66it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 520.84it/s][A


[83100] loss: 0.040 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 949.15it/s][A

                                                                                                                                                  [A
 26%|██████████████████████████▉                                                                             | 2596/10000 [02:39<07:52, 15.66it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[83120] loss: 0.042 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 612.47it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 948.72it/s][A
 26%|███████████████████████████                                                                             | 2598/10000 [02:39<07:53, 15.62it/s]
                                                                                                                                                  [A
 26%|███████████████████████████                                                                             | 2598/10000 [02:39<07:53, 15.62it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[83140] loss: 0.060 


                                                                                                                                                  
 26%|███████████████████████████                                                                             | 2598/10000 [02:39<07:53, 15.62it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 511.94it/s][A


[83160] loss: 0.042 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 954.55it/s][A

                                                                                                                                                  [A
 26%|███████████████████████████                                                                             | 2598/10000 [02:39<07:53, 15.62it/s]
                                                                                                                                                  [A
 26%|███████████████████████████                                                                             | 2598/10000 [02:39<07:53, 15.62it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 589.33it/s][A


[83180] loss: 0.050 
[83200] loss: 0.010 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1217.86it/s][A
 26%|███████████████████████████                                                                             | 2600/10000 [02:39<07:56, 15.52it/s]
                                                                                                                                                  [A
 26%|███████████████████████████                                                                             | 2600/10000 [02:39<07:56, 15.52it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 595.63it/s][A


[83220] loss: 0.036 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 707.78it/s][A

                                                                                                                                                  [A
 26%|███████████████████████████                                                                             | 2600/10000 [02:39<07:56, 15.52it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[83240] loss: 0.036 


                                                                                                                                                  
 26%|███████████████████████████                                                                             | 2600/10000 [02:39<07:56, 15.52it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[83260] loss: 0.083 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 522.44it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 575.75it/s][A
 26%|███████████████████████████                                                                             | 2602/10000 [02:39<07:59, 15.44it/s]
                                                                                                                                                  [A
 26%|███████████████████████████                                                                             | 2602/10000 [02:39<07:59, 15.44it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 577.96it/s][A


[83280] loss: 0.065 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 558.42it/s][A

                                                                                                                                                  [A
 26%|███████████████████████████                                                                             | 2602/10000 [02:39<07:59, 15.44it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[83300] loss: 0.052 


                                                                                                                                                  
 26%|███████████████████████████                                                                             | 2602/10000 [02:39<07:59, 15.44it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 533.19it/s][A


[83320] loss: 0.076 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 491.02it/s][A
 26%|███████████████████████████                                                                             | 2604/10000 [02:39<08:04, 15.25it/s]
                                                                                                                                                  [A
 26%|███████████████████████████                                                                             | 2604/10000 [02:39<08:04, 15.25it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[83340] loss: 0.050 


                                                                                                                                                  
 26%|███████████████████████████                                                                             | 2604/10000 [02:39<08:04, 15.25it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 561.01it/s][A


[83360] loss: 0.092 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 795.13it/s][A

                                                                                                                                                  [A
 26%|███████████████████████████                                                                             | 2604/10000 [02:39<08:04, 15.25it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 600.02it/s][A


[83380] loss: 0.042 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 977.47it/s][A
 26%|███████████████████████████                                                                             | 2606/10000 [02:39<08:00, 15.38it/s]
                                                                                                                                                  [A
 26%|███████████████████████████                                                                             | 2606/10000 [02:40<08:00, 15.38it/s]
                                                                                                                                                  [A
 26%|███████████████████████████                                                                             | 2606/10000 [02:40<08:00, 15.38it/s]
Training Epoch:   0%|                                                                                       

[83400] loss: 0.057 
[83420] loss: 0.078 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 615.94it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1223.19it/s][A

                                                                                                                                                  [A
 26%|███████████████████████████                                                                             | 2606/10000 [02:40<08:00, 15.38it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[83440] loss: 0.034 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 711.13it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 965.76it/s][A
 26%|███████████████████████████                                                                             | 2608/10000 [02:40<07:42, 15.97it/s]
                                                                                                                                                  [A
 26%|███████████████████████████                                                                             | 2608/10000 [02:40<07:42, 15.97it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[83460] loss: 0.055 


                                                                                                                                                  
 26%|███████████████████████████                                                                             | 2608/10000 [02:40<07:42, 15.97it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 667.07it/s][A


[83480] loss: 0.096 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 915.19it/s][A

                                                                                                                                                  [A
 26%|███████████████████████████                                                                             | 2608/10000 [02:40<07:42, 15.97it/s]
                                                                                                                                                  [A


[83500] loss: 0.047 


 26%|███████████████████████████                                                                             | 2608/10000 [02:40<07:42, 15.97it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 623.75it/s][A


[83520] loss: 0.087 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1362.23it/s][A
 26%|███████████████████████████▏                                                                            | 2610/10000 [02:40<07:30, 16.39it/s]
                                                                                                                                                  [A
 26%|███████████████████████████▏                                                                            | 2610/10000 [02:40<07:30, 16.39it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 764.26it/s][A


[83540] loss: 0.055 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 756.55it/s][A

                                                                                                                                                  [A
 26%|███████████████████████████▏                                                                            | 2610/10000 [02:40<07:30, 16.39it/s]
                                                                                                                                                  [A

[83560] loss: 0.071 



 26%|███████████████████████████▏                                                                            | 2610/10000 [02:40<07:30, 16.39it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 596.19it/s][A


[83580] loss: 0.046 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1338.32it/s][A
 26%|███████████████████████████▏                                                                            | 2612/10000 [02:40<07:20, 16.76it/s]
                                                                                                                                                  [A
 26%|███████████████████████████▏                                                                            | 2612/10000 [02:40<07:20, 16.76it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[83600] loss: 0.077 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 709.04it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1266.40it/s][A

                                                                                                                                                  [A
 26%|███████████████████████████▏                                                                            | 2612/10000 [02:40<07:20, 16.76it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[83620] loss: 0.063 


                                                                                                                                                  
 26%|███████████████████████████▏                                                                            | 2612/10000 [02:40<07:20, 16.76it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 622.23it/s][A


[83640] loss: 0.060 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 610.61it/s][A
 26%|███████████████████████████▏                                                                            | 2614/10000 [02:40<07:16, 16.93it/s]
                                                                                                                                                  [A
 26%|███████████████████████████▏                                                                            | 2614/10000 [02:40<07:16, 16.93it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[83660] loss: 0.049 


                                                                                                                                                  
 26%|███████████████████████████▏                                                                            | 2614/10000 [02:40<07:16, 16.93it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 591.81it/s][A


[83680] loss: 0.042 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 804.74it/s][A

                                                                                                                                                  [A
 26%|███████████████████████████▏                                                                            | 2614/10000 [02:40<07:16, 16.93it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[83700] loss: 0.049 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 702.45it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1691.93it/s][A
 26%|███████████████████████████▏                                                                            | 2616/10000 [02:40<07:14, 17.00it/s]
                                                                                                                                                  [A
 26%|███████████████████████████▏                                                                            | 2616/10000 [02:40<07:14, 17.00it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[83720] loss: 0.037 


                                                                                                                                                  
 26%|███████████████████████████▏                                                                            | 2616/10000 [02:40<07:14, 17.00it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 571.13it/s][A


[83740] loss: 0.051 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 581.09it/s][A

                                                                                                                                                  [A
 26%|███████████████████████████▏                                                                            | 2616/10000 [02:40<07:14, 17.00it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[83760] loss: 0.049 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 724.04it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1180.50it/s][A
 26%|███████████████████████████▏                                                                            | 2618/10000 [02:40<07:17, 16.88it/s]
                                                                                                                                                  [A
 26%|███████████████████████████▏                                                                            | 2618/10000 [02:40<07:17, 16.88it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[83780] loss: 0.055 


                                                                                                                                                  
 26%|███████████████████████████▏                                                                            | 2618/10000 [02:40<07:17, 16.88it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[83800] loss: 0.063 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 609.80it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1164.44it/s][A

                                                                                                                                                  [A
 26%|███████████████████████████▏                                                                            | 2618/10000 [02:40<07:17, 16.88it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[83820] loss: 0.029 


                                                                                                                                                  
 26%|███████████████████████████▏                                                                            | 2618/10000 [02:40<07:17, 16.88it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 756.17it/s][A


[83840] loss: 0.062 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 709.94it/s][A
 26%|███████████████████████████▏                                                                            | 2620/10000 [02:40<07:11, 17.11it/s]
                                                                                                                                                  [A
 26%|███████████████████████████▏                                                                            | 2620/10000 [02:40<07:11, 17.11it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 749.35it/s][A


[83860] loss: 0.057 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 928.15it/s][A

                                                                                                                                                  [A
 26%|███████████████████████████▏                                                                            | 2620/10000 [02:40<07:11, 17.11it/s]
                                                                                                                                                  [A
 26%|███████████████████████████▏                                                                            | 2620/10000 [02:40<07:11, 17.11it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[83880] loss: 0.054 
[83900] loss: 0.072 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 588.82it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1302.58it/s][A
 26%|███████████████████████████▎                                                                            | 2622/10000 [02:40<07:06, 17.29it/s]
                                                                                                                                                  [A
 26%|███████████████████████████▎                                                                            | 2622/10000 [02:40<07:06, 17.29it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 697.98it/s][A


[83920] loss: 0.065 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1866.62it/s][A

                                                                                                                                                  [A
 26%|███████████████████████████▎                                                                            | 2622/10000 [02:40<07:06, 17.29it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[83940] loss: 0.073 


                                                                                                                                                  
 26%|███████████████████████████▎                                                                            | 2622/10000 [02:41<07:06, 17.29it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[83960] loss: 0.060 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 557.03it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1908.24it/s][A
 26%|███████████████████████████▎                                                                            | 2624/10000 [02:41<07:13, 17.03it/s]
                                                                                                                                                  [A
 26%|███████████████████████████▎                                                                            | 2624/10000 [02:41<07:13, 17.03it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[83980] loss: 0.040 


                                                                                                                                                  
 26%|███████████████████████████▎                                                                            | 2624/10000 [02:41<07:13, 17.03it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 647.50it/s][A


[84000] loss: 0.020 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 472.54it/s][A

                                                                                                                                                  [A
 26%|███████████████████████████▎                                                                            | 2624/10000 [02:41<07:13, 17.03it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[84020] loss: 0.049 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 646.79it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 802.74it/s][A
 26%|███████████████████████████▎                                                                            | 2626/10000 [02:41<07:11, 17.08it/s]
                                                                                                                                                  [A
 26%|███████████████████████████▎                                                                            | 2626/10000 [02:41<07:11, 17.08it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[84040] loss: 0.053 


                                                                                                                                                  
 26%|███████████████████████████▎                                                                            | 2626/10000 [02:41<07:11, 17.08it/s]


[84060] loss: 0.051 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 468.95it/s][A

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 768.33it/s][A

                                                                                                                                                  [A
 26%|███████████████████████████▎                                                                            | 2626/10000 [02:41<07:11, 17.08it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[84080] loss: 0.066 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 535.29it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 576.14it/s][A
 26%|███████████████████████████▎                                                                            | 2628/10000 [02:41<07:43, 15.92it/s]
                                                                                                                                                  [A
 26%|███████████████████████████▎                                                                            | 2628/10000 [02:41<07:43, 15.92it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[84100] loss: 0.066 


                                                                                                                                                  
 26%|███████████████████████████▎                                                                            | 2628/10000 [02:41<07:43, 15.92it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 501.59it/s][A


[84120] loss: 0.043 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 476.14it/s][A

                                                                                                                                                  [A
 26%|███████████████████████████▎                                                                            | 2628/10000 [02:41<07:43, 15.92it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[84140] loss: 0.049 


                                                                                                                                                  
 26%|███████████████████████████▎                                                                            | 2628/10000 [02:41<07:43, 15.92it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 554.57it/s][A


[84160] loss: 0.046 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 404.11it/s][A
 26%|███████████████████████████▎                                                                            | 2630/10000 [02:41<07:59, 15.37it/s]
                                                                                                                                                  [A
 26%|███████████████████████████▎                                                                            | 2630/10000 [02:41<07:59, 15.37it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 561.36it/s][A


[84180] loss: 0.058 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 997.46it/s][A

                                                                                                                                                  [A
 26%|███████████████████████████▎                                                                            | 2630/10000 [02:41<07:59, 15.37it/s]
                                                                                                                                                  [A
 26%|███████████████████████████▎                                                                            | 2630/10000 [02:41<07:59, 15.37it/s]


[84200] loss: 0.066 
[84220] loss: 0.056 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 635.79it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1033.84it/s][A
 26%|███████████████████████████▎                                                                            | 2632/10000 [02:41<07:48, 15.72it/s]
                                                                                                                                                  [A
 26%|███████████████████████████▎                                                                            | 2632/10000 [02:41<07:48, 15.72it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[84240] loss: 0.058 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 717.91it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 729.57it/s][A

                                                                                                                                                  [A
 26%|███████████████████████████▎                                                                            | 2632/10000 [02:41<07:48, 15.72it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[84260] loss: 0.059 


                                                                                                                                                  
 26%|███████████████████████████▎                                                                            | 2632/10000 [02:41<07:48, 15.72it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 582.78it/s][A


[84280] loss: 0.045 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 783.54it/s][A
 26%|███████████████████████████▍                                                                            | 2634/10000 [02:41<07:35, 16.18it/s]
                                                                                                                                                  [A
 26%|███████████████████████████▍                                                                            | 2634/10000 [02:41<07:35, 16.18it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[84300] loss: 0.097 


                                                                                                                                                  
 26%|███████████████████████████▍                                                                            | 2634/10000 [02:41<07:35, 16.18it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 563.23it/s][A


[84320] loss: 0.021 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 320.35it/s][A

                                                                                                                                                  [A
 26%|███████████████████████████▍                                                                            | 2634/10000 [02:41<07:35, 16.18it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[84340] loss: 0.037 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 583.96it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 599.70it/s][A
 26%|███████████████████████████▍                                                                            | 2636/10000 [02:41<07:41, 15.94it/s]
                                                                                                                                                  [A
 26%|███████████████████████████▍                                                                            | 2636/10000 [02:41<07:41, 15.94it/s]


[84360] loss: 0.067 


                                                                                                                                                  [A
 26%|███████████████████████████▍                                                                            | 2636/10000 [02:41<07:41, 15.94it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 534.29it/s][A


[84380] loss: 0.055 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 838.02it/s][A

                                                                                                                                                  [A
 26%|███████████████████████████▍                                                                            | 2636/10000 [02:41<07:41, 15.94it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 599.97it/s][A


[84400] loss: 0.099 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 659.38it/s][A
 26%|███████████████████████████▍                                                                            | 2638/10000 [02:41<07:48, 15.73it/s]
                                                                                                                                                  [A
 26%|███████████████████████████▍                                                                            | 2638/10000 [02:41<07:48, 15.73it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[84420] loss: 0.036 


                                                                                                                                                  
 26%|███████████████████████████▍                                                                            | 2638/10000 [02:41<07:48, 15.73it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 524.47it/s][A


[84440] loss: 0.054 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 491.94it/s][A

                                                                                                                                                  [A
 26%|███████████████████████████▍                                                                            | 2638/10000 [02:42<07:48, 15.73it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[84460] loss: 0.031 


                                                                                                                                                  
 26%|███████████████████████████▍                                                                            | 2638/10000 [02:42<07:48, 15.73it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 539.42it/s][A


[84480] loss: 0.090 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 315.12it/s][A
 26%|███████████████████████████▍                                                                            | 2640/10000 [02:42<07:59, 15.34it/s]
                                                                                                                                                  [A
 26%|███████████████████████████▍                                                                            | 2640/10000 [02:42<07:59, 15.34it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 584.35it/s][A


[84500] loss: 0.065 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1014.59it/s][A

                                                                                                                                                  [A
 26%|███████████████████████████▍                                                                            | 2640/10000 [02:42<07:59, 15.34it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[84520] loss: 0.050 


                                                                                                                                                  
 26%|███████████████████████████▍                                                                            | 2640/10000 [02:42<07:59, 15.34it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 559.47it/s][A


[84540] loss: 0.091 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 716.61it/s][A
 26%|███████████████████████████▍                                                                            | 2642/10000 [02:42<07:56, 15.44it/s]
                                                                                                                                                  [A
 26%|███████████████████████████▍                                                                            | 2642/10000 [02:42<07:56, 15.44it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[84560] loss: 0.049 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 716.95it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 850.77it/s][A

                                                                                                                                                  [A
 26%|███████████████████████████▍                                                                            | 2642/10000 [02:42<07:56, 15.44it/s]
                                                                                                                                                  [A
 26%|███████████████████████████▍                                                                            | 2642/10000 [02:42<07:56, 15.44it/s]
Training Epoch: 100%|██████████████████████████████████████████████████████████████████████████████████████

[84580] loss: 0.062 
[84600] loss: 0.056 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1204.57it/s][A
 26%|███████████████████████████▍                                                                            | 2644/10000 [02:42<07:34, 16.18it/s]
                                                                                                                                                  [A
 26%|███████████████████████████▍                                                                            | 2644/10000 [02:42<07:34, 16.18it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[84620] loss: 0.033 


                                                                                                                                                  
 26%|███████████████████████████▍                                                                            | 2644/10000 [02:42<07:34, 16.18it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 717.99it/s][A


[84640] loss: 0.210 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1706.39it/s][A

                                                                                                                                                  [A
 26%|███████████████████████████▍                                                                            | 2644/10000 [02:42<07:34, 16.18it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 846.45it/s][A


[84660] loss: 0.060 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 643.30it/s][A

                                                                                                                                                  [A
 26%|███████████████████████████▍                                                                            | 2644/10000 [02:42<07:34, 16.18it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[84680] loss: 0.035 


                                                                                                                                                  
 26%|███████████████████████████▍                                                                            | 2644/10000 [02:42<07:34, 16.18it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 684.26it/s][A


[84700] loss: 0.073 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1381.07it/s][A
 26%|███████████████████████████▌                                                                            | 2647/10000 [02:42<07:05, 17.27it/s]
                                                                                                                                                  [A
 26%|███████████████████████████▌                                                                            | 2647/10000 [02:42<07:05, 17.27it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 750.31it/s][A


[84720] loss: 0.088 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1120.57it/s][A

                                                                                                                                                  [A
 26%|███████████████████████████▌                                                                            | 2647/10000 [02:42<07:05, 17.27it/s]
                                                                                                                                                  [A


[84740] loss: 0.093 


 26%|███████████████████████████▌                                                                            | 2647/10000 [02:42<07:05, 17.27it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 657.19it/s][A


[84760] loss: 0.046 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1610.10it/s][A
 26%|███████████████████████████▌                                                                            | 2649/10000 [02:42<07:00, 17.49it/s]
                                                                                                                                                  [A
 26%|███████████████████████████▌                                                                            | 2649/10000 [02:42<07:00, 17.49it/s]
                                                                                                                                                  [A
 26%|███████████████████████████▌                                                                            | 2649/10000 [02:42<07:00, 17.49it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[84780] loss: 0.059 
[84800] loss: 0.116 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 249.69it/s][A

                                                                                                                                                  [A
 26%|███████████████████████████▌                                                                            | 2649/10000 [02:42<07:00, 17.49it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 831.19it/s][A


[84820] loss: 0.067 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 618.26it/s][A
 27%|███████████████████████████▌                                                                            | 2651/10000 [02:42<06:47, 18.05it/s]
                                                                                                                                                  [A
 27%|███████████████████████████▌                                                                            | 2651/10000 [02:42<06:47, 18.05it/s]
                                                                                                                                                  [A
 27%|███████████████████████████▌                                                                            | 2651/10000 [02:42<06:47, 18.05it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[84840] loss: 0.068 
[84860] loss: 0.046 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1423.25it/s][A

                                                                                                                                                  [A
 27%|███████████████████████████▌                                                                            | 2651/10000 [02:42<06:47, 18.05it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[84880] loss: 0.025 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 762.75it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1531.89it/s][A
 27%|███████████████████████████▌                                                                            | 2653/10000 [02:42<06:39, 18.38it/s]
                                                                                                                                                  [A
 27%|███████████████████████████▌                                                                            | 2653/10000 [02:42<06:39, 18.38it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[84900] loss: 0.048 


                                                                                                                                                  
 27%|███████████████████████████▌                                                                            | 2653/10000 [02:42<06:39, 18.38it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 653.88it/s][A


[84920] loss: 0.074 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1383.35it/s][A

                                                                                                                                                  [A
 27%|███████████████████████████▌                                                                            | 2653/10000 [02:42<06:39, 18.38it/s]
                                                                                                                                                  [A
 27%|███████████████████████████▌                                                                            | 2653/10000 [02:42<06:39, 18.38it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 743.79it/s][A


[84940] loss: 0.041 
[84960] loss: 0.038 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 291.82it/s][A
 27%|███████████████████████████▌                                                                            | 2655/10000 [02:42<06:40, 18.32it/s]
                                                                                                                                                  [A
 27%|███████████████████████████▌                                                                            | 2655/10000 [02:42<06:40, 18.32it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 801.91it/s][A


[84980] loss: 0.036 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2033.11it/s][A

                                                                                                                                                  [A
 27%|███████████████████████████▌                                                                            | 2655/10000 [02:42<06:40, 18.32it/s]
                                                                                                                                                  [A
 27%|███████████████████████████▌                                                                            | 2655/10000 [02:42<06:40, 18.32it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 720.10it/s][A


[85000] loss: 0.057 
[85020] loss: 0.055 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 985.50it/s][A
 27%|███████████████████████████▋                                                                            | 2657/10000 [02:42<06:32, 18.71it/s]
                                                                                                                                                  [A
 27%|███████████████████████████▋                                                                            | 2657/10000 [02:43<06:32, 18.71it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[85040] loss: 0.123 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 774.00it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 577.41it/s][A

                                                                                                                                                  [A
 27%|███████████████████████████▋                                                                            | 2657/10000 [02:43<06:32, 18.71it/s]

[85060] loss: 0.042 



                                                                                                                                                  [A
 27%|███████████████████████████▋                                                                            | 2657/10000 [02:43<06:32, 18.71it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 630.47it/s][A


[85080] loss: 0.061 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1059.70it/s][A
 27%|███████████████████████████▋                                                                            | 2659/10000 [02:43<06:36, 18.52it/s]
                                                                                                                                                  [A
 27%|███████████████████████████▋                                                                            | 2659/10000 [02:43<06:36, 18.52it/s]
                                                                                                                                                  [A
 27%|███████████████████████████▋                                                                            | 2659/10000 [02:43<06:36, 18.52it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[85100] loss: 0.069 
[85120] loss: 0.055 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 314.18it/s][A

                                                                                                                                                  [A
 27%|███████████████████████████▋                                                                            | 2659/10000 [02:43<06:36, 18.52it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 736.60it/s][A


[85140] loss: 0.042 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 560.59it/s][A
 27%|███████████████████████████▋                                                                            | 2661/10000 [02:43<06:34, 18.61it/s]
                                                                                                                                                  [A
 27%|███████████████████████████▋                                                                            | 2661/10000 [02:43<06:34, 18.61it/s]
                                                                                                                                                  [A
 27%|███████████████████████████▋                                                                            | 2661/10000 [02:43<06:34, 18.61it/s]


[85160] loss: 0.050 
[85180] loss: 0.082 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 634.88it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1622.55it/s][A

                                                                                                                                                  [A
 27%|███████████████████████████▋                                                                            | 2661/10000 [02:43<06:34, 18.61it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 728.43it/s][A


[85200] loss: 0.060 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 878.94it/s][A
 27%|███████████████████████████▋                                                                            | 2663/10000 [02:43<06:37, 18.44it/s]
                                                                                                                                                  [A
 27%|███████████████████████████▋                                                                            | 2663/10000 [02:43<06:37, 18.44it/s]
                                                                                                                                                  [A
 27%|███████████████████████████▋                                                                            | 2663/10000 [02:43<06:37, 18.44it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[85220] loss: 0.039 
[85240] loss: 0.053 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 613.20it/s][A

                                                                                                                                                  [A
 27%|███████████████████████████▋                                                                            | 2663/10000 [02:43<06:37, 18.44it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[85260] loss: 0.049 


                                                                                                                                                  
 27%|███████████████████████████▋                                                                            | 2663/10000 [02:43<06:37, 18.44it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 521.13it/s][A


[85280] loss: 0.106 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 561.11it/s][A
 27%|███████████████████████████▋                                                                            | 2665/10000 [02:43<07:10, 17.05it/s]
                                                                                                                                                  [A
 27%|███████████████████████████▋                                                                            | 2665/10000 [02:43<07:10, 17.05it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 660.60it/s][A


[85300] loss: 0.082 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 481.44it/s][A

                                                                                                                                                  [A
 27%|███████████████████████████▋                                                                            | 2665/10000 [02:43<07:10, 17.05it/s]
                                                                                                                                                  [A
 27%|███████████████████████████▋                                                                            | 2665/10000 [02:43<07:10, 17.05it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 536.19it/s][A


[85320] loss: 0.038 
[85340] loss: 0.061 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 816.17it/s][A
 27%|███████████████████████████▋                                                                            | 2667/10000 [02:43<07:23, 16.55it/s]
                                                                                                                                                  [A
 27%|███████████████████████████▋                                                                            | 2667/10000 [02:43<07:23, 16.55it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 611.99it/s][A


[85360] loss: 0.059 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 510.63it/s][A

                                                                                                                                                  [A
 27%|███████████████████████████▋                                                                            | 2667/10000 [02:43<07:23, 16.55it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[85380] loss: 0.038 


                                                                                                                                                  
 27%|███████████████████████████▋                                                                            | 2667/10000 [02:43<07:23, 16.55it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 530.10it/s][A


[85400] loss: 0.065 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 456.85it/s][A
 27%|███████████████████████████▊                                                                            | 2669/10000 [02:43<07:36, 16.05it/s]
                                                                                                                                                  [A
 27%|███████████████████████████▊                                                                            | 2669/10000 [02:43<07:36, 16.05it/s]
                                                                                                                                                  [A
 27%|███████████████████████████▊                                                                            | 2669/10000 [02:43<07:36, 16.05it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[85420] loss: 0.088 
[85440] loss: 0.095 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 756.00it/s][A

                                                                                                                                                  [A
 27%|███████████████████████████▊                                                                            | 2669/10000 [02:43<07:36, 16.05it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 563.64it/s][A


[85460] loss: 0.064 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 447.20it/s][A
 27%|███████████████████████████▊                                                                            | 2671/10000 [02:43<08:00, 15.24it/s]
                                                                                                                                                  [A
 27%|███████████████████████████▊                                                                            | 2671/10000 [02:43<08:00, 15.24it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[85480] loss: 0.048 


                                                                                                                                                  
 27%|███████████████████████████▊                                                                            | 2671/10000 [02:43<08:00, 15.24it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 493.32it/s][A


[85500] loss: 0.099 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 806.60it/s][A

                                                                                                                                                  [A
 27%|███████████████████████████▊                                                                            | 2671/10000 [02:43<08:00, 15.24it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 555.47it/s][A


[85520] loss: 0.049 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 466.40it/s][A
 27%|███████████████████████████▊                                                                            | 2673/10000 [02:44<08:14, 14.80it/s]
                                                                                                                                                  [A
 27%|███████████████████████████▊                                                                            | 2673/10000 [02:44<08:14, 14.80it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[85540] loss: 0.041 


                                                                                                                                                  
 27%|███████████████████████████▊                                                                            | 2673/10000 [02:44<08:14, 14.80it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 503.31it/s][A


[85560] loss: 0.036 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 661.25it/s][A

                                                                                                                                                  [A
 27%|███████████████████████████▊                                                                            | 2673/10000 [02:44<08:14, 14.80it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[85580] loss: 0.075 


                                                                                                                                                  
 27%|███████████████████████████▊                                                                            | 2673/10000 [02:44<08:14, 14.80it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 581.94it/s][A


[85600] loss: 0.056 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 373.29it/s][A
 27%|███████████████████████████▊                                                                            | 2675/10000 [02:44<08:17, 14.71it/s]
                                                                                                                                                  [A
 27%|███████████████████████████▊                                                                            | 2675/10000 [02:44<08:17, 14.71it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 589.39it/s][A


[85620] loss: 0.048 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 559.09it/s][A

                                                                                                                                                  [A
 27%|███████████████████████████▊                                                                            | 2675/10000 [02:44<08:17, 14.71it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[85640] loss: 0.066 


                                                                                                                                                  
 27%|███████████████████████████▊                                                                            | 2675/10000 [02:44<08:17, 14.71it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 489.46it/s][A


[85660] loss: 0.053 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 606.55it/s][A
 27%|███████████████████████████▊                                                                            | 2677/10000 [02:44<08:21, 14.61it/s]
                                                                                                                                                  [A
 27%|███████████████████████████▊                                                                            | 2677/10000 [02:44<08:21, 14.61it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[85680] loss: 0.092 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 548.73it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 776.15it/s][A

                                                                                                                                                  [A
 27%|███████████████████████████▊                                                                            | 2677/10000 [02:44<08:21, 14.61it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[85700] loss: 0.041 


                                                                                                                                                  
 27%|███████████████████████████▊                                                                            | 2677/10000 [02:44<08:21, 14.61it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 450.75it/s][A

[85720] loss: 0.067 




Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 652.81it/s][A
 27%|███████████████████████████▊                                                                            | 2679/10000 [02:44<08:35, 14.20it/s]
                                                                                                                                                  [A
 27%|███████████████████████████▊                                                                            | 2679/10000 [02:44<08:35, 14.20it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[85740] loss: 0.059 


                                                                                                                                                  
 27%|███████████████████████████▊                                                                            | 2679/10000 [02:44<08:35, 14.20it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 536.12it/s][A


[85760] loss: 0.036 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 892.79it/s][A

                                                                                                                                                  [A
 27%|███████████████████████████▊                                                                            | 2679/10000 [02:44<08:35, 14.20it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 893.81it/s][A


[85780] loss: 0.055 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1131.46it/s][A
 27%|███████████████████████████▉                                                                            | 2681/10000 [02:44<08:09, 14.96it/s]
                                                                                                                                                  [A
 27%|███████████████████████████▉                                                                            | 2681/10000 [02:44<08:09, 14.96it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[85800] loss: 0.054 


                                                                                                                                                  
 27%|███████████████████████████▉                                                                            | 2681/10000 [02:44<08:09, 14.96it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 583.06it/s][A


[85820] loss: 0.062 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 373.06it/s][A

                                                                                                                                                  [A
 27%|███████████████████████████▉                                                                            | 2681/10000 [02:44<08:09, 14.96it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 846.89it/s][A


[85840] loss: 0.025 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 820.80it/s][A
 27%|███████████████████████████▉                                                                            | 2683/10000 [02:44<07:47, 15.66it/s]
                                                                                                                                                  [A
 27%|███████████████████████████▉                                                                            | 2683/10000 [02:44<07:47, 15.66it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[85860] loss: 0.044 


                                                                                                                                                  
 27%|███████████████████████████▉                                                                            | 2683/10000 [02:44<07:47, 15.66it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 662.39it/s][A


[85880] loss: 0.055 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2007.80it/s][A

                                                                                                                                                  [A
 27%|███████████████████████████▉                                                                            | 2683/10000 [02:44<07:47, 15.66it/s]
                                                                                                                                                  [A

[85900] loss: 0.060 



 27%|███████████████████████████▉                                                                            | 2683/10000 [02:44<07:47, 15.66it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 677.96it/s][A


[85920] loss: 0.082 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 712.23it/s][A
 27%|███████████████████████████▉                                                                            | 2685/10000 [02:44<07:28, 16.31it/s]
                                                                                                                                                  [A
 27%|███████████████████████████▉                                                                            | 2685/10000 [02:44<07:28, 16.31it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 851.41it/s][A


[85940] loss: 0.079 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 928.77it/s][A

                                                                                                                                                  [A
 27%|███████████████████████████▉                                                                            | 2685/10000 [02:44<07:28, 16.31it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[85960] loss: 0.064 


                                                                                                                                                  
 27%|███████████████████████████▉                                                                            | 2685/10000 [02:44<07:28, 16.31it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 782.76it/s][A


[85980] loss: 0.060 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 784.72it/s][A

                                                                                                                                                  [A
 27%|███████████████████████████▉                                                                            | 2685/10000 [02:44<07:28, 16.31it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[86000] loss: 0.086 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 828.30it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1307.04it/s][A
 27%|███████████████████████████▉                                                                            | 2688/10000 [02:44<06:46, 17.97it/s]
                                                                                                                                                  [A
 27%|███████████████████████████▉                                                                            | 2688/10000 [02:44<06:46, 17.97it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[86020] loss: 0.037 


                                                                                                                                                  
 27%|███████████████████████████▉                                                                            | 2688/10000 [02:44<06:46, 17.97it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[86040] loss: 0.069 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 595.22it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1358.70it/s][A

                                                                                                                                                  [A
[A                                                                                                                                               

[86060] loss: 0.072 


 27%|███████████████████████████▉                                                                            | 2688/10000 [02:45<06:46, 17.97it/s]
                                                                                                                                                  [A
 27%|███████████████████████████▉                                                                            | 2688/10000 [02:45<06:46, 17.97it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 679.82it/s][A


[86080] loss: 0.113 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1360.46it/s][A
 27%|███████████████████████████▉                                                                            | 2690/10000 [02:45<06:54, 17.62it/s]
                                                                                                                                                  [A
 27%|███████████████████████████▉                                                                            | 2690/10000 [02:45<06:54, 17.62it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 814.69it/s][A


[86100] loss: 0.042 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1070.52it/s][A

                                                                                                                                                  [A
 27%|███████████████████████████▉                                                                            | 2690/10000 [02:45<06:54, 17.62it/s]
                                                                                                                                                  [A
 27%|███████████████████████████▉                                                                            | 2690/10000 [02:45<06:54, 17.62it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[86120] loss: 0.065 
[86140] loss: 0.055 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 658.62it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1241.29it/s][A
 27%|███████████████████████████▉                                                                            | 2692/10000 [02:45<06:48, 17.89it/s]
                                                                                                                                                  [A
 27%|███████████████████████████▉                                                                            | 2692/10000 [02:45<06:48, 17.89it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 786.21it/s][A


[86160] loss: 0.049 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 640.16it/s][A

                                                                                                                                                  [A
 27%|███████████████████████████▉                                                                            | 2692/10000 [02:45<06:48, 17.89it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[86180] loss: 0.067 


                                                                                                                                                  
 27%|███████████████████████████▉                                                                            | 2692/10000 [02:45<06:48, 17.89it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 633.62it/s][A


[86200] loss: 0.058 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1738.21it/s][A
 27%|████████████████████████████                                                                            | 2694/10000 [02:45<06:46, 17.96it/s]
                                                                                                                                                  [A
 27%|████████████████████████████                                                                            | 2694/10000 [02:45<06:46, 17.96it/s]
                                                                                                                                                  [A
 27%|████████████████████████████                                                                            | 2694/10000 [02:45<06:46, 17.96it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[86220] loss: 0.065 
[86240] loss: 0.022 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 380.68it/s][A

                                                                                                                                                  [A
 27%|████████████████████████████                                                                            | 2694/10000 [02:45<06:46, 17.96it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 836.52it/s][A


[86260] loss: 0.074 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1134.82it/s][A

                                                                                                                                                  [A
 27%|████████████████████████████                                                                            | 2694/10000 [02:45<06:46, 17.96it/s]
                                                                                                                                                  [A
 27%|████████████████████████████                                                                            | 2694/10000 [02:45<06:46, 17.96it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[86280] loss: 0.058 
[86300] loss: 0.123 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 650.69it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 819.04it/s][A
 27%|████████████████████████████                                                                            | 2697/10000 [02:45<06:38, 18.30it/s]
                                                                                                                                                  [A
 27%|████████████████████████████                                                                            | 2697/10000 [02:45<06:38, 18.30it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 825.06it/s][A


[86320] loss: 0.096 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 632.34it/s][A

                                                                                                                                                  [A
 27%|████████████████████████████                                                                            | 2697/10000 [02:45<06:38, 18.30it/s]
                                                                                                                                                  [A
 27%|████████████████████████████                                                                            | 2697/10000 [02:45<06:38, 18.30it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 638.83it/s][A


[86340] loss: 0.050 
[86360] loss: 0.067 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1304.20it/s][A
 27%|████████████████████████████                                                                            | 2699/10000 [02:45<06:35, 18.45it/s]
                                                                                                                                                  [A
 27%|████████████████████████████                                                                            | 2699/10000 [02:45<06:35, 18.45it/s]
                                                                                                                                                  [A
 27%|████████████████████████████                                                                            | 2699/10000 [02:45<06:35, 18.45it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[86380] loss: 0.086 
[86400] loss: 0.083 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1097.12it/s][A

                                                                                                                                                  [A
 27%|████████████████████████████                                                                            | 2699/10000 [02:45<06:35, 18.45it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 622.27it/s][A


[86420] loss: 0.071 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 539.32it/s][A
 27%|████████████████████████████                                                                            | 2701/10000 [02:45<06:43, 18.08it/s]
                                                                                                                                                  [A
 27%|████████████████████████████                                                                            | 2701/10000 [02:45<06:43, 18.08it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[86440] loss: 0.063 


                                                                                                                                                  
 27%|████████████████████████████                                                                            | 2701/10000 [02:45<06:43, 18.08it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 519.00it/s][A


[86460] loss: 0.034 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 856.85it/s][A

                                                                                                                                                  [A
 27%|████████████████████████████                                                                            | 2701/10000 [02:45<06:43, 18.08it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[86480] loss: 0.054 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 683.36it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 683.45it/s][A
 27%|████████████████████████████                                                                            | 2703/10000 [02:45<07:01, 17.33it/s]
                                                                                                                                                  [A
 27%|████████████████████████████                                                                            | 2703/10000 [02:45<07:01, 17.33it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[86500] loss: 0.056 


                                                                                                                                                  
 27%|████████████████████████████                                                                            | 2703/10000 [02:45<07:01, 17.33it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 527.03it/s][A


[86520] loss: 0.038 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 615.18it/s][A

                                                                                                                                                  [A
 27%|████████████████████████████                                                                            | 2703/10000 [02:45<07:01, 17.33it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[86540] loss: 0.041 


                                                                                                                                                  
 27%|████████████████████████████                                                                            | 2703/10000 [02:45<07:01, 17.33it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 521.28it/s][A


[86560] loss: 0.080 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 807.84it/s][A
 27%|████████████████████████████▏                                                                           | 2705/10000 [02:45<07:27, 16.29it/s]
                                                                                                                                                  [A
 27%|████████████████████████████▏                                                                           | 2705/10000 [02:45<07:27, 16.29it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 596.41it/s][A


[86580] loss: 0.074 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 625.08it/s][A

                                                                                                                                                  [A
 27%|████████████████████████████▏                                                                           | 2705/10000 [02:45<07:27, 16.29it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[86600] loss: 0.036 


                                                                                                                                                  
 27%|████████████████████████████▏                                                                           | 2705/10000 [02:46<07:27, 16.29it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 503.06it/s][A


[86620] loss: 0.109 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 797.09it/s][A
 27%|████████████████████████████▏                                                                           | 2707/10000 [02:46<07:43, 15.75it/s]
                                                                                                                                                  [A
 27%|████████████████████████████▏                                                                           | 2707/10000 [02:46<07:43, 15.75it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[86640] loss: 0.060 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 569.52it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 827.61it/s][A

                                                                                                                                                  [A
 27%|████████████████████████████▏                                                                           | 2707/10000 [02:46<07:43, 15.75it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[86660] loss: 0.048 


                                                                                                                                                  
 27%|████████████████████████████▏                                                                           | 2707/10000 [02:46<07:43, 15.75it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 497.44it/s][A


[86680] loss: 0.100 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 514.01it/s][A
 27%|████████████████████████████▏                                                                           | 2709/10000 [02:46<07:56, 15.30it/s]
                                                                                                                                                  [A
 27%|████████████████████████████▏                                                                           | 2709/10000 [02:46<07:56, 15.30it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[86700] loss: 0.038 


                                                                                                                                                  
 27%|████████████████████████████▏                                                                           | 2709/10000 [02:46<07:56, 15.30it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 549.77it/s][A


[86720] loss: 0.142 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 748.72it/s][A

                                                                                                                                                  [A
 27%|████████████████████████████▏                                                                           | 2709/10000 [02:46<07:56, 15.30it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 586.21it/s][A


[86740] loss: 0.046 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 481.55it/s][A
 27%|████████████████████████████▏                                                                           | 2711/10000 [02:46<07:58, 15.23it/s]
                                                                                                                                                  [A
 27%|████████████████████████████▏                                                                           | 2711/10000 [02:46<07:58, 15.23it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[86760] loss: 0.057 


                                                                                                                                                  
 27%|████████████████████████████▏                                                                           | 2711/10000 [02:46<07:58, 15.23it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 544.58it/s][A


[86780] loss: 0.034 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 760.80it/s][A

                                                                                                                                                  [A
 27%|████████████████████████████▏                                                                           | 2711/10000 [02:46<07:58, 15.23it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 709.68it/s][A


[86800] loss: 0.069 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 710.42it/s][A
 27%|████████████████████████████▏                                                                           | 2713/10000 [02:46<07:47, 15.58it/s]
                                                                                                                                                  [A
 27%|████████████████████████████▏                                                                           | 2713/10000 [02:46<07:47, 15.58it/s]
                                                                                                                                                  [A
 27%|████████████████████████████▏                                                                           | 2713/10000 [02:46<07:47, 15.58it/s]
Training Epoch:   0%|                                                                                       

[86820] loss: 0.035 
[86840] loss: 0.063 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 613.22it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 993.68it/s][A

                                                                                                                                                  [A
 27%|████████████████████████████▏                                                                           | 2713/10000 [02:46<07:47, 15.58it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[86860] loss: 0.052 


                                                                                                                                                  
 27%|████████████████████████████▏                                                                           | 2713/10000 [02:46<07:47, 15.58it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 563.99it/s][A


[86880] loss: 0.091 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 431.82it/s][A
 27%|████████████████████████████▏                                                                           | 2715/10000 [02:46<07:46, 15.61it/s]
                                                                                                                                                  [A
 27%|████████████████████████████▏                                                                           | 2715/10000 [02:46<07:46, 15.61it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[86900] loss: 0.085 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 571.03it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 602.02it/s][A

                                                                                                                                                  [A
 27%|████████████████████████████▏                                                                           | 2715/10000 [02:46<07:46, 15.61it/s]
                                                                                                                                                  [A
 27%|████████████████████████████▏                                                                           | 2715/10000 [02:46<07:46, 15.61it/s]
Training Epoch: 100%|██████████████████████████████████████████████████████████████████████████████████████

[86920] loss: 0.050 
[86940] loss: 0.063 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1536.38it/s][A
 27%|████████████████████████████▎                                                                           | 2717/10000 [02:46<08:03, 15.05it/s]
                                                                                                                                                  [A
 27%|████████████████████████████▎                                                                           | 2717/10000 [02:46<08:03, 15.05it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[86960] loss: 0.051 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 620.15it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 794.83it/s][A

                                                                                                                                                  [A
 27%|████████████████████████████▎                                                                           | 2717/10000 [02:46<08:03, 15.05it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[86980] loss: 0.057 


                                                                                                                                                  
 27%|████████████████████████████▎                                                                           | 2717/10000 [02:46<08:03, 15.05it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 607.21it/s][A


[87000] loss: 0.079 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1863.31it/s][A
 27%|████████████████████████████▎                                                                           | 2719/10000 [02:46<07:54, 15.34it/s]
                                                                                                                                                  [A
 27%|████████████████████████████▎                                                                           | 2719/10000 [02:46<07:54, 15.34it/s]


[87020] loss: 0.047 


                                                                                                                                                  [A
 27%|████████████████████████████▎                                                                           | 2719/10000 [02:46<07:54, 15.34it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 630.57it/s][A


[87040] loss: 0.058 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 554.14it/s][A

                                                                                                                                                  [A
 27%|████████████████████████████▎                                                                           | 2719/10000 [02:46<07:54, 15.34it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[87060] loss: 0.051 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 743.51it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2431.48it/s][A
 27%|████████████████████████████▎                                                                           | 2721/10000 [02:46<07:33, 16.06it/s]
                                                                                                                                                  [A
 27%|████████████████████████████▎                                                                           | 2721/10000 [02:46<07:33, 16.06it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[87080] loss: 0.046 


                                                                                                                                                  
 27%|████████████████████████████▎                                                                           | 2721/10000 [02:46<07:33, 16.06it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 610.55it/s][A


[87100] loss: 0.063 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1046.74it/s][A

                                                                                                                                                  [A
 27%|████████████████████████████▎                                                                           | 2721/10000 [02:47<07:33, 16.06it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 854.15it/s][A


[87120] loss: 0.073 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1338.32it/s][A
 27%|████████████████████████████▎                                                                           | 2723/10000 [02:47<07:16, 16.65it/s]
                                                                                                                                                  [A
 27%|████████████████████████████▎                                                                           | 2723/10000 [02:47<07:16, 16.65it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[87140] loss: 0.066 


                                                                                                                                                  
 27%|████████████████████████████▎                                                                           | 2723/10000 [02:47<07:16, 16.65it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 614.23it/s][A


[87160] loss: 0.050 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1429.55it/s][A

                                                                                                                                                  [A
 27%|████████████████████████████▎                                                                           | 2723/10000 [02:47<07:16, 16.65it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[87180] loss: 0.051 


                                                                                                                                                  
 27%|████████████████████████████▎                                                                           | 2723/10000 [02:47<07:16, 16.65it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 583.53it/s][A


[87200] loss: 0.185 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 770.30it/s][A
 27%|████████████████████████████▎                                                                           | 2725/10000 [02:47<07:23, 16.41it/s]
                                                                                                                                                  [A
 27%|████████████████████████████▎                                                                           | 2725/10000 [02:47<07:23, 16.41it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 777.73it/s][A


[87220] loss: 0.034 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1679.74it/s][A

                                                                                                                                                  [A
 27%|████████████████████████████▎                                                                           | 2725/10000 [02:47<07:23, 16.41it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[87240] loss: 0.079 


                                                                                                                                                  
 27%|████████████████████████████▎                                                                           | 2725/10000 [02:47<07:23, 16.41it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 623.12it/s][A


[87260] loss: 0.047 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1378.35it/s][A
 27%|████████████████████████████▎                                                                           | 2727/10000 [02:47<07:10, 16.88it/s]
                                                                                                                                                  [A
 27%|████████████████████████████▎                                                                           | 2727/10000 [02:47<07:10, 16.88it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 735.41it/s][A


[87280] loss: 0.057 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1946.31it/s][A

                                                                                                                                                  [A
 27%|████████████████████████████▎                                                                           | 2727/10000 [02:47<07:10, 16.88it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[87300] loss: 0.067 


                                                                                                                                                  
 27%|████████████████████████████▎                                                                           | 2727/10000 [02:47<07:10, 16.88it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 647.92it/s][A


[87320] loss: 0.049 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 718.08it/s][A
 27%|████████████████████████████▍                                                                           | 2729/10000 [02:47<07:02, 17.22it/s]
                                                                                                                                                  [A
 27%|████████████████████████████▍                                                                           | 2729/10000 [02:47<07:02, 17.22it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[87340] loss: 0.083 


                                                                                                                                                  
 27%|████████████████████████████▍                                                                           | 2729/10000 [02:47<07:02, 17.22it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 599.48it/s][A


[87360] loss: 0.101 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1110.78it/s][A

                                                                                                                                                  [A
 27%|████████████████████████████▍                                                                           | 2729/10000 [02:47<07:02, 17.22it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 751.96it/s][A


[87380] loss: 0.071 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 575.67it/s][A
 27%|████████████████████████████▍                                                                           | 2731/10000 [02:47<07:01, 17.25it/s]
                                                                                                                                                  [A
 27%|████████████████████████████▍                                                                           | 2731/10000 [02:47<07:01, 17.25it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[87400] loss: 0.036 


                                                                                                                                                  
 27%|████████████████████████████▍                                                                           | 2731/10000 [02:47<07:01, 17.25it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 550.08it/s][A


[87420] loss: 0.068 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 916.19it/s][A

                                                                                                                                                  [A
 27%|████████████████████████████▍                                                                           | 2731/10000 [02:47<07:01, 17.25it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 873.55it/s][A


[87440] loss: 0.059 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2116.20it/s][A
 27%|████████████████████████████▍                                                                           | 2733/10000 [02:47<06:54, 17.54it/s]
                                                                                                                                                  [A
 27%|████████████████████████████▍                                                                           | 2733/10000 [02:47<06:54, 17.54it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[87460] loss: 0.087 


                                                                                                                                                  
 27%|████████████████████████████▍                                                                           | 2733/10000 [02:47<06:54, 17.54it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 744.95it/s][A


[87480] loss: 0.044 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 703.62it/s][A

                                                                                                                                                  [A
 27%|████████████████████████████▍                                                                           | 2733/10000 [02:47<06:54, 17.54it/s]
                                                                                                                                                  [A
 27%|████████████████████████████▍                                                                           | 2733/10000 [02:47<06:54, 17.54it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 728.85it/s][A


[87500] loss: 0.039 
[87520] loss: 0.037 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 348.77it/s][A
 27%|████████████████████████████▍                                                                           | 2735/10000 [02:47<06:44, 17.96it/s]
                                                                                                                                                  [A
 27%|████████████████████████████▍                                                                           | 2735/10000 [02:47<06:44, 17.96it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 1010.17it/s][A


[87540] loss: 0.064 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1318.96it/s][A

                                                                                                                                                  [A
 27%|████████████████████████████▍                                                                           | 2735/10000 [02:47<06:44, 17.96it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[87560] loss: 0.105 


                                                                                                                                                  
 27%|████████████████████████████▍                                                                           | 2735/10000 [02:47<06:44, 17.96it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 678.03it/s][A


[87580] loss: 0.067 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 881.53it/s][A

                                                                                                                                                  [A
 27%|████████████████████████████▍                                                                           | 2735/10000 [02:47<06:44, 17.96it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[87600] loss: 0.038 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 623.81it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 733.14it/s][A
 27%|████████████████████████████▍                                                                           | 2738/10000 [02:47<06:33, 18.45it/s]
                                                                                                                                                  [A
 27%|████████████████████████████▍                                                                           | 2738/10000 [02:47<06:33, 18.45it/s]
                                                                                                                                                  [A
 27%|████████████████████████████▍                                                                          

[87620] loss: 0.035 
[87640] loss: 0.086 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 512.67it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 978.38it/s][A

                                                                                                                                                  [A
 27%|████████████████████████████▍                                                                           | 2738/10000 [02:47<06:33, 18.45it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[87660] loss: 0.031 


                                                                                                                                                  
 27%|████████████████████████████▍                                                                           | 2738/10000 [02:48<06:33, 18.45it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 528.84it/s][A


[87680] loss: 0.015 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 265.71it/s][A
 27%|████████████████████████████▍                                                                           | 2740/10000 [02:48<07:08, 16.93it/s]
                                                                                                                                                  [A
 27%|████████████████████████████▍                                                                           | 2740/10000 [02:48<07:08, 16.93it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 610.88it/s][A


[87700] loss: 0.071 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1642.89it/s][A

                                                                                                                                                  [A
 27%|████████████████████████████▍                                                                           | 2740/10000 [02:48<07:08, 16.93it/s]
                                                                                                                                                  [A
 27%|████████████████████████████▍                                                                           | 2740/10000 [02:48<07:08, 16.93it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 512.58it/s][A


[87720] loss: 0.040 
[87740] loss: 0.082 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 823.70it/s][A
 27%|████████████████████████████▌                                                                           | 2742/10000 [02:48<07:23, 16.35it/s]
                                                                                                                                                  [A
 27%|████████████████████████████▌                                                                           | 2742/10000 [02:48<07:23, 16.35it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 598.05it/s][A


[87760] loss: 0.035 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 681.78it/s][A

                                                                                                                                                  [A
 27%|████████████████████████████▌                                                                           | 2742/10000 [02:48<07:23, 16.35it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[87780] loss: 0.056 


                                                                                                                                                  
 27%|████████████████████████████▌                                                                           | 2742/10000 [02:48<07:23, 16.35it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 508.14it/s][A


[87800] loss: 0.086 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 851.29it/s][A
 27%|████████████████████████████▌                                                                           | 2744/10000 [02:48<07:34, 15.97it/s]
                                                                                                                                                  [A
 27%|████████████████████████████▌                                                                           | 2744/10000 [02:48<07:34, 15.97it/s]
                                                                                                                                                  [A
 27%|████████████████████████████▌                                                                           | 2744/10000 [02:48<07:34, 15.97it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[87820] loss: 0.062 
[87840] loss: 0.125 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 846.31it/s][A

                                                                                                                                                  [A
 27%|████████████████████████████▌                                                                           | 2744/10000 [02:48<07:34, 15.97it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 607.04it/s][A


[87860] loss: 0.057 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 856.33it/s][A
 27%|████████████████████████████▌                                                                           | 2746/10000 [02:48<07:36, 15.89it/s]
                                                                                                                                                  [A
 27%|████████████████████████████▌                                                                           | 2746/10000 [02:48<07:36, 15.89it/s]
                                                                                                                                                  [A
                                                                                                                                                  

[87880] loss: 0.048 


 27%|████████████████████████████▌                                                                           | 2746/10000 [02:48<07:36, 15.89it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 511.69it/s][A


[87900] loss: 0.114 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 743.41it/s][A

                                                                                                                                                  [A
 27%|████████████████████████████▌                                                                           | 2746/10000 [02:48<07:36, 15.89it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 608.26it/s][A


[87920] loss: 0.072 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 829.57it/s][A
 27%|████████████████████████████▌                                                                           | 2748/10000 [02:48<07:42, 15.67it/s]
                                                                                                                                                  [A
 27%|████████████████████████████▌                                                                           | 2748/10000 [02:48<07:42, 15.67it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[87940] loss: 0.059 


                                                                                                                                                  
 27%|████████████████████████████▌                                                                           | 2748/10000 [02:48<07:42, 15.67it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 482.30it/s][A


[87960] loss: 0.055 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 903.94it/s][A

                                                                                                                                                  [A
 27%|████████████████████████████▌                                                                           | 2748/10000 [02:48<07:42, 15.67it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[87980] loss: 0.118 


                                                                                                                                                  
 27%|████████████████████████████▌                                                                           | 2748/10000 [02:48<07:42, 15.67it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 523.34it/s][A


[88000] loss: 0.014 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 287.87it/s][A
 28%|████████████████████████████▌                                                                           | 2750/10000 [02:48<08:01, 15.04it/s]
                                                                                                                                                  [A
 28%|████████████████████████████▌                                                                           | 2750/10000 [02:48<08:01, 15.04it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 572.24it/s][A


[88020] loss: 0.059 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1647.41it/s][A

                                                                                                                                                  [A
 28%|████████████████████████████▌                                                                           | 2750/10000 [02:48<08:01, 15.04it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[88040] loss: 0.047 


                                                                                                                                                  
 28%|████████████████████████████▌                                                                           | 2750/10000 [02:48<08:01, 15.04it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 526.58it/s][A


[88060] loss: 0.076 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 824.19it/s][A
 28%|████████████████████████████▌                                                                           | 2752/10000 [02:48<07:59, 15.11it/s]
                                                                                                                                                  [A
 28%|████████████████████████████▌                                                                           | 2752/10000 [02:48<07:59, 15.11it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 635.64it/s][A


[88080] loss: 0.054 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 613.83it/s][A

                                                                                                                                                  [A
 28%|████████████████████████████▌                                                                           | 2752/10000 [02:48<07:59, 15.11it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[88100] loss: 0.044 


                                                                                                                                                  
 28%|████████████████████████████▌                                                                           | 2752/10000 [02:48<07:59, 15.11it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 512.42it/s][A


[88120] loss: 0.079 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 961.11it/s][A
 28%|████████████████████████████▋                                                                           | 2754/10000 [02:48<07:58, 15.16it/s]
                                                                                                                                                  [A
 28%|████████████████████████████▋                                                                           | 2754/10000 [02:48<07:58, 15.16it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[88140] loss: 0.066 


                                                                                                                                                  
 28%|████████████████████████████▋                                                                           | 2754/10000 [02:49<07:58, 15.16it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 527.89it/s][A


[88160] loss: 0.164 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 362.77it/s][A

                                                                                                                                                  [A
 28%|████████████████████████████▋                                                                           | 2754/10000 [02:49<07:58, 15.16it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 654.52it/s][A


[88180] loss: 0.046 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 912.00it/s][A
 28%|████████████████████████████▋                                                                           | 2756/10000 [02:49<07:54, 15.26it/s]
                                                                                                                                                  [A
 28%|████████████████████████████▋                                                                           | 2756/10000 [02:49<07:54, 15.26it/s]
                                                                                                                                                  [A
 28%|████████████████████████████▋                                                                           | 2756/10000 [02:49<07:54, 15.26it/s]
Training Epoch:   0%|                                                                                       

[88200] loss: 0.038 
[88220] loss: 0.079 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 655.26it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1514.74it/s][A

                                                                                                                                                  [A
 28%|████████████████████████████▋                                                                           | 2756/10000 [02:49<07:54, 15.26it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[88240] loss: 0.046 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 737.96it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2298.25it/s][A
 28%|████████████████████████████▋                                                                           | 2758/10000 [02:49<07:28, 16.16it/s]
                                                                                                                                                  [A
 28%|████████████████████████████▋                                                                           | 2758/10000 [02:49<07:28, 16.16it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[88260] loss: 0.066 


                                                                                                                                                  
 28%|████████████████████████████▋                                                                           | 2758/10000 [02:49<07:28, 16.16it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 689.94it/s][A


[88280] loss: 0.039 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2307.10it/s][A

                                                                                                                                                  [A
 28%|████████████████████████████▋                                                                           | 2758/10000 [02:49<07:28, 16.16it/s]
                                                                                                                                                  [A
 28%|████████████████████████████▋                                                                           | 2758/10000 [02:49<07:28, 16.16it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 759.62it/s][A


[88300] loss: 0.054 
[88320] loss: 0.157 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2431.48it/s][A
 28%|████████████████████████████▋                                                                           | 2760/10000 [02:49<07:03, 17.09it/s]
                                                                                                                                                  [A
 28%|████████████████████████████▋                                                                           | 2760/10000 [02:49<07:03, 17.09it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 831.76it/s][A


[88340] loss: 0.066 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1569.14it/s][A

                                                                                                                                                  [A
 28%|████████████████████████████▋                                                                           | 2760/10000 [02:49<07:03, 17.09it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[88360] loss: 0.076 


                                                                                                                                                  
 28%|████████████████████████████▋                                                                           | 2760/10000 [02:49<07:03, 17.09it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 754.65it/s][A


[88380] loss: 0.050 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1610.72it/s][A

                                                                                                                                                  [A
 28%|████████████████████████████▋                                                                           | 2760/10000 [02:49<07:03, 17.09it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 809.40it/s][A


[88400] loss: 0.064 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2373.69it/s][A
 28%|████████████████████████████▋                                                                           | 2763/10000 [02:49<06:29, 18.59it/s]
                                                                                                                                                  [A
 28%|████████████████████████████▋                                                                           | 2763/10000 [02:49<06:29, 18.59it/s]
                                                                                                                                                  [A

[88420] loss: 0.056 



 28%|████████████████████████████▋                                                                           | 2763/10000 [02:49<06:29, 18.59it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 780.54it/s][A


[88440] loss: 0.036 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1596.61it/s][A

                                                                                                                                                  [A
 28%|████████████████████████████▋                                                                           | 2763/10000 [02:49<06:29, 18.59it/s]
                                                                                                                                                  [A

[88460] loss: 0.047 



 28%|████████████████████████████▋                                                                           | 2763/10000 [02:49<06:29, 18.59it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 774.81it/s][A


[88480] loss: 0.037 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 769.46it/s][A

                                                                                                                                                  [A
 28%|████████████████████████████▋                                                                           | 2763/10000 [02:49<06:29, 18.59it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 793.81it/s][A


[88500] loss: 0.031 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 621.38it/s][A
 28%|████████████████████████████▊                                                                           | 2766/10000 [02:49<06:12, 19.44it/s]
                                                                                                                                                  [A
 28%|████████████████████████████▊                                                                           | 2766/10000 [02:49<06:12, 19.44it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[88520] loss: 0.045 


                                                                                                                                                  
 28%|████████████████████████████▊                                                                           | 2766/10000 [02:49<06:12, 19.44it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 675.97it/s][A


[88540] loss: 0.049 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1474.27it/s][A

                                                                                                                                                  [A
 28%|████████████████████████████▊                                                                           | 2766/10000 [02:49<06:12, 19.44it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[88560] loss: 0.057 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 811.71it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 796.49it/s][A
 28%|████████████████████████████▊                                                                           | 2768/10000 [02:49<06:12, 19.43it/s]
                                                                                                                                                  [A
 28%|████████████████████████████▊                                                                           | 2768/10000 [02:49<06:12, 19.43it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[88580] loss: 0.055 


                                                                                                                                                  
 28%|████████████████████████████▊                                                                           | 2768/10000 [02:49<06:12, 19.43it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[88600] loss: 0.081 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 696.77it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2078.45it/s][A

                                                                                                                                                  [A
 28%|████████████████████████████▊                                                                           | 2768/10000 [02:49<06:12, 19.43it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[88620] loss: 0.066 


                                                                                                                                                  
 28%|████████████████████████████▊                                                                           | 2768/10000 [02:49<06:12, 19.43it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 676.31it/s][A


[88640] loss: 0.051 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 447.82it/s][A
 28%|████████████████████████████▊                                                                           | 2770/10000 [02:49<06:17, 19.14it/s]
                                                                                                                                                  [A
 28%|████████████████████████████▊                                                                           | 2770/10000 [02:49<06:17, 19.14it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[88660] loss: 0.023 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 881.45it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2062.10it/s][A

                                                                                                                                                  [A
 28%|████████████████████████████▊                                                                           | 2770/10000 [02:49<06:17, 19.14it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[88680] loss: 0.034 


                                                                                                                                                  
 28%|████████████████████████████▊                                                                           | 2770/10000 [02:49<06:17, 19.14it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 715.40it/s][A


[88700] loss: 0.052 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 790.93it/s][A

                                                                                                                                                  [A
 28%|████████████████████████████▊                                                                           | 2770/10000 [02:49<06:17, 19.14it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[88720] loss: 0.045 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 758.75it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1944.51it/s][A
 28%|████████████████████████████▊                                                                           | 2773/10000 [02:49<06:09, 19.58it/s]
                                                                                                                                                  [A
 28%|████████████████████████████▊                                                                           | 2773/10000 [02:49<06:09, 19.58it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[88740] loss: 0.085 


                                                                                                                                                  
 28%|████████████████████████████▊                                                                           | 2773/10000 [02:49<06:09, 19.58it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[88760] loss: 0.083 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 648.08it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1481.56it/s][A

                                                                                                                                                  [A
 28%|████████████████████████████▊                                                                           | 2773/10000 [02:50<06:09, 19.58it/s]
                                                                                                                                                  [A
 28%|████████████████████████████▊                                                                           | 2773/10000 [02:50<06:09, 19.58it/s]
Training Epoch: 100%|██████████████████████████████████████████████████████████████████████████████████████

[88780] loss: 0.066 
[88800] loss: 0.142 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1201.46it/s][A
 28%|████████████████████████████▊                                                                           | 2775/10000 [02:50<06:19, 19.03it/s]
                                                                                                                                                  [A
 28%|████████████████████████████▊                                                                           | 2775/10000 [02:50<06:19, 19.03it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[88820] loss: 0.102 


Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 1108.07it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2229.83it/s][A

                                                                                                                                                  [A
 28%|████████████████████████████▊                                                                           | 2775/10000 [02:50<06:19, 19.03it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[88840] loss: 0.090 


                                                                                                                                                  
 28%|████████████████████████████▊                                                                           | 2775/10000 [02:50<06:19, 19.03it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 838.66it/s][A


[88860] loss: 0.067 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1240.18it/s][A

                                                                                                                                                  [A
 28%|████████████████████████████▊                                                                           | 2775/10000 [02:50<06:19, 19.03it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 1007.81it/s][A


[88880] loss: 0.065 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1304.60it/s][A
 28%|████████████████████████████▉                                                                           | 2778/10000 [02:50<05:45, 20.88it/s]
                                                                                                                                                  [A
 28%|████████████████████████████▉                                                                           | 2778/10000 [02:50<05:45, 20.88it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[88900] loss: 0.055 


                                                                                                                                                  
 28%|████████████████████████████▉                                                                           | 2778/10000 [02:50<05:45, 20.88it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 959.11it/s][A


[88920] loss: 0.047 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2400.86it/s][A

                                                                                                                                                  [A
 28%|████████████████████████████▉                                                                           | 2778/10000 [02:50<05:45, 20.88it/s]
                                                                                                                                                  [A
 28%|████████████████████████████▉                                                                           | 2778/10000 [02:50<05:45, 20.88it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 916.71it/s][A


[88940] loss: 0.034 
[88960] loss: 0.037 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2335.36it/s][A

                                                                                                                                                  [A
 28%|████████████████████████████▉                                                                           | 2778/10000 [02:50<05:45, 20.88it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[88980] loss: 0.052 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 987.05it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2095.06it/s][A
 28%|████████████████████████████▉                                                                           | 2781/10000 [02:50<05:24, 22.22it/s]
                                                                                                                                                  [A
 28%|████████████████████████████▉                                                                           | 2781/10000 [02:50<05:24, 22.22it/s]
                                                                                                                                                  [A
 28%|████████████████████████████▉                                                                          

[89000] loss: 0.077 
[89020] loss: 0.085 



Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 841.90it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2113.00it/s][A

                                                                                                                                                  [A
 28%|████████████████████████████▉                                                                           | 2781/10000 [02:50<05:24, 22.22it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 976.33it/s][A


[89040] loss: 0.057 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 798.46it/s][A

                                                                                                                                                  [A
 28%|████████████████████████████▉                                                                           | 2781/10000 [02:50<05:24, 22.22it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[89060] loss: 0.046 


                                                                                                                                                  
 28%|████████████████████████████▉                                                                           | 2781/10000 [02:50<05:24, 22.22it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[89080] loss: 0.085 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 607.56it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1391.15it/s][A
 28%|████████████████████████████▉                                                                           | 2784/10000 [02:50<05:33, 21.65it/s]
                                                                                                                                                  [A
 28%|████████████████████████████▉                                                                           | 2784/10000 [02:50<05:33, 21.65it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[89100] loss: 0.061 


                                                                                                                                                  
 28%|████████████████████████████▉                                                                           | 2784/10000 [02:50<05:33, 21.65it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 630.77it/s][A


[89120] loss: 0.037 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 821.93it/s][A

                                                                                                                                                  [A
 28%|████████████████████████████▉                                                                           | 2784/10000 [02:50<05:33, 21.65it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 633.28it/s][A


[89140] loss: 0.037 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 992.26it/s][A

                                                                                                                                                  [A
 28%|████████████████████████████▉                                                                           | 2784/10000 [02:50<05:33, 21.65it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[89160] loss: 0.050 


                                                                                                                                                  
 28%|████████████████████████████▉                                                                           | 2784/10000 [02:50<05:33, 21.65it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[89180] loss: 0.052 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 539.98it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 597.91it/s][A
 28%|████████████████████████████▉                                                                           | 2787/10000 [02:50<06:09, 19.52it/s]
                                                                                                                                                  [A
 28%|████████████████████████████▉                                                                           | 2787/10000 [02:50<06:09, 19.52it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 569.29it/s][A


[89200] loss: 0.037 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 799.68it/s][A

                                                                                                                                                  [A
 28%|████████████████████████████▉                                                                           | 2787/10000 [02:50<06:09, 19.52it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[89220] loss: 0.067 


                                                                                                                                                  
 28%|████████████████████████████▉                                                                           | 2787/10000 [02:50<06:09, 19.52it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 518.25it/s][A


[89240] loss: 0.083 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 524.75it/s][A

                                                                                                                                                  [A
 28%|████████████████████████████▉                                                                           | 2787/10000 [02:50<06:09, 19.52it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[89260] loss: 0.066 


                                                                                                                                                  
 28%|████████████████████████████▉                                                                           | 2787/10000 [02:50<06:09, 19.52it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 558.90it/s][A


[89280] loss: 0.057 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 225.34it/s][A
 28%|█████████████████████████████                                                                           | 2790/10000 [02:50<06:47, 17.67it/s]
                                                                                                                                                  [A
 28%|█████████████████████████████                                                                           | 2790/10000 [02:50<06:47, 17.67it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 615.53it/s][A


[89300] loss: 0.081 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 660.10it/s][A

                                                                                                                                                  [A
 28%|█████████████████████████████                                                                           | 2790/10000 [02:50<06:47, 17.67it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[89320] loss: 0.073 


                                                                                                                                                  
 28%|█████████████████████████████                                                                           | 2790/10000 [02:50<06:47, 17.67it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 498.89it/s][A


[89340] loss: 0.074 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1258.42it/s][A
 28%|█████████████████████████████                                                                           | 2792/10000 [02:50<07:03, 17.02it/s]
                                                                                                                                                  [A
 28%|█████████████████████████████                                                                           | 2792/10000 [02:50<07:03, 17.02it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 657.87it/s][A


[89360] loss: 0.078 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 660.62it/s][A

                                                                                                                                                  [A
 28%|█████████████████████████████                                                                           | 2792/10000 [02:51<07:03, 17.02it/s]
                                                                                                                                                  [A

[89380] loss: 0.046 



 28%|█████████████████████████████                                                                           | 2792/10000 [02:51<07:03, 17.02it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 549.41it/s][A


[89400] loss: 0.114 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1059.17it/s][A
 28%|█████████████████████████████                                                                           | 2794/10000 [02:51<07:08, 16.84it/s]
                                                                                                                                                  [A
 28%|█████████████████████████████                                                                           | 2794/10000 [02:51<07:08, 16.84it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[89420] loss: 0.050 


                                                                                                                                                  
 28%|█████████████████████████████                                                                           | 2794/10000 [02:51<07:08, 16.84it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 580.67it/s][A


[89440] loss: 0.059 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 309.50it/s][A

                                                                                                                                                  [A
 28%|█████████████████████████████                                                                           | 2794/10000 [02:51<07:08, 16.84it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[89460] loss: 0.063 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 591.46it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 980.89it/s][A
 28%|█████████████████████████████                                                                           | 2796/10000 [02:51<07:13, 16.63it/s]
                                                                                                                                                  [A
 28%|█████████████████████████████                                                                           | 2796/10000 [02:51<07:13, 16.63it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[89480] loss: 0.071 


                                                                                                                                                  
 28%|█████████████████████████████                                                                           | 2796/10000 [02:51<07:13, 16.63it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 470.33it/s][A


[89500] loss: 0.060 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1009.22it/s][A

                                                                                                                                                  [A
 28%|█████████████████████████████                                                                           | 2796/10000 [02:51<07:13, 16.63it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[89520] loss: 0.042 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 574.61it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 626.30it/s][A
 28%|█████████████████████████████                                                                           | 2798/10000 [02:51<07:34, 15.84it/s]
                                                                                                                                                  [A
 28%|█████████████████████████████                                                                           | 2798/10000 [02:51<07:34, 15.84it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[89540] loss: 0.077 


                                                                                                                                                  
 28%|█████████████████████████████                                                                           | 2798/10000 [02:51<07:34, 15.84it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 514.12it/s][A


[89560] loss: 0.099 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 520.00it/s][A

                                                                                                                                                  [A
 28%|█████████████████████████████                                                                           | 2798/10000 [02:51<07:34, 15.84it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[89580] loss: 0.047 


                                                                                                                                                  
 28%|█████████████████████████████                                                                           | 2798/10000 [02:51<07:34, 15.84it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 537.23it/s][A


[89600] loss: 0.051 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 344.33it/s][A
 28%|█████████████████████████████                                                                           | 2800/10000 [02:51<07:50, 15.30it/s]
                                                                                                                                                  [A
 28%|█████████████████████████████                                                                           | 2800/10000 [02:51<07:50, 15.30it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 598.94it/s][A


[89620] loss: 0.055 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 534.24it/s][A

                                                                                                                                                  [A
 28%|█████████████████████████████                                                                           | 2800/10000 [02:51<07:50, 15.30it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[89640] loss: 0.054 


                                                                                                                                                  
 28%|█████████████████████████████                                                                           | 2800/10000 [02:51<07:50, 15.30it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 451.18it/s][A


[89660] loss: 0.069 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 840.37it/s][A
 28%|█████████████████████████████▏                                                                          | 2802/10000 [02:51<08:01, 14.96it/s]
                                                                                                                                                  [A
 28%|█████████████████████████████▏                                                                          | 2802/10000 [02:51<08:01, 14.96it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[89680] loss: 0.069 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 571.54it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 973.61it/s][A

                                                                                                                                                  [A
 28%|█████████████████████████████▏                                                                          | 2802/10000 [02:51<08:01, 14.96it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[89700] loss: 0.059 


                                                                                                                                                  
 28%|█████████████████████████████▏                                                                          | 2802/10000 [02:51<08:01, 14.96it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 633.99it/s][A


[89720] loss: 0.036 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1371.58it/s][A
 28%|█████████████████████████████▏                                                                          | 2804/10000 [02:51<07:49, 15.31it/s]
                                                                                                                                                  [A
 28%|█████████████████████████████▏                                                                          | 2804/10000 [02:51<07:49, 15.31it/s]

[89740] loss: 0.049 



                                                                                                                                                  [A
 28%|█████████████████████████████▏                                                                          | 2804/10000 [02:51<07:49, 15.31it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 722.04it/s][A


[89760] loss: 0.051 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 337.22it/s][A

                                                                                                                                                  [A
 28%|█████████████████████████████▏                                                                          | 2804/10000 [02:51<07:49, 15.31it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 679.61it/s][A


[89780] loss: 0.074 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 763.85it/s][A
 28%|█████████████████████████████▏                                                                          | 2806/10000 [02:51<07:27, 16.07it/s]
                                                                                                                                                  [A
 28%|█████████████████████████████▏                                                                          | 2806/10000 [02:51<07:27, 16.07it/s]
                                                                                                                                                  [A

[89800] loss: 0.040 



 28%|█████████████████████████████▏                                                                          | 2806/10000 [02:51<07:27, 16.07it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 627.40it/s][A


[89820] loss: 0.083 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 701.98it/s][A

                                                                                                                                                  [A
 28%|█████████████████████████████▏                                                                          | 2806/10000 [02:51<07:27, 16.07it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 756.55it/s][A


[89840] loss: 0.074 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 728.56it/s][A
 28%|█████████████████████████████▏                                                                          | 2808/10000 [02:51<07:16, 16.47it/s]
                                                                                                                                                  [A
 28%|█████████████████████████████▏                                                                          | 2808/10000 [02:51<07:16, 16.47it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[89860] loss: 0.061 


                                                                                                                                                  
 28%|█████████████████████████████▏                                                                          | 2808/10000 [02:52<07:16, 16.47it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 570.39it/s][A

[89880] loss: 0.024 




Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1632.66it/s][A

                                                                                                                                                  [A
 28%|█████████████████████████████▏                                                                          | 2808/10000 [02:52<07:16, 16.47it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[89900] loss: 0.048 


                                                                                                                                                  
 28%|█████████████████████████████▏                                                                          | 2808/10000 [02:52<07:16, 16.47it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 629.02it/s][A


[89920] loss: 0.062 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1245.71it/s][A
 28%|█████████████████████████████▏                                                                          | 2810/10000 [02:52<07:28, 16.03it/s]
                                                                                                                                                  [A
 28%|█████████████████████████████▏                                                                          | 2810/10000 [02:52<07:28, 16.03it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 858.00it/s][A


[89940] loss: 0.045 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 621.19it/s][A

                                                                                                                                                  [A
 28%|█████████████████████████████▏                                                                          | 2810/10000 [02:52<07:28, 16.03it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[89960] loss: 0.030 


                                                                                                                                                  
 28%|█████████████████████████████▏                                                                          | 2810/10000 [02:52<07:28, 16.03it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 609.49it/s][A


[89980] loss: 0.060 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 696.03it/s][A
 28%|█████████████████████████████▏                                                                          | 2812/10000 [02:52<07:13, 16.59it/s]
                                                                                                                                                  [A
 28%|█████████████████████████████▏                                                                          | 2812/10000 [02:52<07:13, 16.59it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 804.58it/s][A


[90000] loss: 0.054 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 627.98it/s][A

                                                                                                                                                  [A
 28%|█████████████████████████████▏                                                                          | 2812/10000 [02:52<07:13, 16.59it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[90020] loss: 0.056 


                                                                                                                                                  
 28%|█████████████████████████████▏                                                                          | 2812/10000 [02:52<07:13, 16.59it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 573.70it/s][A


[90040] loss: 0.064 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 833.20it/s][A
 28%|█████████████████████████████▎                                                                          | 2814/10000 [02:52<07:09, 16.73it/s]
                                                                                                                                                  [A
 28%|█████████████████████████████▎                                                                          | 2814/10000 [02:52<07:09, 16.73it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[90060] loss: 0.054 


                                                                                                                                                  
 28%|█████████████████████████████▎                                                                          | 2814/10000 [02:52<07:09, 16.73it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 608.63it/s][A


[90080] loss: 0.043 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 916.59it/s][A

                                                                                                                                                  [A
 28%|█████████████████████████████▎                                                                          | 2814/10000 [02:52<07:09, 16.73it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 1001.92it/s][A


[90100] loss: 0.052 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 897.75it/s][A
 28%|█████████████████████████████▎                                                                          | 2816/10000 [02:52<06:53, 17.39it/s]
                                                                                                                                                  [A
 28%|█████████████████████████████▎                                                                          | 2816/10000 [02:52<06:53, 17.39it/s]
                                                                                                                                                  [A
 28%|█████████████████████████████▎                                                                          | 2816/10000 [02:52<06:53, 17.39it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[90120] loss: 0.038 
[90140] loss: 0.055 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 605.76it/s][A

                                                                                                                                                  [A
 28%|█████████████████████████████▎                                                                          | 2816/10000 [02:52<06:53, 17.39it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[90160] loss: 0.068 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 987.43it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1406.54it/s][A

                                                                                                                                                  [A
 28%|█████████████████████████████▎                                                                          | 2816/10000 [02:52<06:53, 17.39it/s]
                                                                                                                                                  [A

[90180] loss: 0.037 



 28%|█████████████████████████████▎                                                                          | 2816/10000 [02:52<06:53, 17.39it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 800.66it/s][A


[90200] loss: 0.032 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 923.65it/s][A
 28%|█████████████████████████████▎                                                                          | 2819/10000 [02:52<06:19, 18.94it/s]
                                                                                                                                                  [A
 28%|█████████████████████████████▎                                                                          | 2819/10000 [02:52<06:19, 18.94it/s]
                                                                                                                                                  [A
 28%|█████████████████████████████▎                                                                          | 2819/10000 [02:52<06:19, 18.94it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[90220] loss: 0.077 
[90240] loss: 0.072 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 491.54it/s][A

                                                                                                                                                  [A
 28%|█████████████████████████████▎                                                                          | 2819/10000 [02:52<06:19, 18.94it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[90260] loss: 0.033 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 974.39it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2051.00it/s][A

                                                                                                                                                  [A
 28%|█████████████████████████████▎                                                                          | 2819/10000 [02:52<06:19, 18.94it/s]
                                                                                                                                                  [A
 28%|█████████████████████████████▎                                                                          | 2819/10000 [02:52<06:19, 18.94it/s]
Training Epoch: 100%|██████████████████████████████████████████████████████████████████████████████████████

[90280] loss: 0.034 
[90300] loss: 0.028 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2100.30it/s][A
 28%|█████████████████████████████▎                                                                          | 2822/10000 [02:52<05:52, 20.38it/s]
                                                                                                                                                  [A
 28%|█████████████████████████████▎                                                                          | 2822/10000 [02:52<05:52, 20.38it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[90320] loss: 0.060 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 895.30it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1833.17it/s][A

                                                                                                                                                  [A
 28%|█████████████████████████████▎                                                                          | 2822/10000 [02:52<05:52, 20.38it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[90340] loss: 0.041 


                                                                                                                                                  
 28%|█████████████████████████████▎                                                                          | 2822/10000 [02:52<05:52, 20.38it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 807.64it/s][A


[90360] loss: 0.037 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1353.00it/s][A

                                                                                                                                                  [A
 28%|█████████████████████████████▎                                                                          | 2822/10000 [02:52<05:52, 20.38it/s]
                                                                                                                                                  [A
 28%|█████████████████████████████▎                                                                          | 2822/10000 [02:52<05:52, 20.38it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 841.78it/s][A


[90380] loss: 0.046 
[90400] loss: 0.036 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1927.53it/s][A
 28%|█████████████████████████████▍                                                                          | 2825/10000 [02:52<05:42, 20.98it/s]
                                                                                                                                                  [A
 28%|█████████████████████████████▍                                                                          | 2825/10000 [02:52<05:42, 20.98it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[90420] loss: 0.089 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 973.89it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1696.04it/s][A

                                                                                                                                                  [A
 28%|█████████████████████████████▍                                                                          | 2825/10000 [02:52<05:42, 20.98it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[90440] loss: 0.082 


                                                                                                                                                  
 28%|█████████████████████████████▍                                                                          | 2825/10000 [02:52<05:42, 20.98it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 533.86it/s][A


[90460] loss: 0.091 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 621.84it/s][A

                                                                                                                                                  [A
 28%|█████████████████████████████▍                                                                          | 2825/10000 [02:52<05:42, 20.98it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[90480] loss: 0.040 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 575.84it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 935.60it/s][A
 28%|█████████████████████████████▍                                                                          | 2828/10000 [02:53<06:05, 19.65it/s]
                                                                                                                                                  [A
 28%|█████████████████████████████▍                                                                          | 2828/10000 [02:53<06:05, 19.65it/s]
                                                                                                                                                  [A
 28%|█████████████████████████████▍                                                                         

[90500] loss: 0.088 
[90520] loss: 0.078 



Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 499.14it/s][A

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 682.67it/s][A

                                                                                                                                                  [A
 28%|█████████████████████████████▍                                                                          | 2828/10000 [02:53<06:05, 19.65it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[90540] loss: 0.076 


                                                                                                                                                  
 28%|█████████████████████████████▍                                                                          | 2828/10000 [02:53<06:05, 19.65it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 498.88it/s][A


[90560] loss: 0.080 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 469.95it/s][A
 28%|█████████████████████████████▍                                                                          | 2830/10000 [02:53<06:43, 17.79it/s]
                                                                                                                                                  [A
 28%|█████████████████████████████▍                                                                          | 2830/10000 [02:53<06:43, 17.79it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 551.90it/s][A


[90580] loss: 0.072 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 437.23it/s][A

                                                                                                                                                  [A
 28%|█████████████████████████████▍                                                                          | 2830/10000 [02:53<06:43, 17.79it/s]
                                                                                                                                                  [A
 28%|█████████████████████████████▍                                                                          | 2830/10000 [02:53<06:43, 17.79it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 488.12it/s][A


[90600] loss: 0.042 
[90620] loss: 0.034 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 770.45it/s][A
 28%|█████████████████████████████▍                                                                          | 2832/10000 [02:53<07:12, 16.57it/s]
                                                                                                                                                  [A
 28%|█████████████████████████████▍                                                                          | 2832/10000 [02:53<07:12, 16.57it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[90640] loss: 0.059 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 632.29it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1159.93it/s][A

                                                                                                                                                  [A
 28%|█████████████████████████████▍                                                                          | 2832/10000 [02:53<07:12, 16.57it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[90660] loss: 0.043 


                                                                                                                                                  
 28%|█████████████████████████████▍                                                                          | 2832/10000 [02:53<07:12, 16.57it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 472.66it/s][A


[90680] loss: 0.051 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 489.82it/s][A
 28%|█████████████████████████████▍                                                                          | 2834/10000 [02:53<07:29, 15.96it/s]
                                                                                                                                                  [A
 28%|█████████████████████████████▍                                                                          | 2834/10000 [02:53<07:29, 15.96it/s]
                                                                                                                                                  [A
 28%|█████████████████████████████▍                                                                          | 2834/10000 [02:53<07:29, 15.96it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[90700] loss: 0.078 
[90720] loss: 0.030 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 822.41it/s][A

                                                                                                                                                  [A
 28%|█████████████████████████████▍                                                                          | 2834/10000 [02:53<07:29, 15.96it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 593.09it/s][A


[90740] loss: 0.043 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 946.58it/s][A
 28%|█████████████████████████████▍                                                                          | 2836/10000 [02:53<07:41, 15.52it/s]
                                                                                                                                                  [A
 28%|█████████████████████████████▍                                                                          | 2836/10000 [02:53<07:41, 15.52it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[90760] loss: 0.047 


                                                                                                                                                  
 28%|█████████████████████████████▍                                                                          | 2836/10000 [02:53<07:41, 15.52it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 469.43it/s][A


[90780] loss: 0.066 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 917.99it/s][A

                                                                                                                                                  [A
 28%|█████████████████████████████▍                                                                          | 2836/10000 [02:53<07:41, 15.52it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 573.23it/s][A


[90800] loss: 0.046 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 546.13it/s][A
 28%|█████████████████████████████▌                                                                          | 2838/10000 [02:53<07:55, 15.06it/s]
                                                                                                                                                  [A
 28%|█████████████████████████████▌                                                                          | 2838/10000 [02:53<07:55, 15.06it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[90820] loss: 0.064 


                                                                                                                                                  
 28%|█████████████████████████████▌                                                                          | 2838/10000 [02:53<07:55, 15.06it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 508.33it/s][A


[90840] loss: 0.071 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 485.96it/s][A

                                                                                                                                                  [A
 28%|█████████████████████████████▌                                                                          | 2838/10000 [02:53<07:55, 15.06it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[90860] loss: 0.059 


                                                                                                                                                  
 28%|█████████████████████████████▌                                                                          | 2838/10000 [02:53<07:55, 15.06it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 492.28it/s][A


[90880] loss: 0.162 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 678.58it/s][A
 28%|█████████████████████████████▌                                                                          | 2840/10000 [02:53<08:11, 14.55it/s]
                                                                                                                                                  [A
 28%|█████████████████████████████▌                                                                          | 2840/10000 [02:53<08:11, 14.55it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 540.18it/s][A


[90900] loss: 0.072 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 896.22it/s][A

                                                                                                                                                  [A
 28%|█████████████████████████████▌                                                                          | 2840/10000 [02:53<08:11, 14.55it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[90920] loss: 0.057 


                                                                                                                                                  
 28%|█████████████████████████████▌                                                                          | 2840/10000 [02:54<08:11, 14.55it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 494.67it/s][A


[90940] loss: 0.068 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 806.91it/s][A
 28%|█████████████████████████████▌                                                                          | 2842/10000 [02:54<08:17, 14.38it/s]
                                                                                                                                                  [A
 28%|█████████████████████████████▌                                                                          | 2842/10000 [02:54<08:17, 14.38it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[90960] loss: 0.072 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 607.17it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 999.12it/s][A

                                                                                                                                                  [A
 28%|█████████████████████████████▌                                                                          | 2842/10000 [02:54<08:17, 14.38it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[90980] loss: 0.074 


                                                                                                                                                  
 28%|█████████████████████████████▌                                                                          | 2842/10000 [02:54<08:17, 14.38it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 626.39it/s][A


[91000] loss: 0.077 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 734.30it/s][A
 28%|█████████████████████████████▌                                                                          | 2844/10000 [02:54<07:57, 14.98it/s]
                                                                                                                                                  [A
 28%|█████████████████████████████▌                                                                          | 2844/10000 [02:54<07:57, 14.98it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[91020] loss: 0.066 


                                                                                                                                                  
 28%|█████████████████████████████▌                                                                          | 2844/10000 [02:54<07:57, 14.98it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 645.72it/s][A


[91040] loss: 0.039 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1431.50it/s][A

                                                                                                                                                  [A
 28%|█████████████████████████████▌                                                                          | 2844/10000 [02:54<07:57, 14.98it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 775.38it/s][A


[91060] loss: 0.064 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1954.48it/s][A
 28%|█████████████████████████████▌                                                                          | 2846/10000 [02:54<07:29, 15.91it/s]
                                                                                                                                                  [A
 28%|█████████████████████████████▌                                                                          | 2846/10000 [02:54<07:29, 15.91it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[91080] loss: 0.050 


                                                                                                                                                  
 28%|█████████████████████████████▌                                                                          | 2846/10000 [02:54<07:29, 15.91it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 593.02it/s][A


[91100] loss: 0.057 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1034.86it/s][A

                                                                                                                                                  [A
 28%|█████████████████████████████▌                                                                          | 2846/10000 [02:54<07:29, 15.91it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 682.90it/s][A


[91120] loss: 0.093 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 707.54it/s][A
 28%|█████████████████████████████▌                                                                          | 2848/10000 [02:54<07:23, 16.14it/s]
                                                                                                                                                  [A
 28%|█████████████████████████████▌                                                                          | 2848/10000 [02:54<07:23, 16.14it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[91140] loss: 0.091 


                                                                                                                                                  
 28%|█████████████████████████████▌                                                                          | 2848/10000 [02:54<07:23, 16.14it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 813.75it/s][A


[91160] loss: 0.060 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1275.25it/s][A

                                                                                                                                                  [A
 28%|█████████████████████████████▌                                                                          | 2848/10000 [02:54<07:23, 16.14it/s]
                                                                                                                                                  [A
 28%|█████████████████████████████▌                                                                          | 2848/10000 [02:54<07:23, 16.14it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 826.47it/s][A


[91180] loss: 0.063 
[91200] loss: 0.036 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 483.44it/s][A

                                                                                                                                                  [A
 28%|█████████████████████████████▌                                                                          | 2848/10000 [02:54<07:23, 16.14it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[91220] loss: 0.071 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 918.61it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 885.25it/s][A
 29%|█████████████████████████████▋                                                                          | 2851/10000 [02:54<06:38, 17.94it/s]
                                                                                                                                                  [A
 29%|█████████████████████████████▋                                                                          | 2851/10000 [02:54<06:38, 17.94it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[91240] loss: 0.036 


                                                                                                                                                  
 29%|█████████████████████████████▋                                                                          | 2851/10000 [02:54<06:38, 17.94it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 705.40it/s][A


[91260] loss: 0.052 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1403.72it/s][A

                                                                                                                                                  [A
 29%|█████████████████████████████▋                                                                          | 2851/10000 [02:54<06:38, 17.94it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[91280] loss: 0.032 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 664.96it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1032.57it/s][A
 29%|█████████████████████████████▋                                                                          | 2853/10000 [02:54<06:38, 17.92it/s]
                                                                                                                                                  [A
 29%|█████████████████████████████▋                                                                          | 2853/10000 [02:54<06:38, 17.92it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[91300] loss: 0.053 


                                                                                                                                                  
 29%|█████████████████████████████▋                                                                          | 2853/10000 [02:54<06:38, 17.92it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 710.60it/s][A


[91320] loss: 0.080 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1399.50it/s][A

                                                                                                                                                  [A
 29%|█████████████████████████████▋                                                                          | 2853/10000 [02:54<06:38, 17.92it/s]
                                                                                                                                                  [A

[91340] loss: 0.038 



 29%|█████████████████████████████▋                                                                          | 2853/10000 [02:54<06:38, 17.92it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 666.07it/s][A


[91360] loss: 0.059 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1296.94it/s][A
 29%|█████████████████████████████▋                                                                          | 2855/10000 [02:54<06:40, 17.82it/s]
                                                                                                                                                  [A
 29%|█████████████████████████████▋                                                                          | 2855/10000 [02:54<06:40, 17.82it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 969.49it/s][A


[91380] loss: 0.077 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2114.06it/s][A

                                                                                                                                                  [A
 29%|█████████████████████████████▋                                                                          | 2855/10000 [02:54<06:40, 17.82it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[91400] loss: 0.028 


                                                                                                                                                  
 29%|█████████████████████████████▋                                                                          | 2855/10000 [02:54<06:40, 17.82it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 787.24it/s][A


[91420] loss: 0.062 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1314.01it/s][A

                                                                                                                                                  [A
 29%|█████████████████████████████▋                                                                          | 2855/10000 [02:54<06:40, 17.82it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[91440] loss: 0.079 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 807.02it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2091.92it/s][A
 29%|█████████████████████████████▋                                                                          | 2858/10000 [02:54<06:10, 19.26it/s]
                                                                                                                                                  [A
 29%|█████████████████████████████▋                                                                          | 2858/10000 [02:54<06:10, 19.26it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[91460] loss: 0.034 


                                                                                                                                                  
 29%|█████████████████████████████▋                                                                          | 2858/10000 [02:54<06:10, 19.26it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 691.39it/s][A


[91480] loss: 0.082 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1288.57it/s][A

                                                                                                                                                  [A
 29%|█████████████████████████████▋                                                                          | 2858/10000 [02:54<06:10, 19.26it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[91500] loss: 0.054 


                                                                                                                                                  
 29%|█████████████████████████████▋                                                                          | 2858/10000 [02:54<06:10, 19.26it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 725.66it/s][A


[91520] loss: 0.050 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2032.12it/s][A
 29%|█████████████████████████████▋                                                                          | 2860/10000 [02:54<06:13, 19.11it/s]
                                                                                                                                                  [A
 29%|█████████████████████████████▋                                                                          | 2860/10000 [02:54<06:13, 19.11it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[91540] loss: 0.089 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 800.42it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2028.19it/s][A

                                                                                                                                                  [A
 29%|█████████████████████████████▋                                                                          | 2860/10000 [02:55<06:13, 19.11it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[91560] loss: 0.031 


                                                                                                                                                  
 29%|█████████████████████████████▋                                                                          | 2860/10000 [02:55<06:13, 19.11it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 690.22it/s][A


[91580] loss: 0.055 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 597.65it/s][A
 29%|█████████████████████████████▊                                                                          | 2862/10000 [02:55<06:12, 19.17it/s]
                                                                                                                                                  [A
 29%|█████████████████████████████▊                                                                          | 2862/10000 [02:55<06:12, 19.17it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 590.64it/s][A


[91600] loss: 0.053 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 407.53it/s][A

                                                                                                                                                  [A
 29%|█████████████████████████████▊                                                                          | 2862/10000 [02:55<06:12, 19.17it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[91620] loss: 0.029 


                                                                                                                                                  
 29%|█████████████████████████████▊                                                                          | 2862/10000 [02:55<06:12, 19.17it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[91640] loss: 0.056 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 509.53it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 537.73it/s][A
 29%|█████████████████████████████▊                                                                          | 2864/10000 [02:55<06:43, 17.68it/s]
                                                                                                                                                  [A
 29%|█████████████████████████████▊                                                                          | 2864/10000 [02:55<06:43, 17.68it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[91660] loss: 0.034 


                                                                                                                                                  
 29%|█████████████████████████████▊                                                                          | 2864/10000 [02:55<06:43, 17.68it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 537.50it/s][A


[91680] loss: 0.050 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 768.47it/s][A

                                                                                                                                                  [A
 29%|█████████████████████████████▊                                                                          | 2864/10000 [02:55<06:43, 17.68it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 514.49it/s][A


[91700] loss: 0.078 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 898.33it/s][A
 29%|█████████████████████████████▊                                                                          | 2866/10000 [02:55<07:14, 16.42it/s]
                                                                                                                                                  [A
 29%|█████████████████████████████▊                                                                          | 2866/10000 [02:55<07:14, 16.42it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[91720] loss: 0.064 


                                                                                                                                                  
 29%|█████████████████████████████▊                                                                          | 2866/10000 [02:55<07:14, 16.42it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 468.76it/s][A


[91740] loss: 0.058 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 798.00it/s][A

                                                                                                                                                  [A
 29%|█████████████████████████████▊                                                                          | 2866/10000 [02:55<07:14, 16.42it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[91760] loss: 0.047 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 579.66it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 794.68it/s][A
 29%|█████████████████████████████▊                                                                          | 2868/10000 [02:55<07:37, 15.59it/s]
                                                                                                                                                  [A
 29%|█████████████████████████████▊                                                                          | 2868/10000 [02:55<07:37, 15.59it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[91780] loss: 0.064 


                                                                                                                                                  
 29%|█████████████████████████████▊                                                                          | 2868/10000 [02:55<07:37, 15.59it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 479.26it/s][A


[91800] loss: 0.088 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 291.27it/s][A

                                                                                                                                                  [A
 29%|█████████████████████████████▊                                                                          | 2868/10000 [02:55<07:37, 15.59it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[91820] loss: 0.041 


                                                                                                                                                  
 29%|█████████████████████████████▊                                                                          | 2868/10000 [02:55<07:37, 15.59it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 530.87it/s][A


[91840] loss: 0.082 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 340.78it/s][A
 29%|█████████████████████████████▊                                                                          | 2870/10000 [02:55<08:02, 14.79it/s]
                                                                                                                                                  [A
 29%|█████████████████████████████▊                                                                          | 2870/10000 [02:55<08:02, 14.79it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 589.66it/s][A


[91860] loss: 0.054 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 787.22it/s][A

                                                                                                                                                  [A
 29%|█████████████████████████████▊                                                                          | 2870/10000 [02:55<08:02, 14.79it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[91880] loss: 0.090 


                                                                                                                                                  
 29%|█████████████████████████████▊                                                                          | 2870/10000 [02:55<08:02, 14.79it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 489.99it/s][A


[91900] loss: 0.081 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 718.33it/s][A
 29%|█████████████████████████████▊                                                                          | 2872/10000 [02:55<08:10, 14.53it/s]
                                                                                                                                                  [A
 29%|█████████████████████████████▊                                                                          | 2872/10000 [02:55<08:10, 14.53it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[91920] loss: 0.111 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 545.74it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1000.79it/s][A

                                                                                                                                                  [A
 29%|█████████████████████████████▊                                                                          | 2872/10000 [02:55<08:10, 14.53it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[91940] loss: 0.063 


                                                                                                                                                  
 29%|█████████████████████████████▊                                                                          | 2872/10000 [02:55<08:10, 14.53it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 505.78it/s][A


[91960] loss: 0.045 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 978.15it/s][A
 29%|█████████████████████████████▉                                                                          | 2874/10000 [02:55<08:17, 14.34it/s]
                                                                                                                                                  [A
 29%|█████████████████████████████▉                                                                          | 2874/10000 [02:55<08:17, 14.34it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[91980] loss: 0.042 


                                                                                                                                                  
 29%|█████████████████████████████▉                                                                          | 2874/10000 [02:55<08:17, 14.34it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 542.12it/s][A


[92000] loss: 0.032 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 272.45it/s][A

                                                                                                                                                  [A
 29%|█████████████████████████████▉                                                                          | 2874/10000 [02:56<08:17, 14.34it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 569.73it/s][A


[92020] loss: 0.019 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 681.11it/s][A
 29%|█████████████████████████████▉                                                                          | 2876/10000 [02:56<08:09, 14.55it/s]
                                                                                                                                                  [A
 29%|█████████████████████████████▉                                                                          | 2876/10000 [02:56<08:09, 14.55it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[92040] loss: 0.048 


                                                                                                                                                  
 29%|█████████████████████████████▉                                                                          | 2876/10000 [02:56<08:09, 14.55it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 526.61it/s][A


[92060] loss: 0.071 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1038.71it/s][A

                                                                                                                                                  [A
 29%|█████████████████████████████▉                                                                          | 2876/10000 [02:56<08:09, 14.55it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 659.09it/s][A


[92080] loss: 0.073 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 712.59it/s][A
 29%|█████████████████████████████▉                                                                          | 2878/10000 [02:56<07:57, 14.90it/s]
                                                                                                                                                  [A
 29%|█████████████████████████████▉                                                                          | 2878/10000 [02:56<07:57, 14.90it/s]
                                                                                                                                                  [A
 29%|█████████████████████████████▉                                                                          | 2878/10000 [02:56<07:57, 14.90it/s]
Training Epoch:   0%|                                                                                       

[92100] loss: 0.042 
[92120] loss: 0.068 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 678.17it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2082.57it/s][A

                                                                                                                                                  [A
 29%|█████████████████████████████▉                                                                          | 2878/10000 [02:56<07:57, 14.90it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[92140] loss: 0.047 


                                                                                                                                                  
 29%|█████████████████████████████▉                                                                          | 2878/10000 [02:56<07:57, 14.90it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 721.95it/s][A


[92160] loss: 0.038 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1315.65it/s][A
 29%|█████████████████████████████▉                                                                          | 2880/10000 [02:56<07:27, 15.93it/s]
                                                                                                                                                  [A
 29%|█████████████████████████████▉                                                                          | 2880/10000 [02:56<07:27, 15.93it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 808.90it/s][A


[92180] loss: 0.070 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 891.84it/s][A

                                                                                                                                                  [A
 29%|█████████████████████████████▉                                                                          | 2880/10000 [02:56<07:27, 15.93it/s]
                                                                                                                                                  [A
 29%|█████████████████████████████▉                                                                          | 2880/10000 [02:56<07:27, 15.93it/s]


[92200] loss: 0.068 
[92220] loss: 0.049 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 524.71it/s][A

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 794.23it/s][A
 29%|█████████████████████████████▉                                                                          | 2882/10000 [02:56<07:24, 16.03it/s]
                                                                                                                                                  [A
 29%|█████████████████████████████▉                                                                          | 2882/10000 [02:56<07:24, 16.03it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[92240] loss: 0.065 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 669.04it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 690.08it/s][A

                                                                                                                                                  [A
 29%|█████████████████████████████▉                                                                          | 2882/10000 [02:56<07:24, 16.03it/s]
                                                                                                                                                  [A
 29%|█████████████████████████████▉                                                                          | 2882/10000 [02:56<07:24, 16.03it/s]
Training Epoch:   0%|                                                                                      

[92260] loss: 0.079 
[92280] loss: 0.091 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 613.30it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1033.59it/s][A
 29%|█████████████████████████████▉                                                                          | 2884/10000 [02:56<07:19, 16.19it/s]
                                                                                                                                                  [A
 29%|█████████████████████████████▉                                                                          | 2884/10000 [02:56<07:19, 16.19it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[92300] loss: 0.060 


                                                                                                                                                  
 29%|█████████████████████████████▉                                                                          | 2884/10000 [02:56<07:19, 16.19it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 603.97it/s][A


[92320] loss: 0.012 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 736.10it/s][A

                                                                                                                                                  [A
 29%|█████████████████████████████▉                                                                          | 2884/10000 [02:56<07:19, 16.19it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[92340] loss: 0.071 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 786.14it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1309.49it/s][A
 29%|██████████████████████████████                                                                          | 2886/10000 [02:56<07:12, 16.44it/s]
                                                                                                                                                  [A
 29%|██████████████████████████████                                                                          | 2886/10000 [02:56<07:12, 16.44it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[92360] loss: 0.059 


                                                                                                                                                  
 29%|██████████████████████████████                                                                          | 2886/10000 [02:56<07:12, 16.44it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 567.38it/s][A


[92380] loss: 0.043 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1376.99it/s][A

                                                                                                                                                  [A
 29%|██████████████████████████████                                                                          | 2886/10000 [02:56<07:12, 16.44it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[92400] loss: 0.050 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 742.17it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1495.83it/s][A
 29%|██████████████████████████████                                                                          | 2888/10000 [02:56<07:07, 16.65it/s]
                                                                                                                                                  [A
 29%|██████████████████████████████                                                                          | 2888/10000 [02:56<07:07, 16.65it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[92420] loss: 0.031 


                                                                                                                                                  
 29%|██████████████████████████████                                                                          | 2888/10000 [02:56<07:07, 16.65it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 653.23it/s][A


[92440] loss: 0.086 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1379.71it/s][A

                                                                                                                                                  [A
 29%|██████████████████████████████                                                                          | 2888/10000 [02:56<07:07, 16.65it/s]
                                                                                                                                                  [A
 29%|██████████████████████████████                                                                          | 2888/10000 [02:56<07:07, 16.65it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 744.62it/s][A


[92460] loss: 0.041 
[92480] loss: 0.033 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 566.11it/s][A
 29%|██████████████████████████████                                                                          | 2890/10000 [02:56<06:52, 17.24it/s]
                                                                                                                                                  [A
 29%|██████████████████████████████                                                                          | 2890/10000 [02:56<06:52, 17.24it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[92500] loss: 0.060 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 782.54it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1448.81it/s][A

                                                                                                                                                  [A
 29%|██████████████████████████████                                                                          | 2890/10000 [02:56<06:52, 17.24it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[92520] loss: 0.058 


                                                                                                                                                  
 29%|██████████████████████████████                                                                          | 2890/10000 [02:56<06:52, 17.24it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 745.85it/s][A


[92540] loss: 0.065 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1339.61it/s][A
 29%|██████████████████████████████                                                                          | 2892/10000 [02:56<06:38, 17.82it/s]
                                                                                                                                                  [A
 29%|██████████████████████████████                                                                          | 2892/10000 [02:57<06:38, 17.82it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[92560] loss: 0.092 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 627.10it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1366.67it/s][A

                                                                                                                                                  [A
 29%|██████████████████████████████                                                                          | 2892/10000 [02:57<06:38, 17.82it/s]
                                                                                                                                                  [A
 29%|██████████████████████████████                                                                          | 2892/10000 [02:57<06:38, 17.82it/s]
Training Epoch:   0%|                                                                                      

[92580] loss: 0.055 
[92600] loss: 0.053 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 597.93it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1501.18it/s][A
 29%|██████████████████████████████                                                                          | 2894/10000 [02:57<07:01, 16.88it/s]
                                                                                                                                                  [A
 29%|██████████████████████████████                                                                          | 2894/10000 [02:57<07:01, 16.88it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[92620] loss: 0.039 


                                                                                                                                                  
 29%|██████████████████████████████                                                                          | 2894/10000 [02:57<07:01, 16.88it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 563.42it/s][A


[92640] loss: 0.040 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 167.77it/s][A

                                                                                                                                                  [A
 29%|██████████████████████████████                                                                          | 2894/10000 [02:57<07:01, 16.88it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 971.92it/s][A


[92660] loss: 0.051 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1910.84it/s][A
 29%|██████████████████████████████                                                                          | 2896/10000 [02:57<07:01, 16.85it/s]
                                                                                                                                                  [A
 29%|██████████████████████████████                                                                          | 2896/10000 [02:57<07:01, 16.85it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[92680] loss: 0.073 


                                                                                                                                                  
 29%|██████████████████████████████                                                                          | 2896/10000 [02:57<07:01, 16.85it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 712.56it/s][A


[92700] loss: 0.062 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 607.43it/s][A

                                                                                                                                                  [A
 29%|██████████████████████████████                                                                          | 2896/10000 [02:57<07:01, 16.85it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 623.33it/s][A

[92720] loss: 0.049 




Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 941.69it/s][A
 29%|██████████████████████████████▏                                                                         | 2898/10000 [02:57<06:53, 17.16it/s]
                                                                                                                                                  [A
 29%|██████████████████████████████▏                                                                         | 2898/10000 [02:57<06:53, 17.16it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[92740] loss: 0.035 


                                                                                                                                                  
 29%|██████████████████████████████▏                                                                         | 2898/10000 [02:57<06:53, 17.16it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 507.63it/s][A


[92760] loss: 0.046 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 785.30it/s][A

                                                                                                                                                  [A
 29%|██████████████████████████████▏                                                                         | 2898/10000 [02:57<06:53, 17.16it/s]


[92780] loss: 0.037 


                                                                                                                                                  [A
 29%|██████████████████████████████▏                                                                         | 2898/10000 [02:57<06:53, 17.16it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 523.28it/s][A


[92800] loss: 0.060 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 574.17it/s][A
 29%|██████████████████████████████▏                                                                         | 2900/10000 [02:57<07:25, 15.94it/s]
                                                                                                                                                  [A
 29%|██████████████████████████████▏                                                                         | 2900/10000 [02:57<07:25, 15.94it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 582.82it/s][A


[92820] loss: 0.058 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 790.33it/s][A

                                                                                                                                                  [A
 29%|██████████████████████████████▏                                                                         | 2900/10000 [02:57<07:25, 15.94it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[92840] loss: 0.057 


                                                                                                                                                  
 29%|██████████████████████████████▏                                                                         | 2900/10000 [02:57<07:25, 15.94it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 515.04it/s][A


[92860] loss: 0.043 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 793.02it/s][A
 29%|██████████████████████████████▏                                                                         | 2902/10000 [02:57<07:34, 15.60it/s]
                                                                                                                                                  [A
 29%|██████████████████████████████▏                                                                         | 2902/10000 [02:57<07:34, 15.60it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[92880] loss: 0.075 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 581.14it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 913.59it/s][A

                                                                                                                                                  [A
 29%|██████████████████████████████▏                                                                         | 2902/10000 [02:57<07:34, 15.60it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[92900] loss: 0.060 


                                                                                                                                                  
 29%|██████████████████████████████▏                                                                         | 2902/10000 [02:57<07:34, 15.60it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 484.29it/s][A


[92920] loss: 0.028 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 641.04it/s][A
 29%|██████████████████████████████▏                                                                         | 2904/10000 [02:57<07:50, 15.07it/s]
                                                                                                                                                  [A
 29%|██████████████████████████████▏                                                                         | 2904/10000 [02:57<07:50, 15.07it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[92940] loss: 0.076 


                                                                                                                                                  
 29%|██████████████████████████████▏                                                                         | 2904/10000 [02:57<07:50, 15.07it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 508.60it/s][A


[92960] loss: 0.038 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 341.72it/s][A

                                                                                                                                                  [A
 29%|██████████████████████████████▏                                                                         | 2904/10000 [02:57<07:50, 15.07it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 555.10it/s][A


[92980] loss: 0.079 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 439.38it/s][A
 29%|██████████████████████████████▏                                                                         | 2906/10000 [02:57<07:58, 14.83it/s]
                                                                                                                                                  [A
 29%|██████████████████████████████▏                                                                         | 2906/10000 [02:57<07:58, 14.83it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[93000] loss: 0.038 


                                                                                                                                                  
 29%|██████████████████████████████▏                                                                         | 2906/10000 [02:57<07:58, 14.83it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 499.33it/s][A


[93020] loss: 0.081 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1231.81it/s][A

                                                                                                                                                  [A
 29%|██████████████████████████████▏                                                                         | 2906/10000 [02:58<07:58, 14.83it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[93040] loss: 0.082 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 583.95it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 813.80it/s][A
 29%|██████████████████████████████▏                                                                         | 2908/10000 [02:58<08:00, 14.77it/s]
                                                                                                                                                  [A
 29%|██████████████████████████████▏                                                                         | 2908/10000 [02:58<08:00, 14.77it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[93060] loss: 0.046 


                                                                                                                                                  
 29%|██████████████████████████████▏                                                                         | 2908/10000 [02:58<08:00, 14.77it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 538.54it/s][A


[93080] loss: 0.069 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 959.79it/s][A

                                                                                                                                                  [A
 29%|██████████████████████████████▏                                                                         | 2908/10000 [02:58<08:00, 14.77it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[93100] loss: 0.042 


                                                                                                                                                  
 29%|██████████████████████████████▏                                                                         | 2908/10000 [02:58<08:00, 14.77it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 503.63it/s][A


[93120] loss: 0.151 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 233.51it/s][A
 29%|██████████████████████████████▎                                                                         | 2910/10000 [02:58<08:08, 14.52it/s]
                                                                                                                                                  [A
 29%|██████████████████████████████▎                                                                         | 2910/10000 [02:58<08:08, 14.52it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 593.97it/s][A


[93140] loss: 0.030 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 451.49it/s][A

                                                                                                                                                  [A
 29%|██████████████████████████████▎                                                                         | 2910/10000 [02:58<08:08, 14.52it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[93160] loss: 0.039 


                                                                                                                                                  
 29%|██████████████████████████████▎                                                                         | 2910/10000 [02:58<08:08, 14.52it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 480.68it/s][A


[93180] loss: 0.050 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 398.32it/s][A
 29%|██████████████████████████████▎                                                                         | 2912/10000 [02:58<08:13, 14.37it/s]
                                                                                                                                                  [A
 29%|██████████████████████████████▎                                                                         | 2912/10000 [02:58<08:13, 14.37it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[93200] loss: 0.079 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 577.19it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 518.14it/s][A

                                                                                                                                                  [A
 29%|██████████████████████████████▎                                                                         | 2912/10000 [02:58<08:13, 14.37it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[93220] loss: 0.042 


                                                                                                                                                  
 29%|██████████████████████████████▎                                                                         | 2912/10000 [02:58<08:13, 14.37it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 580.13it/s][A


[93240] loss: 0.063 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1290.56it/s][A
 29%|██████████████████████████████▎                                                                         | 2914/10000 [02:58<08:05, 14.58it/s]
                                                                                                                                                  [A
 29%|██████████████████████████████▎                                                                         | 2914/10000 [02:58<08:05, 14.58it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[93260] loss: 0.072 


                                                                                                                                                  
 29%|██████████████████████████████▎                                                                         | 2914/10000 [02:58<08:05, 14.58it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 589.87it/s][A


[93280] loss: 0.089 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 426.25it/s][A

                                                                                                                                                  [A
 29%|██████████████████████████████▎                                                                         | 2914/10000 [02:58<08:05, 14.58it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[93300] loss: 0.049 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 756.92it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1836.39it/s][A
 29%|██████████████████████████████▎                                                                         | 2916/10000 [02:58<07:44, 15.26it/s]
                                                                                                                                                  [A
 29%|██████████████████████████████▎                                                                         | 2916/10000 [02:58<07:44, 15.26it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[93320] loss: 0.054 


                                                                                                                                                  
 29%|██████████████████████████████▎                                                                         | 2916/10000 [02:58<07:44, 15.26it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 582.16it/s][A


[93340] loss: 0.065 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1343.90it/s][A

                                                                                                                                                  [A
 29%|██████████████████████████████▎                                                                         | 2916/10000 [02:58<07:44, 15.26it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[93360] loss: 0.100 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 699.04it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 764.83it/s][A
 29%|██████████████████████████████▎                                                                         | 2918/10000 [02:58<07:33, 15.60it/s]
                                                                                                                                                  [A
 29%|██████████████████████████████▎                                                                         | 2918/10000 [02:58<07:33, 15.60it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[93380] loss: 0.085 


                                                                                                                                                  
 29%|██████████████████████████████▎                                                                         | 2918/10000 [02:58<07:33, 15.60it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[93400] loss: 0.112 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 591.15it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 886.93it/s][A

                                                                                                                                                  [A
 29%|██████████████████████████████▎                                                                         | 2918/10000 [02:58<07:33, 15.60it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[93420] loss: 0.069 


                                                                                                                                                  
 29%|██████████████████████████████▎                                                                         | 2918/10000 [02:58<07:33, 15.60it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 672.31it/s][A


[93440] loss: 0.089 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 379.03it/s][A
 29%|██████████████████████████████▎                                                                         | 2920/10000 [02:58<07:27, 15.82it/s]
                                                                                                                                                  [A
 29%|██████████████████████████████▎                                                                         | 2920/10000 [02:58<07:27, 15.82it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 722.76it/s][A


[93460] loss: 0.031 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 839.20it/s][A

                                                                                                                                                  [A
 29%|██████████████████████████████▎                                                                         | 2920/10000 [02:58<07:27, 15.82it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[93480] loss: 0.053 


                                                                                                                                                  
 29%|██████████████████████████████▎                                                                         | 2920/10000 [02:58<07:27, 15.82it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 550.89it/s][A


[93500] loss: 0.070 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1432.48it/s][A
 29%|██████████████████████████████▍                                                                         | 2922/10000 [02:58<07:18, 16.14it/s]
                                                                                                                                                  [A
 29%|██████████████████████████████▍                                                                         | 2922/10000 [02:58<07:18, 16.14it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[93520] loss: 0.055 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 667.85it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 681.89it/s][A

                                                                                                                                                  [A
 29%|██████████████████████████████▍                                                                         | 2922/10000 [02:59<07:18, 16.14it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[93540] loss: 0.064 


                                                                                                                                                  
 29%|██████████████████████████████▍                                                                         | 2922/10000 [02:59<07:18, 16.14it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[93560] loss: 0.026 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 575.74it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1386.09it/s][A
 29%|██████████████████████████████▍                                                                         | 2924/10000 [02:59<07:15, 16.26it/s]
                                                                                                                                                  [A
 29%|██████████████████████████████▍                                                                         | 2924/10000 [02:59<07:15, 16.26it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[93580] loss: 0.030 


                                                                                                                                                  
 29%|██████████████████████████████▍                                                                         | 2924/10000 [02:59<07:15, 16.26it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 720.45it/s][A


[93600] loss: 0.045 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 317.51it/s][A

                                                                                                                                                  [A
 29%|██████████████████████████████▍                                                                         | 2924/10000 [02:59<07:15, 16.26it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 765.46it/s][A


[93620] loss: 0.058 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 835.02it/s][A
 29%|██████████████████████████████▍                                                                         | 2926/10000 [02:59<06:53, 17.10it/s]
                                                                                                                                                  [A
 29%|██████████████████████████████▍                                                                         | 2926/10000 [02:59<06:53, 17.10it/s]
                                                                                                                                                  [A
 29%|██████████████████████████████▍                                                                         | 2926/10000 [02:59<06:53, 17.10it/s]
Training Epoch:   0%|                                                                                       

[93640] loss: 0.068 
[93660] loss: 0.046 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 647.64it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 919.20it/s][A

                                                                                                                                                  [A
 29%|██████████████████████████████▍                                                                         | 2926/10000 [02:59<06:53, 17.10it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 726.85it/s][A


[93680] loss: 0.061 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 519.74it/s][A
 29%|██████████████████████████████▍                                                                         | 2928/10000 [02:59<06:47, 17.35it/s]
                                                                                                                                                  [A
 29%|██████████████████████████████▍                                                                         | 2928/10000 [02:59<06:47, 17.35it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[93700] loss: 0.072 


                                                                                                                                                  
 29%|██████████████████████████████▍                                                                         | 2928/10000 [02:59<06:47, 17.35it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 625.60it/s][A


[93720] loss: 0.062 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 889.00it/s][A

                                                                                                                                                  [A
 29%|██████████████████████████████▍                                                                         | 2928/10000 [02:59<06:47, 17.35it/s]
                                                                                                                                                  [A

[93740] loss: 0.071 



 29%|██████████████████████████████▍                                                                         | 2928/10000 [02:59<06:47, 17.35it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 683.48it/s][A


[93760] loss: 0.045 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1240.18it/s][A
 29%|██████████████████████████████▍                                                                         | 2930/10000 [02:59<06:48, 17.32it/s]
                                                                                                                                                  [A
 29%|██████████████████████████████▍                                                                         | 2930/10000 [02:59<06:48, 17.32it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 648.40it/s][A


[93780] loss: 0.044 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 647.37it/s][A

                                                                                                                                                  [A
 29%|██████████████████████████████▍                                                                         | 2930/10000 [02:59<06:48, 17.32it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[93800] loss: 0.054 


                                                                                                                                                  
 29%|██████████████████████████████▍                                                                         | 2930/10000 [02:59<06:48, 17.32it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 579.37it/s][A


[93820] loss: 0.070 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 755.46it/s][A
 29%|██████████████████████████████▍                                                                         | 2932/10000 [02:59<06:59, 16.83it/s]
                                                                                                                                                  [A
 29%|██████████████████████████████▍                                                                         | 2932/10000 [02:59<06:59, 16.83it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[93840] loss: 0.055 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 532.62it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 650.08it/s][A

                                                                                                                                                  [A
 29%|██████████████████████████████▍                                                                         | 2932/10000 [02:59<06:59, 16.83it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[93860] loss: 0.088 


                                                                                                                                                  
 29%|██████████████████████████████▍                                                                         | 2932/10000 [02:59<06:59, 16.83it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 458.31it/s][A


[93880] loss: 0.059 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 460.56it/s][A
 29%|██████████████████████████████▌                                                                         | 2934/10000 [02:59<07:33, 15.59it/s]
                                                                                                                                                  [A
 29%|██████████████████████████████▌                                                                         | 2934/10000 [02:59<07:33, 15.59it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[93900] loss: 0.030 


                                                                                                                                                  
 29%|██████████████████████████████▌                                                                         | 2934/10000 [02:59<07:33, 15.59it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 494.71it/s][A


[93920] loss: 0.031 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 789.59it/s][A

                                                                                                                                                  [A
 29%|██████████████████████████████▌                                                                         | 2934/10000 [02:59<07:33, 15.59it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 543.19it/s][A

[93940] loss: 0.036 




Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 669.70it/s][A
 29%|██████████████████████████████▌                                                                         | 2936/10000 [02:59<07:49, 15.06it/s]
                                                                                                                                                  [A
 29%|██████████████████████████████▌                                                                         | 2936/10000 [02:59<07:49, 15.06it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[93960] loss: 0.056 


                                                                                                                                                  
 29%|██████████████████████████████▌                                                                         | 2936/10000 [02:59<07:49, 15.06it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 506.52it/s][A


[93980] loss: 0.091 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 352.94it/s][A

                                                                                                                                                  [A
 29%|██████████████████████████████▌                                                                         | 2936/10000 [02:59<07:49, 15.06it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[94000] loss: 0.033 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 583.85it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 716.00it/s][A
 29%|██████████████████████████████▌                                                                         | 2938/10000 [02:59<07:58, 14.75it/s]
                                                                                                                                                  [A
 29%|██████████████████████████████▌                                                                         | 2938/10000 [02:59<07:58, 14.75it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[94020] loss: 0.037 


                                                                                                                                                  
 29%|██████████████████████████████▌                                                                         | 2938/10000 [03:00<07:58, 14.75it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 464.15it/s][A


[94040] loss: 0.043 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 513.32it/s][A

                                                                                                                                                  [A
 29%|██████████████████████████████▌                                                                         | 2938/10000 [03:00<07:58, 14.75it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[94060] loss: 0.050 


                                                                                                                                                  
 29%|██████████████████████████████▌                                                                         | 2938/10000 [03:00<07:58, 14.75it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 527.97it/s][A


[94080] loss: 0.140 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 654.64it/s][A
 29%|██████████████████████████████▌                                                                         | 2940/10000 [03:00<08:14, 14.28it/s]
                                                                                                                                                  [A
 29%|██████████████████████████████▌                                                                         | 2940/10000 [03:00<08:14, 14.28it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 593.61it/s][A


[94100] loss: 0.066 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 554.95it/s][A

                                                                                                                                                  [A
 29%|██████████████████████████████▌                                                                         | 2940/10000 [03:00<08:14, 14.28it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[94120] loss: 0.073 


                                                                                                                                                  
 29%|██████████████████████████████▌                                                                         | 2940/10000 [03:00<08:14, 14.28it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 469.39it/s][A


[94140] loss: 0.099 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 592.75it/s][A
 29%|██████████████████████████████▌                                                                         | 2942/10000 [03:00<08:15, 14.25it/s]
                                                                                                                                                  [A
 29%|██████████████████████████████▌                                                                         | 2942/10000 [03:00<08:15, 14.25it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[94160] loss: 0.079 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 528.83it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 747.25it/s][A

                                                                                                                                                  [A
 29%|██████████████████████████████▌                                                                         | 2942/10000 [03:00<08:15, 14.25it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[94180] loss: 0.062 


                                                                                                                                                  
 29%|██████████████████████████████▌                                                                         | 2942/10000 [03:00<08:15, 14.25it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 463.05it/s][A


[94200] loss: 0.097 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 772.57it/s][A
 29%|██████████████████████████████▌                                                                         | 2944/10000 [03:00<08:27, 13.90it/s]
                                                                                                                                                  [A
 29%|██████████████████████████████▌                                                                         | 2944/10000 [03:00<08:27, 13.90it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[94220] loss: 0.056 


                                                                                                                                                  
 29%|██████████████████████████████▌                                                                         | 2944/10000 [03:00<08:27, 13.90it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 521.10it/s][A


[94240] loss: 0.059 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 576.70it/s][A

                                                                                                                                                  [A
 29%|██████████████████████████████▌                                                                         | 2944/10000 [03:00<08:27, 13.90it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 575.22it/s][A


[94260] loss: 0.061 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 429.88it/s][A
 29%|██████████████████████████████▋                                                                         | 2946/10000 [03:00<08:18, 14.15it/s]
                                                                                                                                                  [A
 29%|██████████████████████████████▋                                                                         | 2946/10000 [03:00<08:18, 14.15it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[94280] loss: 0.097 


                                                                                                                                                  
 29%|██████████████████████████████▋                                                                         | 2946/10000 [03:00<08:18, 14.15it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 526.81it/s][A


[94300] loss: 0.052 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 831.21it/s][A

                                                                                                                                                  [A
 29%|██████████████████████████████▋                                                                         | 2946/10000 [03:00<08:18, 14.15it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 601.30it/s][A


[94320] loss: 0.083 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 569.11it/s][A
 29%|██████████████████████████████▋                                                                         | 2948/10000 [03:00<08:09, 14.40it/s]
                                                                                                                                                  [A
 29%|██████████████████████████████▋                                                                         | 2948/10000 [03:00<08:09, 14.40it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[94340] loss: 0.044 


                                                                                                                                                  
 29%|██████████████████████████████▋                                                                         | 2948/10000 [03:00<08:09, 14.40it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 642.73it/s][A


[94360] loss: 0.062 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1482.09it/s][A

                                                                                                                                                  [A
 29%|██████████████████████████████▋                                                                         | 2948/10000 [03:00<08:09, 14.40it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[94380] loss: 0.047 


                                                                                                                                                  
 29%|██████████████████████████████▋                                                                         | 2948/10000 [03:00<08:09, 14.40it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 661.50it/s][A


[94400] loss: 0.035 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1466.03it/s][A
 30%|██████████████████████████████▋                                                                         | 2950/10000 [03:00<07:47, 15.07it/s]
                                                                                                                                                  [A
 30%|██████████████████████████████▋                                                                         | 2950/10000 [03:00<07:47, 15.07it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 701.44it/s][A

[94420] loss: 0.039 




Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 836.02it/s][A

                                                                                                                                                  [A
 30%|██████████████████████████████▋                                                                         | 2950/10000 [03:00<07:47, 15.07it/s]
                                                                                                                                                  [A

[94440] loss: 0.059 



 30%|██████████████████████████████▋                                                                         | 2950/10000 [03:00<07:47, 15.07it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 660.65it/s][A


[94460] loss: 0.073 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1405.13it/s][A
 30%|██████████████████████████████▋                                                                         | 2952/10000 [03:00<07:23, 15.88it/s]
                                                                                                                                                  [A
 30%|██████████████████████████████▋                                                                         | 2952/10000 [03:00<07:23, 15.88it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 794.52it/s][A


[94480] loss: 0.048 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 787.51it/s][A

                                                                                                                                                  [A
 30%|██████████████████████████████▋                                                                         | 2952/10000 [03:00<07:23, 15.88it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[94500] loss: 0.038 


                                                                                                                                                  
 30%|██████████████████████████████▋                                                                         | 2952/10000 [03:00<07:23, 15.88it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 605.56it/s][A


[94520] loss: 0.075 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 894.88it/s][A
 30%|██████████████████████████████▋                                                                         | 2954/10000 [03:01<07:05, 16.56it/s]
                                                                                                                                                  [A
 30%|██████████████████████████████▋                                                                         | 2954/10000 [03:01<07:05, 16.56it/s]
                                                                                                                                                  [A
 30%|██████████████████████████████▋                                                                         | 2954/10000 [03:01<07:05, 16.56it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[94540] loss: 0.049 
[94560] loss: 0.187 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1291.75it/s][A

                                                                                                                                                  [A
 30%|██████████████████████████████▋                                                                         | 2954/10000 [03:01<07:05, 16.56it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 808.55it/s][A


[94580] loss: 0.076 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1267.16it/s][A
 30%|██████████████████████████████▋                                                                         | 2956/10000 [03:01<06:45, 17.38it/s]
                                                                                                                                                  [A
 30%|██████████████████████████████▋                                                                         | 2956/10000 [03:01<06:45, 17.38it/s]
                                                                                                                                                  [A
 30%|██████████████████████████████▋                                                                         | 2956/10000 [03:01<06:45, 17.38it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[94600] loss: 0.033 
[94620] loss: 0.044 




Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1444.82it/s][A

                                                                                                                                                  [A
 30%|██████████████████████████████▋                                                                         | 2956/10000 [03:01<06:45, 17.38it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 803.42it/s][A


[94640] loss: 0.054 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2113.00it/s][A
 30%|██████████████████████████████▊                                                                         | 2958/10000 [03:01<06:32, 17.92it/s]
                                                                                                                                                  [A
 30%|██████████████████████████████▊                                                                         | 2958/10000 [03:01<06:32, 17.92it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[94660] loss: 0.040 


                                                                                                                                                  
 30%|██████████████████████████████▊                                                                         | 2958/10000 [03:01<06:32, 17.92it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 647.91it/s][A


[94680] loss: 0.095 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1325.21it/s][A

                                                                                                                                                  [A
 30%|██████████████████████████████▊                                                                         | 2958/10000 [03:01<06:32, 17.92it/s]
                                                                                                                                                  [A
[A                                                                                                                                               

[94700] loss: 0.037 


 30%|██████████████████████████████▊                                                                         | 2958/10000 [03:01<06:32, 17.92it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 604.46it/s][A


[94720] loss: 0.115 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 355.96it/s][A
 30%|██████████████████████████████▊                                                                         | 2960/10000 [03:01<06:42, 17.48it/s]
                                                                                                                                                  [A
 30%|██████████████████████████████▊                                                                         | 2960/10000 [03:01<06:42, 17.48it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 901.44it/s][A


[94740] loss: 0.052 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 798.76it/s][A

                                                                                                                                                  [A
 30%|██████████████████████████████▊                                                                         | 2960/10000 [03:01<06:42, 17.48it/s]
                                                                                                                                                  [A
 30%|██████████████████████████████▊                                                                         | 2960/10000 [03:01<06:42, 17.48it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 797.66it/s][A


[94760] loss: 0.084 
[94780] loss: 0.060 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1165.73it/s][A

                                                                                                                                                  [A
 30%|██████████████████████████████▊                                                                         | 2960/10000 [03:01<06:42, 17.48it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[94800] loss: 0.043 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 797.44it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1195.98it/s][A
 30%|██████████████████████████████▊                                                                         | 2963/10000 [03:01<06:13, 18.84it/s]
                                                                                                                                                  [A
 30%|██████████████████████████████▊                                                                         | 2963/10000 [03:01<06:13, 18.84it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[94820] loss: 0.044 


                                                                                                                                                  
 30%|██████████████████████████████▊                                                                         | 2963/10000 [03:01<06:13, 18.84it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 720.42it/s][A


[94840] loss: 0.081 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1041.80it/s][A

                                                                                                                                                  [A
 30%|██████████████████████████████▊                                                                         | 2963/10000 [03:01<06:13, 18.84it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[94860] loss: 0.085 


                                                                                                                                                  
 30%|██████████████████████████████▊                                                                         | 2963/10000 [03:01<06:13, 18.84it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 589.26it/s][A


[94880] loss: 0.046 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1069.43it/s][A
 30%|██████████████████████████████▊                                                                         | 2965/10000 [03:01<06:25, 18.27it/s]
                                                                                                                                                  [A
 30%|██████████████████████████████▊                                                                         | 2965/10000 [03:01<06:25, 18.27it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 832.38it/s][A


[94900] loss: 0.062 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1356.06it/s][A

                                                                                                                                                  [A
 30%|██████████████████████████████▊                                                                         | 2965/10000 [03:01<06:25, 18.27it/s]
                                                                                                                                                  [A

[94920] loss: 0.057 



 30%|██████████████████████████████▊                                                                         | 2965/10000 [03:01<06:25, 18.27it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 601.59it/s][A


[94940] loss: 0.044 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1438.38it/s][A
 30%|██████████████████████████████▊                                                                         | 2967/10000 [03:01<06:27, 18.14it/s]
                                                                                                                                                  [A
 30%|██████████████████████████████▊                                                                         | 2967/10000 [03:01<06:27, 18.14it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 796.49it/s][A


[94960] loss: 0.040 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1855.07it/s][A

                                                                                                                                                  [A
 30%|██████████████████████████████▊                                                                         | 2967/10000 [03:01<06:27, 18.14it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[94980] loss: 0.054 


                                                                                                                                                  
 30%|██████████████████████████████▊                                                                         | 2967/10000 [03:01<06:27, 18.14it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[95000] loss: 0.094 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 499.81it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1020.51it/s][A
 30%|██████████████████████████████▉                                                                         | 2969/10000 [03:01<06:36, 17.71it/s]
                                                                                                                                                  [A
 30%|██████████████████████████████▉                                                                         | 2969/10000 [03:01<06:36, 17.71it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[95020] loss: 0.073 


                                                                                                                                                  
 30%|██████████████████████████████▉                                                                         | 2969/10000 [03:01<06:36, 17.71it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 547.08it/s][A


[95040] loss: 0.033 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 916.19it/s][A

                                                                                                                                                  [A
 30%|██████████████████████████████▉                                                                         | 2969/10000 [03:01<06:36, 17.71it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[95060] loss: 0.051 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 640.58it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1013.61it/s][A
 30%|██████████████████████████████▉                                                                         | 2971/10000 [03:01<06:47, 17.27it/s]
                                                                                                                                                  [A
 30%|██████████████████████████████▉                                                                         | 2971/10000 [03:01<06:47, 17.27it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[95080] loss: 0.057 


                                                                                                                                                  
 30%|██████████████████████████████▉                                                                         | 2971/10000 [03:02<06:47, 17.27it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[95100] loss: 0.059 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 583.87it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 793.62it/s][A

                                                                                                                                                  [A
 30%|██████████████████████████████▉                                                                         | 2971/10000 [03:02<06:47, 17.27it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[95120] loss: 0.112 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 591.24it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 986.43it/s][A
 30%|██████████████████████████████▉                                                                         | 2973/10000 [03:02<06:58, 16.80it/s]
                                                                                                                                                  [A
 30%|██████████████████████████████▉                                                                         | 2973/10000 [03:02<06:58, 16.80it/s]
                                                                                                                                                  [A
                                                                                                            

[95140] loss: 0.055 


 30%|██████████████████████████████▉                                                                         | 2973/10000 [03:02<06:58, 16.80it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 530.13it/s][A


[95160] loss: 0.043 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 994.15it/s][A

                                                                                                                                                  [A
 30%|██████████████████████████████▉                                                                         | 2973/10000 [03:02<06:58, 16.80it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[95180] loss: 0.063 


                                                                                                                                                  
 30%|██████████████████████████████▉                                                                         | 2973/10000 [03:02<06:58, 16.80it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 502.80it/s][A


[95200] loss: 0.061 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 677.05it/s][A
 30%|██████████████████████████████▉                                                                         | 2975/10000 [03:02<07:20, 15.94it/s]
                                                                                                                                                  [A
 30%|██████████████████████████████▉                                                                         | 2975/10000 [03:02<07:20, 15.94it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 480.68it/s][A


[95220] loss: 0.028 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 794.53it/s][A

                                                                                                                                                  [A
 30%|██████████████████████████████▉                                                                         | 2975/10000 [03:02<07:20, 15.94it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[95240] loss: 0.051 


                                                                                                                                                  
 30%|██████████████████████████████▉                                                                         | 2975/10000 [03:02<07:20, 15.94it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 439.95it/s][A


[95260] loss: 0.043 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 938.53it/s][A
 30%|██████████████████████████████▉                                                                         | 2977/10000 [03:02<07:56, 14.75it/s]
                                                                                                                                                  [A
 30%|██████████████████████████████▉                                                                         | 2977/10000 [03:02<07:56, 14.75it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 530.91it/s][A


[95280] loss: 0.039 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 960.45it/s][A

                                                                                                                                                  [A
 30%|██████████████████████████████▉                                                                         | 2977/10000 [03:02<07:56, 14.75it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[95300] loss: 0.079 


                                                                                                                                                  
 30%|██████████████████████████████▉                                                                         | 2977/10000 [03:02<07:56, 14.75it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 502.20it/s][A


[95320] loss: 0.102 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 433.07it/s][A
 30%|██████████████████████████████▉                                                                         | 2979/10000 [03:02<08:03, 14.51it/s]
                                                                                                                                                  [A
 30%|██████████████████████████████▉                                                                         | 2979/10000 [03:02<08:03, 14.51it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[95340] loss: 0.082 


                                                                                                                                                  
 30%|██████████████████████████████▉                                                                         | 2979/10000 [03:02<08:03, 14.51it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 520.50it/s][A


[95360] loss: 0.053 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 264.73it/s][A

                                                                                                                                                  [A
 30%|██████████████████████████████▉                                                                         | 2979/10000 [03:02<08:03, 14.51it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 591.69it/s][A


[95380] loss: 0.055 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1045.96it/s][A
 30%|███████████████████████████████                                                                         | 2981/10000 [03:02<08:03, 14.52it/s]
                                                                                                                                                  [A
 30%|███████████████████████████████                                                                         | 2981/10000 [03:02<08:03, 14.52it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[95400] loss: 0.099 


                                                                                                                                                  
 30%|███████████████████████████████                                                                         | 2981/10000 [03:02<08:03, 14.52it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 527.49it/s][A


[95420] loss: 0.069 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 617.45it/s][A

                                                                                                                                                  [A
 30%|███████████████████████████████                                                                         | 2981/10000 [03:02<08:03, 14.52it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[95440] loss: 0.057 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 562.70it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 781.64it/s][A
 30%|███████████████████████████████                                                                         | 2983/10000 [03:02<08:03, 14.51it/s]
                                                                                                                                                  [A
 30%|███████████████████████████████                                                                         | 2983/10000 [03:02<08:03, 14.51it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[95460] loss: 0.053 


                                                                                                                                                  
 30%|███████████████████████████████                                                                         | 2983/10000 [03:02<08:03, 14.51it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 507.45it/s][A


[95480] loss: 0.066 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 606.64it/s][A

                                                                                                                                                  [A
 30%|███████████████████████████████                                                                         | 2983/10000 [03:02<08:03, 14.51it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[95500] loss: 0.045 


                                                                                                                                                  
 30%|███████████████████████████████                                                                         | 2983/10000 [03:02<08:03, 14.51it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 485.90it/s][A


[95520] loss: 0.039 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 312.84it/s][A
 30%|███████████████████████████████                                                                         | 2985/10000 [03:02<08:16, 14.13it/s]
                                                                                                                                                  [A
 30%|███████████████████████████████                                                                         | 2985/10000 [03:02<08:16, 14.13it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 722.53it/s][A


[95540] loss: 0.088 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1020.51it/s][A

                                                                                                                                                  [A
 30%|███████████████████████████████                                                                         | 2985/10000 [03:03<08:16, 14.13it/s]
                                                                                                                                                  [A
                                                                                                                                                  

[95560] loss: 0.051 


 30%|███████████████████████████████                                                                         | 2985/10000 [03:03<08:16, 14.13it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 612.17it/s][A


[95580] loss: 0.037 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1334.49it/s][A
 30%|███████████████████████████████                                                                         | 2987/10000 [03:03<07:51, 14.88it/s]
                                                                                                                                                  [A
 30%|███████████████████████████████                                                                         | 2987/10000 [03:03<07:51, 14.88it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[95600] loss: 0.046 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 705.24it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1890.18it/s][A

                                                                                                                                                  [A
 30%|███████████████████████████████                                                                         | 2987/10000 [03:03<07:51, 14.88it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[95620] loss: 0.102 


                                                                                                                                                  
 30%|███████████████████████████████                                                                         | 2987/10000 [03:03<07:51, 14.88it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 606.66it/s][A


[95640] loss: 0.047 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1292.54it/s][A
 30%|███████████████████████████████                                                                         | 2989/10000 [03:03<07:33, 15.46it/s]
                                                                                                                                                  [A
 30%|███████████████████████████████                                                                         | 2989/10000 [03:03<07:33, 15.46it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[95660] loss: 0.072 


                                                                                                                                                  
 30%|███████████████████████████████                                                                         | 2989/10000 [03:03<07:33, 15.46it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 623.18it/s][A


[95680] loss: 0.053 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1218.92it/s][A

                                                                                                                                                  [A
 30%|███████████████████████████████                                                                         | 2989/10000 [03:03<07:33, 15.46it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 719.45it/s][A


[95700] loss: 0.039 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1897.88it/s][A
 30%|███████████████████████████████                                                                         | 2991/10000 [03:03<07:16, 16.05it/s]
                                                                                                                                                  [A
 30%|███████████████████████████████                                                                         | 2991/10000 [03:03<07:16, 16.05it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[95720] loss: 0.072 


                                                                                                                                                  
 30%|███████████████████████████████                                                                         | 2991/10000 [03:03<07:16, 16.05it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 589.70it/s][A


[95740] loss: 0.111 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1357.38it/s][A

                                                                                                                                                  [A
 30%|███████████████████████████████                                                                         | 2991/10000 [03:03<07:16, 16.05it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[95760] loss: 0.040 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 728.72it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 946.15it/s][A
 30%|███████████████████████████████▏                                                                        | 2993/10000 [03:03<07:07, 16.40it/s]
                                                                                                                                                  [A
 30%|███████████████████████████████▏                                                                        | 2993/10000 [03:03<07:07, 16.40it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[95780] loss: 0.080 


                                                                                                                                                  
 30%|███████████████████████████████▏                                                                        | 2993/10000 [03:03<07:07, 16.40it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 680.48it/s][A


[95800] loss: 0.033 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 605.24it/s][A

                                                                                                                                                  [A
 30%|███████████████████████████████▏                                                                        | 2993/10000 [03:03<07:07, 16.40it/s]
                                                                                                                                                  [A

[95820] loss: 0.053 



 30%|███████████████████████████████▏                                                                        | 2993/10000 [03:03<07:07, 16.40it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 666.52it/s][A


[95840] loss: 0.018 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1415.56it/s][A
 30%|███████████████████████████████▏                                                                        | 2995/10000 [03:03<06:56, 16.82it/s]
                                                                                                                                                  [A
 30%|███████████████████████████████▏                                                                        | 2995/10000 [03:03<06:56, 16.82it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 672.67it/s][A


[95860] loss: 0.057 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 833.20it/s][A

                                                                                                                                                  [A
 30%|███████████████████████████████▏                                                                        | 2995/10000 [03:03<06:56, 16.82it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[95880] loss: 0.100 


                                                                                                                                                  
 30%|███████████████████████████████▏                                                                        | 2995/10000 [03:03<06:56, 16.82it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 572.36it/s][A


[95900] loss: 0.052 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 529.38it/s][A
 30%|███████████████████████████████▏                                                                        | 2997/10000 [03:03<07:01, 16.62it/s]
                                                                                                                                                  [A
 30%|███████████████████████████████▏                                                                        | 2997/10000 [03:03<07:01, 16.62it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[95920] loss: 0.056 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 699.18it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1838.80it/s][A

                                                                                                                                                  [A
 30%|███████████████████████████████▏                                                                        | 2997/10000 [03:03<07:01, 16.62it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[95940] loss: 0.062 


                                                                                                                                                  
 30%|███████████████████████████████▏                                                                        | 2997/10000 [03:03<07:01, 16.62it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 831.08it/s][A


[95960] loss: 0.055 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 872.90it/s][A
 30%|███████████████████████████████▏                                                                        | 2999/10000 [03:03<06:42, 17.40it/s]
                                                                                                                                                  [A
 30%|███████████████████████████████▏                                                                        | 2999/10000 [03:03<06:42, 17.40it/s]
                                                                                                                                                  [A
 30%|███████████████████████████████▏                                                                        | 2999/10000 [03:03<06:42, 17.40it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[95980] loss: 0.056 
[96000] loss: 0.089 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1763.79it/s][A

                                                                                                                                                  [A
 30%|███████████████████████████████▏                                                                        | 2999/10000 [03:03<06:42, 17.40it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[96020] loss: 0.055 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 867.09it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1696.04it/s][A

                                                                                                                                                  [A
 30%|███████████████████████████████▏                                                                        | 2999/10000 [03:03<06:42, 17.40it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[96040] loss: 0.045 


                                                                                                                                                  
 30%|███████████████████████████████▏                                                                        | 2999/10000 [03:03<06:42, 17.40it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 655.45it/s][A


[96060] loss: 0.084 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1632.02it/s][A
 30%|███████████████████████████████▏                                                                        | 3002/10000 [03:03<06:26, 18.10it/s]
                                                                                                                                                  [A
 30%|███████████████████████████████▏                                                                        | 3002/10000 [03:03<06:26, 18.10it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[96080] loss: 0.092 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 677.82it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1063.19it/s][A

                                                                                                                                                  [A
 30%|███████████████████████████████▏                                                                        | 3002/10000 [03:03<06:26, 18.10it/s]
                                                                                                                                                  [A
 30%|███████████████████████████████▏                                                                        | 3002/10000 [03:04<06:26, 18.10it/s]
Training Epoch: 100%|██████████████████████████████████████████████████████████████████████████████████████

[96100] loss: 0.044 
[96120] loss: 0.031 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1074.09it/s][A
 30%|███████████████████████████████▏                                                                        | 3004/10000 [03:04<06:32, 17.81it/s]
                                                                                                                                                  [A
 30%|███████████████████████████████▏                                                                        | 3004/10000 [03:04<06:32, 17.81it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[96140] loss: 0.048 


                                                                                                                                                  
 30%|███████████████████████████████▏                                                                        | 3004/10000 [03:04<06:32, 17.81it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 521.35it/s][A


[96160] loss: 0.012 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 604.11it/s][A

                                                                                                                                                  [A
 30%|███████████████████████████████▏                                                                        | 3004/10000 [03:04<06:32, 17.81it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[96180] loss: 0.073 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 598.50it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 563.60it/s][A
 30%|███████████████████████████████▎                                                                        | 3006/10000 [03:04<06:52, 16.95it/s]
                                                                                                                                                  [A
 30%|███████████████████████████████▎                                                                        | 3006/10000 [03:04<06:52, 16.95it/s]
                                                                                                                                                  [A
 30%|███████████████████████████████▎                                                                       

[96200] loss: 0.048 
[96220] loss: 0.058 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 781.79it/s][A

                                                                                                                                                  [A
 30%|███████████████████████████████▎                                                                        | 3006/10000 [03:04<06:52, 16.95it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 601.09it/s][A


[96240] loss: 0.061 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 736.23it/s][A
 30%|███████████████████████████████▎                                                                        | 3008/10000 [03:04<07:06, 16.40it/s]
                                                                                                                                                  [A
 30%|███████████████████████████████▎                                                                        | 3008/10000 [03:04<07:06, 16.40it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[96260] loss: 0.049 


                                                                                                                                                  
 30%|███████████████████████████████▎                                                                        | 3008/10000 [03:04<07:06, 16.40it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 509.99it/s][A


[96280] loss: 0.080 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 471.64it/s][A

                                                                                                                                                  [A
 30%|███████████████████████████████▎                                                                        | 3008/10000 [03:04<07:06, 16.40it/s]
                                                                                                                                                  [A
 30%|███████████████████████████████▎                                                                        | 3008/10000 [03:04<07:06, 16.40it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 523.07it/s][A


[96300] loss: 0.075 
[96320] loss: 0.032 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1567.96it/s][A
 30%|███████████████████████████████▎                                                                        | 3010/10000 [03:04<07:27, 15.63it/s]
                                                                                                                                                  [A
 30%|███████████████████████████████▎                                                                        | 3010/10000 [03:04<07:27, 15.63it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 579.83it/s][A


[96340] loss: 0.065 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 487.99it/s][A

                                                                                                                                                  [A
 30%|███████████████████████████████▎                                                                        | 3010/10000 [03:04<07:27, 15.63it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[96360] loss: 0.057 


                                                                                                                                                  
 30%|███████████████████████████████▎                                                                        | 3010/10000 [03:04<07:27, 15.63it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 437.00it/s][A


[96380] loss: 0.056 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 782.81it/s][A
 30%|███████████████████████████████▎                                                                        | 3012/10000 [03:04<07:47, 14.95it/s]
                                                                                                                                                  [A
 30%|███████████████████████████████▎                                                                        | 3012/10000 [03:04<07:47, 14.95it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 552.71it/s][A


[96400] loss: 0.079 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 641.04it/s][A

                                                                                                                                                  [A
 30%|███████████████████████████████▎                                                                        | 3012/10000 [03:04<07:47, 14.95it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[96420] loss: 0.068 


                                                                                                                                                  
 30%|███████████████████████████████▎                                                                        | 3012/10000 [03:04<07:47, 14.95it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[96440] loss: 0.100 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 431.72it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 946.15it/s][A
 30%|███████████████████████████████▎                                                                        | 3014/10000 [03:04<08:06, 14.37it/s]
                                                                                                                                                  [A
 30%|███████████████████████████████▎                                                                        | 3014/10000 [03:04<08:06, 14.37it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[96460] loss: 0.062 


                                                                                                                                                  
 30%|███████████████████████████████▎                                                                        | 3014/10000 [03:04<08:06, 14.37it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 494.32it/s][A


[96480] loss: 0.142 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 492.29it/s][A

                                                                                                                                                  [A
 30%|███████████████████████████████▎                                                                        | 3014/10000 [03:04<08:06, 14.37it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 606.81it/s][A

[96500] loss: 0.076 




Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 747.78it/s][A
 30%|███████████████████████████████▎                                                                        | 3016/10000 [03:04<08:04, 14.42it/s]
                                                                                                                                                  [A
 30%|███████████████████████████████▎                                                                        | 3016/10000 [03:04<08:04, 14.42it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[96520] loss: 0.055 


                                                                                                                                                  
 30%|███████████████████████████████▎                                                                        | 3016/10000 [03:04<08:04, 14.42it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 544.01it/s][A


[96540] loss: 0.048 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 831.21it/s][A

                                                                                                                                                  [A
 30%|███████████████████████████████▎                                                                        | 3016/10000 [03:04<08:04, 14.42it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 580.87it/s][A


[96560] loss: 0.055 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 687.03it/s][A
 30%|███████████████████████████████▍                                                                        | 3018/10000 [03:05<08:01, 14.51it/s]
                                                                                                                                                  [A
 30%|███████████████████████████████▍                                                                        | 3018/10000 [03:05<08:01, 14.51it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[96580] loss: 0.039 


                                                                                                                                                  
 30%|███████████████████████████████▍                                                                        | 3018/10000 [03:05<08:01, 14.51it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 556.59it/s][A


[96600] loss: 0.035 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 850.08it/s][A

                                                                                                                                                  [A
 30%|███████████████████████████████▍                                                                        | 3018/10000 [03:05<08:01, 14.51it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[96620] loss: 0.081 


                                                                                                                                                  
 30%|███████████████████████████████▍                                                                        | 3018/10000 [03:05<08:01, 14.51it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 543.57it/s][A


[96640] loss: 0.066 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 684.11it/s][A
 30%|███████████████████████████████▍                                                                        | 3020/10000 [03:05<07:56, 14.64it/s]
                                                                                                                                                  [A
 30%|███████████████████████████████▍                                                                        | 3020/10000 [03:05<07:56, 14.64it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 655.23it/s][A


[96660] loss: 0.049 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1274.86it/s][A

                                                                                                                                                  [A
 30%|███████████████████████████████▍                                                                        | 3020/10000 [03:05<07:56, 14.64it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[96680] loss: 0.069 


                                                                                                                                                  
 30%|███████████████████████████████▍                                                                        | 3020/10000 [03:05<07:56, 14.64it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 652.91it/s][A


[96700] loss: 0.097 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1429.06it/s][A
 30%|███████████████████████████████▍                                                                        | 3022/10000 [03:05<07:36, 15.30it/s]
                                                                                                                                                  [A
 30%|███████████████████████████████▍                                                                        | 3022/10000 [03:05<07:36, 15.30it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[96720] loss: 0.058 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 723.40it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1930.19it/s][A

                                                                                                                                                  [A
 30%|███████████████████████████████▍                                                                        | 3022/10000 [03:05<07:36, 15.30it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[96740] loss: 0.064 


                                                                                                                                                  
 30%|███████████████████████████████▍                                                                        | 3022/10000 [03:05<07:36, 15.30it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 637.35it/s][A


[96760] loss: 0.027 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 838.69it/s][A
 30%|███████████████████████████████▍                                                                        | 3024/10000 [03:05<07:17, 15.95it/s]
                                                                                                                                                  [A
 30%|███████████████████████████████▍                                                                        | 3024/10000 [03:05<07:17, 15.95it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[96780] loss: 0.065 


                                                                                                                                                  
 30%|███████████████████████████████▍                                                                        | 3024/10000 [03:05<07:17, 15.95it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 641.26it/s][A


[96800] loss: 0.008 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1431.50it/s][A

                                                                                                                                                  [A
 30%|███████████████████████████████▍                                                                        | 3024/10000 [03:05<07:17, 15.95it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 703.01it/s][A


[96820] loss: 0.029 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 605.59it/s][A
 30%|███████████████████████████████▍                                                                        | 3026/10000 [03:05<07:04, 16.43it/s]
                                                                                                                                                  [A
 30%|███████████████████████████████▍                                                                        | 3026/10000 [03:05<07:04, 16.43it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[96840] loss: 0.057 


                                                                                                                                                  
 30%|███████████████████████████████▍                                                                        | 3026/10000 [03:05<07:04, 16.43it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 603.00it/s][A


[96860] loss: 0.093 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1384.26it/s][A

                                                                                                                                                  [A
 30%|███████████████████████████████▍                                                                        | 3026/10000 [03:05<07:04, 16.43it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 772.25it/s][A


[96880] loss: 0.060 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 853.19it/s][A
 30%|███████████████████████████████▍                                                                        | 3028/10000 [03:05<06:56, 16.75it/s]
                                                                                                                                                  [A
 30%|███████████████████████████████▍                                                                        | 3028/10000 [03:05<06:56, 16.75it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[96900] loss: 0.020 


                                                                                                                                                  
 30%|███████████████████████████████▍                                                                        | 3028/10000 [03:05<06:56, 16.75it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 576.05it/s][A


[96920] loss: 0.047 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1222.47it/s][A

                                                                                                                                                  [A
 30%|███████████████████████████████▍                                                                        | 3028/10000 [03:05<06:56, 16.75it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[96940] loss: 0.056 


                                                                                                                                                  
 30%|███████████████████████████████▍                                                                        | 3028/10000 [03:05<06:56, 16.75it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 603.31it/s][A


[96960] loss: 0.126 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 438.00it/s][A
 30%|███████████████████████████████▌                                                                        | 3030/10000 [03:05<07:06, 16.33it/s]
                                                                                                                                                  [A
 30%|███████████████████████████████▌                                                                        | 3030/10000 [03:05<07:06, 16.33it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[96980] loss: 0.093 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 749.32it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 832.86it/s][A

                                                                                                                                                  [A
 30%|███████████████████████████████▌                                                                        | 3030/10000 [03:05<07:06, 16.33it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[97000] loss: 0.044 


                                                                                                                                                  
 30%|███████████████████████████████▌                                                                        | 3030/10000 [03:05<07:06, 16.33it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 624.19it/s][A


[97020] loss: 0.082 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1472.72it/s][A
 30%|███████████████████████████████▌                                                                        | 3032/10000 [03:05<06:58, 16.65it/s]
                                                                                                                                                  [A
 30%|███████████████████████████████▌                                                                        | 3032/10000 [03:05<06:58, 16.65it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[97040] loss: 0.068 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 731.74it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1251.28it/s][A

                                                                                                                                                  [A
 30%|███████████████████████████████▌                                                                        | 3032/10000 [03:05<06:58, 16.65it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[97060] loss: 0.061 


                                                                                                                                                  
 30%|███████████████████████████████▌                                                                        | 3032/10000 [03:05<06:58, 16.65it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 706.91it/s][A


[97080] loss: 0.085 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1479.47it/s][A
 30%|███████████████████████████████▌                                                                        | 3034/10000 [03:05<06:46, 17.13it/s]
                                                                                                                                                  [A
 30%|███████████████████████████████▌                                                                        | 3034/10000 [03:05<06:46, 17.13it/s]
                                                                                                                                                  [A
 30%|███████████████████████████████▌                                                                        | 3034/10000 [03:05<06:46, 17.13it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[97100] loss: 0.065 
[97120] loss: 0.048 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 311.36it/s][A

                                                                                                                                                  [A
 30%|███████████████████████████████▌                                                                        | 3034/10000 [03:06<06:46, 17.13it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 741.13it/s][A


[97140] loss: 0.082 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 607.17it/s][A
 30%|███████████████████████████████▌                                                                        | 3036/10000 [03:06<06:33, 17.69it/s]
                                                                                                                                                  [A
 30%|███████████████████████████████▌                                                                        | 3036/10000 [03:06<06:33, 17.69it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[97160] loss: 0.039 


                                                                                                                                                  
 30%|███████████████████████████████▌                                                                        | 3036/10000 [03:06<06:33, 17.69it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 1008.61it/s][A


[97180] loss: 0.043 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 714.17it/s][A

                                                                                                                                                  [A
 30%|███████████████████████████████▌                                                                        | 3036/10000 [03:06<06:33, 17.69it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 1067.88it/s][A


[97200] loss: 0.053 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 864.98it/s][A

                                                                                                                                                  [A
 30%|███████████████████████████████▌                                                                        | 3036/10000 [03:06<06:33, 17.69it/s]
                                                                                                                                                  [A
 30%|███████████████████████████████▌                                                                        | 3036/10000 [03:06<06:33, 17.69it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[97220] loss: 0.042 
[97240] loss: 0.068 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 806.59it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1497.97it/s][A
 30%|███████████████████████████████▌                                                                        | 3039/10000 [03:06<05:53, 19.71it/s]
                                                                                                                                                  [A
 30%|███████████████████████████████▌                                                                        | 3039/10000 [03:06<05:53, 19.71it/s]
                                                                                                                                                  [A
 30%|███████████████████████████████▌                                                                       

[97260] loss: 0.059 
[97280] loss: 0.068 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2365.65it/s][A

                                                                                                                                                  [A
 30%|███████████████████████████████▌                                                                        | 3039/10000 [03:06<05:53, 19.71it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[97300] loss: 0.052 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 776.30it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 593.42it/s][A
 30%|███████████████████████████████▋                                                                        | 3041/10000 [03:06<05:55, 19.58it/s]
                                                                                                                                                  [A
 30%|███████████████████████████████▋                                                                        | 3041/10000 [03:06<05:55, 19.58it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[97320] loss: 0.045 


                                                                                                                                                  
 30%|███████████████████████████████▋                                                                        | 3041/10000 [03:06<05:55, 19.58it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[97340] loss: 0.047 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 554.36it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 792.72it/s][A

                                                                                                                                                  [A
 30%|███████████████████████████████▋                                                                        | 3041/10000 [03:06<05:55, 19.58it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[97360] loss: 0.049 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 615.28it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1010.92it/s][A
 30%|███████████████████████████████▋                                                                        | 3043/10000 [03:06<06:19, 18.34it/s]
                                                                                                                                                  [A
 30%|███████████████████████████████▋                                                                        | 3043/10000 [03:06<06:19, 18.34it/s]
                                                                                                                                                  [A

[97380] loss: 0.046 



 30%|███████████████████████████████▋                                                                        | 3043/10000 [03:06<06:19, 18.34it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 513.40it/s][A


[97400] loss: 0.073 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 508.22it/s][A

                                                                                                                                                  [A
 30%|███████████████████████████████▋                                                                        | 3043/10000 [03:06<06:19, 18.34it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[97420] loss: 0.038 


                                                                                                                                                  
 30%|███████████████████████████████▋                                                                        | 3043/10000 [03:06<06:19, 18.34it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 494.31it/s][A


[97440] loss: 0.069 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 286.79it/s][A
 30%|███████████████████████████████▋                                                                        | 3045/10000 [03:06<06:58, 16.62it/s]
                                                                                                                                                  [A
 30%|███████████████████████████████▋                                                                        | 3045/10000 [03:06<06:58, 16.62it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 611.22it/s][A


[97460] loss: 0.072 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 995.80it/s][A

                                                                                                                                                  [A
 30%|███████████████████████████████▋                                                                        | 3045/10000 [03:06<06:58, 16.62it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[97480] loss: 0.064 


                                                                                                                                                  
 30%|███████████████████████████████▋                                                                        | 3045/10000 [03:06<06:58, 16.62it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 539.47it/s][A


[97500] loss: 0.052 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 828.75it/s][A
 30%|███████████████████████████████▋                                                                        | 3047/10000 [03:06<07:07, 16.28it/s]
                                                                                                                                                  [A
 30%|███████████████████████████████▋                                                                        | 3047/10000 [03:06<07:07, 16.28it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 616.70it/s][A


[97520] loss: 0.050 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 646.37it/s][A

                                                                                                                                                  [A
 30%|███████████████████████████████▋                                                                        | 3047/10000 [03:06<07:07, 16.28it/s]
                                                                                                                                                  [A
 30%|███████████████████████████████▋                                                                        | 3047/10000 [03:06<07:07, 16.28it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[97540] loss: 0.073 
[97560] loss: 0.081 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 590.83it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 573.54it/s][A
 30%|███████████████████████████████▋                                                                        | 3049/10000 [03:06<07:10, 16.15it/s]
                                                                                                                                                  [A
[A                                                                                                                                               

[97580] loss: 0.047 


 30%|███████████████████████████████▋                                                                        | 3049/10000 [03:06<07:10, 16.15it/s]
                                                                                                                                                  [A
 30%|███████████████████████████████▋                                                                        | 3049/10000 [03:06<07:10, 16.15it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 606.83it/s][A


[97600] loss: 0.151 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 250.60it/s][A

                                                                                                                                                  [A
 30%|███████████████████████████████▋                                                                        | 3049/10000 [03:06<07:10, 16.15it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[97620] loss: 0.030 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 649.94it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 885.81it/s][A
 31%|███████████████████████████████▋                                                                        | 3051/10000 [03:06<07:06, 16.28it/s]
                                                                                                                                                  [A
 31%|███████████████████████████████▋                                                                        | 3051/10000 [03:06<07:06, 16.28it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[97640] loss: 0.080 


                                                                                                                                                  
 31%|███████████████████████████████▋                                                                        | 3051/10000 [03:06<07:06, 16.28it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 557.21it/s][A


[97660] loss: 0.087 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 590.50it/s][A

                                                                                                                                                  [A
 31%|███████████████████████████████▋                                                                        | 3051/10000 [03:07<07:06, 16.28it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[97680] loss: 0.086 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 700.68it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 925.89it/s][A
 31%|███████████████████████████████▊                                                                        | 3053/10000 [03:07<07:02, 16.44it/s]
                                                                                                                                                  [A
 31%|███████████████████████████████▊                                                                        | 3053/10000 [03:07<07:02, 16.44it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[97700] loss: 0.042 


                                                                                                                                                  
 31%|███████████████████████████████▊                                                                        | 3053/10000 [03:07<07:02, 16.44it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 620.41it/s][A


[97720] loss: 0.048 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 750.19it/s][A

                                                                                                                                                  [A
 31%|███████████████████████████████▊                                                                        | 3053/10000 [03:07<07:02, 16.44it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[97740] loss: 0.060 


                                                                                                                                                  
 31%|███████████████████████████████▊                                                                        | 3053/10000 [03:07<07:02, 16.44it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 576.86it/s][A


[97760] loss: 0.092 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 246.65it/s][A
 31%|███████████████████████████████▊                                                                        | 3055/10000 [03:07<07:03, 16.40it/s]
                                                                                                                                                  [A
 31%|███████████████████████████████▊                                                                        | 3055/10000 [03:07<07:03, 16.40it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[97780] loss: 0.045 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 582.88it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 830.88it/s][A

                                                                                                                                                  [A
 31%|███████████████████████████████▊                                                                        | 3055/10000 [03:07<07:03, 16.40it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[97800] loss: 0.050 


                                                                                                                                                  
 31%|███████████████████████████████▊                                                                        | 3055/10000 [03:07<07:03, 16.40it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[97820] loss: 0.046 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 583.81it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 853.37it/s][A
 31%|███████████████████████████████▊                                                                        | 3057/10000 [03:07<07:06, 16.28it/s]
                                                                                                                                                  [A
 31%|███████████████████████████████▊                                                                        | 3057/10000 [03:07<07:06, 16.28it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[97840] loss: 0.052 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 562.16it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 640.74it/s][A

                                                                                                                                                  [A
 31%|███████████████████████████████▊                                                                        | 3057/10000 [03:07<07:06, 16.28it/s]
                                                                                                                                                  [A


[97860] loss: 0.051 


 31%|███████████████████████████████▊                                                                        | 3057/10000 [03:07<07:06, 16.28it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 497.49it/s][A


[97880] loss: 0.036 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 963.99it/s][A
 31%|███████████████████████████████▊                                                                        | 3059/10000 [03:07<07:19, 15.78it/s]
                                                                                                                                                  [A
 31%|███████████████████████████████▊                                                                        | 3059/10000 [03:07<07:19, 15.78it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[97900] loss: 0.075 


                                                                                                                                                  
 31%|███████████████████████████████▊                                                                        | 3059/10000 [03:07<07:19, 15.78it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 676.83it/s][A


[97920] loss: 0.042 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1875.81it/s][A

                                                                                                                                                  [A
 31%|███████████████████████████████▊                                                                        | 3059/10000 [03:07<07:19, 15.78it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 1011.73it/s][A


[97940] loss: 0.048 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 527.78it/s][A

                                                                                                                                                  [A
 31%|███████████████████████████████▊                                                                        | 3059/10000 [03:07<07:19, 15.78it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[97960] loss: 0.056 


                                                                                                                                                  
 31%|███████████████████████████████▊                                                                        | 3059/10000 [03:07<07:19, 15.78it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 551.05it/s][A


[97980] loss: 0.062 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1959.96it/s][A
 31%|███████████████████████████████▊                                                                        | 3062/10000 [03:07<06:54, 16.75it/s]
                                                                                                                                                  [A
 31%|███████████████████████████████▊                                                                        | 3062/10000 [03:07<06:54, 16.75it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 1029.28it/s][A


[98000] loss: 0.049 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 561.64it/s][A

                                                                                                                                                  [A
 31%|███████████████████████████████▊                                                                        | 3062/10000 [03:07<06:54, 16.75it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[98020] loss: 0.091 


                                                                                                                                                  
 31%|███████████████████████████████▊                                                                        | 3062/10000 [03:07<06:54, 16.75it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 865.45it/s][A


[98040] loss: 0.054 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1949.03it/s][A

                                                                                                                                                  [A
 31%|███████████████████████████████▊                                                                        | 3062/10000 [03:07<06:54, 16.75it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[98060] loss: 0.075 


                                                                                                                                                  
 31%|███████████████████████████████▊                                                                        | 3062/10000 [03:07<06:54, 16.75it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 733.00it/s][A


[98080] loss: 0.051 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1111.96it/s][A
 31%|███████████████████████████████▉                                                                        | 3065/10000 [03:07<06:19, 18.25it/s]
                                                                                                                                                  [A
 31%|███████████████████████████████▉                                                                        | 3065/10000 [03:07<06:19, 18.25it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[98100] loss: 0.095 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 734.93it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 440.53it/s][A

                                                                                                                                                  [A
 31%|███████████████████████████████▉                                                                        | 3065/10000 [03:07<06:19, 18.25it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[98120] loss: 0.031 


                                                                                                                                                  
 31%|███████████████████████████████▉                                                                        | 3065/10000 [03:07<06:19, 18.25it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[98140] loss: 0.075 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 572.65it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1698.79it/s][A
 31%|███████████████████████████████▉                                                                        | 3067/10000 [03:07<06:30, 17.75it/s]
                                                                                                                                                  [A
 31%|███████████████████████████████▉                                                                        | 3067/10000 [03:07<06:30, 17.75it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[98160] loss: 0.040 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 713.46it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 921.42it/s][A

                                                                                                                                                  [A
 31%|███████████████████████████████▉                                                                        | 3067/10000 [03:07<06:30, 17.75it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[98180] loss: 0.034 


                                                                                                                                                  
 31%|███████████████████████████████▉                                                                        | 3067/10000 [03:07<06:30, 17.75it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 779.87it/s][A


[98200] loss: 0.061 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 857.56it/s][A
 31%|███████████████████████████████▉                                                                        | 3069/10000 [03:07<06:21, 18.15it/s]
                                                                                                                                                  [A
 31%|███████████████████████████████▉                                                                        | 3069/10000 [03:07<06:21, 18.15it/s]
                                                                                                                                                  [A

[98220] loss: 0.082 



 31%|███████████████████████████████▉                                                                        | 3069/10000 [03:08<06:21, 18.15it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 614.19it/s][A


[98240] loss: 0.012 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 723.53it/s][A

                                                                                                                                                  [A
 31%|███████████████████████████████▉                                                                        | 3069/10000 [03:08<06:21, 18.15it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 631.55it/s][A


[98260] loss: 0.048 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 699.52it/s][A
 31%|███████████████████████████████▉                                                                        | 3071/10000 [03:08<06:37, 17.43it/s]
                                                                                                                                                  [A
 31%|███████████████████████████████▉                                                                        | 3071/10000 [03:08<06:37, 17.43it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[98280] loss: 0.072 


                                                                                                                                                  
 31%|███████████████████████████████▉                                                                        | 3071/10000 [03:08<06:37, 17.43it/s]


[98300] loss: 0.061 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 565.23it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1119.08it/s][A

                                                                                                                                                  [A
 31%|███████████████████████████████▉                                                                        | 3071/10000 [03:08<06:37, 17.43it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[98320] loss: 0.076 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 712.00it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1170.61it/s][A
 31%|███████████████████████████████▉                                                                        | 3073/10000 [03:08<06:41, 17.27it/s]
                                                                                                                                                  [A
 31%|███████████████████████████████▉                                                                        | 3073/10000 [03:08<06:41, 17.27it/s]
                                                                                                                                                  [A
 31%|███████████████████████████████▉                                                                       

[98340] loss: 0.056 
[98360] loss: 0.085 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 576.10it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 785.74it/s][A

                                                                                                                                                  [A
 31%|███████████████████████████████▉                                                                        | 3073/10000 [03:08<06:41, 17.27it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[98380] loss: 0.054 


                                                                                                                                                  
 31%|███████████████████████████████▉                                                                        | 3073/10000 [03:08<06:41, 17.27it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 581.10it/s][A


[98400] loss: 0.076 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 768.33it/s][A
 31%|███████████████████████████████▉                                                                        | 3075/10000 [03:08<06:56, 16.64it/s]
                                                                                                                                                  [A
 31%|███████████████████████████████▉                                                                        | 3075/10000 [03:08<06:56, 16.64it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[98420] loss: 0.064 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 648.07it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1060.51it/s][A

                                                                                                                                                  [A
 31%|███████████████████████████████▉                                                                        | 3075/10000 [03:08<06:56, 16.64it/s]

[98440] loss: 0.055 



                                                                                                                                                  [A
 31%|███████████████████████████████▉                                                                        | 3075/10000 [03:08<06:56, 16.64it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 448.03it/s][A


[98460] loss: 0.053 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 578.13it/s][A
 31%|████████████████████████████████                                                                        | 3077/10000 [03:08<07:21, 15.67it/s]
                                                                                                                                                  [A
 31%|████████████████████████████████                                                                        | 3077/10000 [03:08<07:21, 15.67it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[98480] loss: 0.054 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 541.82it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 484.61it/s][A

                                                                                                                                                  [A
 31%|████████████████████████████████                                                                        | 3077/10000 [03:08<07:21, 15.67it/s]
                                                                                                                                                  [A

[98500] loss: 0.075 



 31%|████████████████████████████████                                                                        | 3077/10000 [03:08<07:21, 15.67it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 383.34it/s][A


[98520] loss: 0.057 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 637.53it/s][A
 31%|████████████████████████████████                                                                        | 3079/10000 [03:08<08:04, 14.29it/s]
                                                                                                                                                  [A
 31%|████████████████████████████████                                                                        | 3079/10000 [03:08<08:04, 14.29it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[98540] loss: 0.048 


                                                                                                                                                  
 31%|████████████████████████████████                                                                        | 3079/10000 [03:08<08:04, 14.29it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 413.78it/s][A


[98560] loss: 0.060 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 425.04it/s][A

                                                                                                                                                  [A
 31%|████████████████████████████████                                                                        | 3079/10000 [03:08<08:04, 14.29it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 420.41it/s][A


[98580] loss: 0.072 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 579.40it/s][A
 31%|████████████████████████████████                                                                        | 3081/10000 [03:08<08:45, 13.18it/s]
                                                                                                                                                  [A
 31%|████████████████████████████████                                                                        | 3081/10000 [03:08<08:45, 13.18it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[98600] loss: 0.057 


                                                                                                                                                  
 31%|████████████████████████████████                                                                        | 3081/10000 [03:08<08:45, 13.18it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 388.81it/s][A


[98620] loss: 0.064 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 738.69it/s][A

                                                                                                                                                  [A
 31%|████████████████████████████████                                                                        | 3081/10000 [03:08<08:45, 13.18it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 540.69it/s][A


[98640] loss: 0.040 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1041.29it/s][A
 31%|████████████████████████████████                                                                        | 3083/10000 [03:08<08:58, 12.85it/s]
                                                                                                                                                  [A
 31%|████████████████████████████████                                                                        | 3083/10000 [03:09<08:58, 12.85it/s]
                                                                                                                                                  [A
 31%|████████████████████████████████                                                                        | 3083/10000 [03:09<08:58, 12.85it/s]
Training Epoch:   0%|                                                                                       

[98660] loss: 0.049 
[98680] loss: 0.063 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 499.86it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 896.79it/s][A

                                                                                                                                                  [A
 31%|████████████████████████████████                                                                        | 3083/10000 [03:09<08:58, 12.85it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[98700] loss: 0.067 


                                                                                                                                                  
 31%|████████████████████████████████                                                                        | 3083/10000 [03:09<08:58, 12.85it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 507.64it/s][A


[98720] loss: 0.060 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 672.49it/s][A
 31%|████████████████████████████████                                                                        | 3085/10000 [03:09<08:48, 13.09it/s]
                                                                                                                                                  [A
 31%|████████████████████████████████                                                                        | 3085/10000 [03:09<08:48, 13.09it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 518.59it/s][A


[98740] loss: 0.075 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 500.33it/s][A

                                                                                                                                                  [A
 31%|████████████████████████████████                                                                        | 3085/10000 [03:09<08:48, 13.09it/s]
                                                                                                                                                  [A
 31%|████████████████████████████████                                                                        | 3085/10000 [03:09<08:48, 13.09it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 525.51it/s][A


[98760] loss: 0.056 
[98780] loss: 0.079 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 497.72it/s][A
 31%|████████████████████████████████                                                                        | 3087/10000 [03:09<08:43, 13.21it/s]
                                                                                                                                                  [A
 31%|████████████████████████████████                                                                        | 3087/10000 [03:09<08:43, 13.21it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[98800] loss: 0.117 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 561.37it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 784.86it/s][A

                                                                                                                                                  [A
 31%|████████████████████████████████                                                                        | 3087/10000 [03:09<08:43, 13.21it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[98820] loss: 0.038 


                                                                                                                                                  
 31%|████████████████████████████████                                                                        | 3087/10000 [03:09<08:43, 13.21it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 510.65it/s][A


[98840] loss: 0.045 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 620.55it/s][A
 31%|████████████████████████████████▏                                                                       | 3089/10000 [03:09<08:32, 13.50it/s]
                                                                                                                                                  [A
 31%|████████████████████████████████▏                                                                       | 3089/10000 [03:09<08:32, 13.50it/s]
                                                                                                                                                  [A
 31%|████████████████████████████████▏                                                                       | 3089/10000 [03:09<08:32, 13.50it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[98860] loss: 0.048 
[98880] loss: 0.101 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 686.47it/s][A

                                                                                                                                                  [A
 31%|████████████████████████████████▏                                                                       | 3089/10000 [03:09<08:32, 13.50it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 577.90it/s][A


[98900] loss: 0.071 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1315.24it/s][A
 31%|████████████████████████████████▏                                                                       | 3091/10000 [03:09<08:18, 13.86it/s]
                                                                                                                                                  [A
 31%|████████████████████████████████▏                                                                       | 3091/10000 [03:09<08:18, 13.86it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[98920] loss: 0.026 


                                                                                                                                                  
 31%|████████████████████████████████▏                                                                       | 3091/10000 [03:09<08:18, 13.86it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 527.07it/s][A


[98940] loss: 0.083 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 686.92it/s][A

                                                                                                                                                  [A
 31%|████████████████████████████████▏                                                                       | 3091/10000 [03:09<08:18, 13.86it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 704.76it/s][A


[98960] loss: 0.043 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1602.10it/s][A
 31%|████████████████████████████████▏                                                                       | 3093/10000 [03:09<07:59, 14.42it/s]
                                                                                                                                                  [A
 31%|████████████████████████████████▏                                                                       | 3093/10000 [03:09<07:59, 14.42it/s]
                                                                                                                                                  [A
 31%|████████████████████████████████▏                                                                       | 3093/10000 [03:09<07:59, 14.42it/s]
Training Epoch:   0%|                                                                                       

[98980] loss: 0.041 
[99000] loss: 0.095 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 637.99it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 899.10it/s][A

                                                                                                                                                  [A
 31%|████████████████████████████████▏                                                                       | 3093/10000 [03:09<07:59, 14.42it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[99020] loss: 0.038 


                                                                                                                                                  
 31%|████████████████████████████████▏                                                                       | 3093/10000 [03:09<07:59, 14.42it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 656.11it/s][A


[99040] loss: 0.012 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1267.93it/s][A
 31%|████████████████████████████████▏                                                                       | 3095/10000 [03:09<07:37, 15.09it/s]
                                                                                                                                                  [A
 31%|████████████████████████████████▏                                                                       | 3095/10000 [03:09<07:37, 15.09it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 925.42it/s][A


[99060] loss: 0.085 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1035.63it/s][A

                                                                                                                                                  [A
 31%|████████████████████████████████▏                                                                       | 3095/10000 [03:09<07:37, 15.09it/s]
                                                                                                                                                  [A
 31%|████████████████████████████████▏                                                                       | 3095/10000 [03:09<07:37, 15.09it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[99080] loss: 0.078 
[99100] loss: 0.077 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 658.63it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1165.73it/s][A
 31%|████████████████████████████████▏                                                                       | 3097/10000 [03:09<07:07, 16.15it/s]
                                                                                                                                                  [A
 31%|████████████████████████████████▏                                                                       | 3097/10000 [03:09<07:07, 16.15it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 810.09it/s][A


[99120] loss: 0.058 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 554.29it/s][A

                                                                                                                                                  [A
 31%|████████████████████████████████▏                                                                       | 3097/10000 [03:09<07:07, 16.15it/s]
                                                                                                                                                  [A

[99140] loss: 0.076 



 31%|████████████████████████████████▏                                                                       | 3097/10000 [03:10<07:07, 16.15it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 645.87it/s][A


[99160] loss: 0.049 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 622.49it/s][A
 31%|████████████████████████████████▏                                                                       | 3099/10000 [03:10<06:50, 16.81it/s]
                                                                                                                                                  [A
 31%|████████████████████████████████▏                                                                       | 3099/10000 [03:10<06:50, 16.81it/s]
                                                                                                                                                  [A
 31%|████████████████████████████████▏                                                                       | 3099/10000 [03:10<06:50, 16.81it/s]


[99180] loss: 0.058 
[99200] loss: 0.125 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 655.71it/s][A

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 904.33it/s][A

                                                                                                                                                  [A
 31%|████████████████████████████████▏                                                                       | 3099/10000 [03:10<06:50, 16.81it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 779.74it/s][A


[99220] loss: 0.053 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1360.02it/s][A
 31%|████████████████████████████████▎                                                                       | 3101/10000 [03:10<06:40, 17.21it/s]
                                                                                                                                                  [A
 31%|████████████████████████████████▎                                                                       | 3101/10000 [03:10<06:40, 17.21it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[99240] loss: 0.059 


                                                                                                                                                  
 31%|████████████████████████████████▎                                                                       | 3101/10000 [03:10<06:40, 17.21it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 634.75it/s][A


[99260] loss: 0.036 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 805.82it/s][A

                                                                                                                                                  [A
 31%|████████████████████████████████▎                                                                       | 3101/10000 [03:10<06:40, 17.21it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 726.66it/s][A


[99280] loss: 0.046 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 635.40it/s][A
 31%|████████████████████████████████▎                                                                       | 3103/10000 [03:10<06:37, 17.36it/s]
                                                                                                                                                  [A
 31%|████████████████████████████████▎                                                                       | 3103/10000 [03:10<06:37, 17.36it/s]
                                                                                                                                                  [A
 31%|████████████████████████████████▎                                                                       | 3103/10000 [03:10<06:37, 17.36it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[99300] loss: 0.032 
[99320] loss: 0.100 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1431.01it/s][A

                                                                                                                                                  [A
 31%|████████████████████████████████▎                                                                       | 3103/10000 [03:10<06:37, 17.36it/s]
                                                                                                                                                  [A

[99340] loss: 0.069 



 31%|████████████████████████████████▎                                                                       | 3103/10000 [03:10<06:37, 17.36it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 710.18it/s][A


[99360] loss: 0.090 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 329.38it/s][A
 31%|████████████████████████████████▎                                                                       | 3105/10000 [03:10<06:34, 17.47it/s]
                                                                                                                                                  [A
 31%|████████████████████████████████▎                                                                       | 3105/10000 [03:10<06:34, 17.47it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 805.06it/s][A


[99380] loss: 0.063 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1383.80it/s][A

                                                                                                                                                  [A
 31%|████████████████████████████████▎                                                                       | 3105/10000 [03:10<06:34, 17.47it/s]
                                                                                                                                                  [A
 31%|████████████████████████████████▎                                                                       | 3105/10000 [03:10<06:34, 17.47it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[99400] loss: 0.035 
[99420] loss: 0.070 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 634.40it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1457.37it/s][A
 31%|████████████████████████████████▎                                                                       | 3107/10000 [03:10<06:26, 17.82it/s]
                                                                                                                                                  [A
 31%|████████████████████████████████▎                                                                       | 3107/10000 [03:10<06:26, 17.82it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 713.52it/s][A


[99440] loss: 0.042 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 808.46it/s][A

                                                                                                                                                  [A
 31%|████████████████████████████████▎                                                                       | 3107/10000 [03:10<06:26, 17.82it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[99460] loss: 0.071 


                                                                                                                                                  
 31%|████████████████████████████████▎                                                                       | 3107/10000 [03:10<06:26, 17.82it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 585.12it/s][A


[99480] loss: 0.086 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1524.65it/s][A
 31%|████████████████████████████████▎                                                                       | 3109/10000 [03:10<06:34, 17.45it/s]
                                                                                                                                                  [A
 31%|████████████████████████████████▎                                                                       | 3109/10000 [03:10<06:34, 17.45it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[99500] loss: 0.082 


                                                                                                                                                  
 31%|████████████████████████████████▎                                                                       | 3109/10000 [03:10<06:34, 17.45it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 592.06it/s][A


[99520] loss: 0.051 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1040.51it/s][A

                                                                                                                                                  [A
 31%|████████████████████████████████▎                                                                       | 3109/10000 [03:10<06:34, 17.45it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[99540] loss: 0.074 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 847.97it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 949.80it/s][A
 31%|████████████████████████████████▎                                                                       | 3111/10000 [03:10<06:29, 17.69it/s]
                                                                                                                                                  [A
 31%|████████████████████████████████▎                                                                       | 3111/10000 [03:10<06:29, 17.69it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[99560] loss: 0.072 


                                                                                                                                                  
 31%|████████████████████████████████▎                                                                       | 3111/10000 [03:10<06:29, 17.69it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 626.57it/s][A


[99580] loss: 0.068 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 898.14it/s][A

                                                                                                                                                  [A
 31%|████████████████████████████████▎                                                                       | 3111/10000 [03:10<06:29, 17.69it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[99600] loss: 0.040 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 524.56it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 770.30it/s][A
 31%|████████████████████████████████▍                                                                       | 3113/10000 [03:10<06:46, 16.94it/s]
                                                                                                                                                  [A
 31%|████████████████████████████████▍                                                                       | 3113/10000 [03:10<06:46, 16.94it/s]

[99620] loss: 0.049 



                                                                                                                                                  [A
 31%|████████████████████████████████▍                                                                       | 3113/10000 [03:10<06:46, 16.94it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 499.38it/s][A


[99640] loss: 0.061 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 627.23it/s][A

                                                                                                                                                  [A
 31%|████████████████████████████████▍                                                                       | 3113/10000 [03:10<06:46, 16.94it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[99660] loss: 0.041 


                                                                                                                                                  
 31%|████████████████████████████████▍                                                                       | 3113/10000 [03:10<06:46, 16.94it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 481.34it/s][A


[99680] loss: 0.045 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 600.39it/s][A
 31%|████████████████████████████████▍                                                                       | 3115/10000 [03:10<07:18, 15.70it/s]
                                                                                                                                                  [A
 31%|████████████████████████████████▍                                                                       | 3115/10000 [03:11<07:18, 15.70it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 592.28it/s][A


[99700] loss: 0.061 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 323.21it/s][A

                                                                                                                                                  [A
 31%|████████████████████████████████▍                                                                       | 3115/10000 [03:11<07:18, 15.70it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[99720] loss: 0.060 


                                                                                                                                                  
 31%|████████████████████████████████▍                                                                       | 3115/10000 [03:11<07:18, 15.70it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 464.88it/s][A


[99740] loss: 0.073 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 509.70it/s][A
 31%|████████████████████████████████▍                                                                       | 3117/10000 [03:11<07:36, 15.07it/s]
                                                                                                                                                  [A
 31%|████████████████████████████████▍                                                                       | 3117/10000 [03:11<07:36, 15.07it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[99760] loss: 0.044 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 519.08it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 955.42it/s][A

                                                                                                                                                  [A
 31%|████████████████████████████████▍                                                                       | 3117/10000 [03:11<07:36, 15.07it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[99780] loss: 0.058 


                                                                                                                                                  
 31%|████████████████████████████████▍                                                                       | 3117/10000 [03:11<07:36, 15.07it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 505.95it/s][A


[99800] loss: 0.074 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 526.79it/s][A
 31%|████████████████████████████████▍                                                                       | 3119/10000 [03:11<07:46, 14.76it/s]
                                                                                                                                                  [A
 31%|████████████████████████████████▍                                                                       | 3119/10000 [03:11<07:46, 14.76it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[99820] loss: 0.053 


                                                                                                                                                  
 31%|████████████████████████████████▍                                                                       | 3119/10000 [03:11<07:46, 14.76it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 515.13it/s][A


[99840] loss: 0.064 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 560.44it/s][A

                                                                                                                                                  [A
 31%|████████████████████████████████▍                                                                       | 3119/10000 [03:11<07:46, 14.76it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 593.39it/s][A


[99860] loss: 0.101 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 674.65it/s][A
 31%|████████████████████████████████▍                                                                       | 3121/10000 [03:11<07:44, 14.81it/s]
                                                                                                                                                  [A
 31%|████████████████████████████████▍                                                                       | 3121/10000 [03:11<07:44, 14.81it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[99880] loss: 0.068 


                                                                                                                                                  
 31%|████████████████████████████████▍                                                                       | 3121/10000 [03:11<07:44, 14.81it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 531.03it/s][A


[99900] loss: 0.109 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 769.46it/s][A

                                                                                                                                                  [A
 31%|████████████████████████████████▍                                                                       | 3121/10000 [03:11<07:44, 14.81it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 574.59it/s][A


[99920] loss: 0.071 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 553.70it/s][A
 31%|████████████████████████████████▍                                                                       | 3123/10000 [03:11<07:41, 14.90it/s]
                                                                                                                                                  [A
 31%|████████████████████████████████▍                                                                       | 3123/10000 [03:11<07:41, 14.90it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[99940] loss: 0.073 


                                                                                                                                                  
 31%|████████████████████████████████▍                                                                       | 3123/10000 [03:11<07:41, 14.90it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 461.74it/s][A


[99960] loss: 0.077 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 640.45it/s][A

                                                                                                                                                  [A
 31%|████████████████████████████████▍                                                                       | 3123/10000 [03:11<07:41, 14.90it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[99980] loss: 0.069 


                                                                                                                                                  
 31%|████████████████████████████████▍                                                                       | 3123/10000 [03:11<07:41, 14.90it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 485.28it/s][A


[100000] loss: 0.175 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 713.32it/s][A
 31%|████████████████████████████████▌                                                                       | 3125/10000 [03:11<08:00, 14.30it/s]
                                                                                                                                                  [A
 31%|████████████████████████████████▌                                                                       | 3125/10000 [03:11<08:00, 14.30it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[100020] loss: 0.052 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 555.78it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 846.48it/s][A

                                                                                                                                                  [A
 31%|████████████████████████████████▌                                                                       | 3125/10000 [03:11<08:00, 14.30it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[100040] loss: 0.121 


                                                                                                                                                  
 31%|████████████████████████████████▌                                                                       | 3125/10000 [03:11<08:00, 14.30it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 494.11it/s][A


[100060] loss: 0.092 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 607.52it/s][A
 31%|████████████████████████████████▌                                                                       | 3127/10000 [03:11<08:04, 14.20it/s]
                                                                                                                                                  [A
 31%|████████████████████████████████▌                                                                       | 3127/10000 [03:11<08:04, 14.20it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[100080] loss: 0.051 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 592.62it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 759.84it/s][A

                                                                                                                                                  [A
 31%|████████████████████████████████▌                                                                       | 3127/10000 [03:11<08:04, 14.20it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[100100] loss: 0.079 


                                                                                                                                                  
 31%|████████████████████████████████▌                                                                       | 3127/10000 [03:11<08:04, 14.20it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 586.02it/s][A


[100120] loss: 0.076 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1746.17it/s][A
 31%|████████████████████████████████▌                                                                       | 3129/10000 [03:11<07:50, 14.61it/s]
                                                                                                                                                  [A
 31%|████████████████████████████████▌                                                                       | 3129/10000 [03:11<07:50, 14.61it/s]
                                                                                                                                                  [A
 31%|████████████████████████████████▌                                                                       | 3129/10000 [03:12<07:50, 14.61it/s]

[100140] loss: 0.055 
[100160] loss: 0.120 



Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 560.94it/s][A

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 727.42it/s][A

                                                                                                                                                  [A
 31%|████████████████████████████████▌                                                                       | 3129/10000 [03:12<07:50, 14.61it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[100180] loss: 0.052 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 693.41it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1871.62it/s][A
 31%|████████████████████████████████▌                                                                       | 3131/10000 [03:12<07:34, 15.13it/s]
                                                                                                                                                  [A
 31%|████████████████████████████████▌                                                                       | 3131/10000 [03:12<07:34, 15.13it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[100200] loss: 0.041 


                                                                                                                                                  
 31%|████████████████████████████████▌                                                                       | 3131/10000 [03:12<07:34, 15.13it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 644.71it/s][A


[100220] loss: 0.064 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1340.03it/s][A

                                                                                                                                                  [A
 31%|████████████████████████████████▌                                                                       | 3131/10000 [03:12<07:34, 15.13it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[100240] loss: 0.081 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 711.57it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 985.27it/s][A
 31%|████████████████████████████████▌                                                                       | 3133/10000 [03:12<07:12, 15.86it/s]
                                                                                                                                                  [A
 31%|████████████████████████████████▌                                                                       | 3133/10000 [03:12<07:12, 15.86it/s]
                                                                                                                                                  [A
 31%|████████████████████████████████▌                                                                      

[100260] loss: 0.043 
[100280] loss: 0.037 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 699.63it/s][A

                                                                                                                                                  [A
 31%|████████████████████████████████▌                                                                       | 3133/10000 [03:12<07:12, 15.86it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[100300] loss: 0.059 


                                                                                                                                                  
 31%|████████████████████████████████▌                                                                       | 3133/10000 [03:12<07:12, 15.86it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 576.24it/s][A


[100320] loss: 0.031 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1190.55it/s][A
 31%|████████████████████████████████▌                                                                       | 3135/10000 [03:12<07:15, 15.77it/s]
                                                                                                                                                  [A
 31%|████████████████████████████████▌                                                                       | 3135/10000 [03:12<07:15, 15.77it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[100340] loss: 0.074 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 710.21it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1869.95it/s][A

                                                                                                                                                  [A
 31%|████████████████████████████████▌                                                                       | 3135/10000 [03:12<07:15, 15.77it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[100360] loss: 0.058 


                                                                                                                                                  
 31%|████████████████████████████████▌                                                                       | 3135/10000 [03:12<07:15, 15.77it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 622.02it/s][A


[100380] loss: 0.060 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1421.32it/s][A
 31%|████████████████████████████████▌                                                                       | 3137/10000 [03:12<07:03, 16.22it/s]
                                                                                                                                                  [A
 31%|████████████████████████████████▌                                                                       | 3137/10000 [03:12<07:03, 16.22it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[100400] loss: 0.062 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 753.54it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2348.43it/s][A

                                                                                                                                                  [A
 31%|████████████████████████████████▌                                                                       | 3137/10000 [03:12<07:03, 16.22it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[100420] loss: 0.035 


                                                                                                                                                  
 31%|████████████████████████████████▌                                                                       | 3137/10000 [03:12<07:03, 16.22it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 615.40it/s][A


[100440] loss: 0.088 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1869.12it/s][A
 31%|████████████████████████████████▋                                                                       | 3139/10000 [03:12<06:53, 16.61it/s]
                                                                                                                                                  [A
 31%|████████████████████████████████▋                                                                       | 3139/10000 [03:12<06:53, 16.61it/s]
                                                                                                                                                  [A
 31%|████████████████████████████████▋                                                                       | 3139/10000 [03:12<06:53, 16.61it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[100460] loss: 0.063 
[100480] loss: 0.038 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1931.97it/s][A

                                                                                                                                                  [A
 31%|████████████████████████████████▋                                                                       | 3139/10000 [03:12<06:53, 16.61it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[100500] loss: 0.062 


Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 1033.66it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2099.25it/s][A

                                                                                                                                                  [A
 31%|████████████████████████████████▋                                                                       | 3139/10000 [03:12<06:53, 16.61it/s]
                                                                                                                                                  [A

[100520] loss: 0.068 



 31%|████████████████████████████████▋                                                                       | 3139/10000 [03:12<06:53, 16.61it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 922.43it/s][A


[100540] loss: 0.044 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2087.76it/s][A
 31%|████████████████████████████████▋                                                                       | 3142/10000 [03:12<05:58, 19.14it/s]
                                                                                                                                                  [A
 31%|████████████████████████████████▋                                                                       | 3142/10000 [03:12<05:58, 19.14it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[100560] loss: 0.059 


Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 1013.26it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2108.75it/s][A

                                                                                                                                                  [A
 31%|████████████████████████████████▋                                                                       | 3142/10000 [03:12<05:58, 19.14it/s]
                                                                                                                                                  [A
 31%|████████████████████████████████▋                                                                       | 3142/10000 [03:12<05:58, 19.14it/s]


[100580] loss: 0.037 
[100600] loss: 0.044 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 923.29it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1958.13it/s][A

                                                                                                                                                  [A
 31%|████████████████████████████████▋                                                                       | 3142/10000 [03:12<05:58, 19.14it/s]


[100620] loss: 0.058 


                                                                                                                                                  [A
 31%|████████████████████████████████▋                                                                       | 3142/10000 [03:12<05:58, 19.14it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 748.08it/s][A


[100640] loss: 0.081 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1972.86it/s][A
 31%|████████████████████████████████▋                                                                       | 3145/10000 [03:12<05:34, 20.50it/s]
                                                                                                                                                  [A
 31%|████████████████████████████████▋                                                                       | 3145/10000 [03:12<05:34, 20.50it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 890.72it/s][A


[100660] loss: 0.075 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1748.36it/s][A

                                                                                                                                                  [A
 31%|████████████████████████████████▋                                                                       | 3145/10000 [03:12<05:34, 20.50it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[100680] loss: 0.094 


                                                                                                                                                  
 31%|████████████████████████████████▋                                                                       | 3145/10000 [03:12<05:34, 20.50it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 554.18it/s][A


[100700] loss: 0.088 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1181.49it/s][A

                                                                                                                                                  [A
 31%|████████████████████████████████▋                                                                       | 3145/10000 [03:12<05:34, 20.50it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[100720] loss: 0.064 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 649.26it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 957.17it/s][A
 31%|████████████████████████████████▋                                                                       | 3148/10000 [03:12<05:55, 19.26it/s]
                                                                                                                                                  [A
 31%|████████████████████████████████▋                                                                       | 3148/10000 [03:12<05:55, 19.26it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[100740] loss: 0.093 


                                                                                                                                                  
 31%|████████████████████████████████▋                                                                       | 3148/10000 [03:13<05:55, 19.26it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[100760] loss: 0.064 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 566.11it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1408.90it/s][A

                                                                                                                                                  [A
 31%|████████████████████████████████▋                                                                       | 3148/10000 [03:13<05:55, 19.26it/s]
                                                                                                                                                  [A
 31%|████████████████████████████████▋                                                                       | 3148/10000 [03:13<05:55, 19.26it/s]
Training Epoch: 100%|██████████████████████████████████████████████████████████████████████████████████████

[100780] loss: 0.101 
[100800] loss: 0.049 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 676.94it/s][A
 32%|████████████████████████████████▊                                                                       | 3150/10000 [03:13<06:12, 18.39it/s]
                                                                                                                                                  [A
 32%|████████████████████████████████▊                                                                       | 3150/10000 [03:13<06:12, 18.39it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[100820] loss: 0.063 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 602.03it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1000.31it/s][A

                                                                                                                                                  [A
 32%|████████████████████████████████▊                                                                       | 3150/10000 [03:13<06:12, 18.39it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[100840] loss: 0.057 


                                                                                                                                                  
 32%|████████████████████████████████▊                                                                       | 3150/10000 [03:13<06:12, 18.39it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 568.08it/s][A


[100860] loss: 0.045 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 773.57it/s][A
 32%|████████████████████████████████▊                                                                       | 3152/10000 [03:13<06:26, 17.73it/s]
                                                                                                                                                  [A
 32%|████████████████████████████████▊                                                                       | 3152/10000 [03:13<06:26, 17.73it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[100880] loss: 0.042 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 585.22it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 991.56it/s][A

                                                                                                                                                  [A
 32%|████████████████████████████████▊                                                                       | 3152/10000 [03:13<06:26, 17.73it/s]
                                                                                                                                                  [A
 32%|████████████████████████████████▊                                                                       | 3152/10000 [03:13<06:26, 17.73it/s]
Training Epoch:   0%|                                                                                      

[100900] loss: 0.054 
[100920] loss: 0.034 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 546.32it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 974.51it/s][A
 32%|████████████████████████████████▊                                                                       | 3154/10000 [03:13<06:41, 17.05it/s]
                                                                                                                                                  [A
 32%|████████████████████████████████▊                                                                       | 3154/10000 [03:13<06:41, 17.05it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[100940] loss: 0.049 


                                                                                                                                                  
 32%|████████████████████████████████▊                                                                       | 3154/10000 [03:13<06:41, 17.05it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 505.78it/s][A


[100960] loss: 0.074 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 803.66it/s][A

                                                                                                                                                  [A
[A                                                                                                                                               

[100980] loss: 0.103 


 32%|████████████████████████████████▊                                                                       | 3154/10000 [03:13<06:41, 17.05it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 621.41it/s][A

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 355.42it/s][A
 32%|████████████████████████████████▊                                                                       | 3156/10000 [03:13<06:55, 16.49it/s]
                                                                                                                                                  [A
 32%|████████████████████████████████▊                                                                       | 3156/10000 [03:13<06:55, 16.49it/s]
                                                                                                            

[101000] loss: 0.061 
[101020] loss: 0.030 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 829.90it/s][A

                                                                                                                                                  [A
 32%|████████████████████████████████▊                                                                       | 3156/10000 [03:13<06:55, 16.49it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 619.07it/s][A


[101040] loss: 0.085 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 643.10it/s][A
 32%|████████████████████████████████▊                                                                       | 3158/10000 [03:13<07:06, 16.05it/s]
                                                                                                                                                  [A
 32%|████████████████████████████████▊                                                                       | 3158/10000 [03:13<07:06, 16.05it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[101060] loss: 0.048 


                                                                                                                                                  
 32%|████████████████████████████████▊                                                                       | 3158/10000 [03:13<07:06, 16.05it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 497.98it/s][A


[101080] loss: 0.063 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 419.64it/s][A

                                                                                                                                                  [A
 32%|████████████████████████████████▊                                                                       | 3158/10000 [03:13<07:06, 16.05it/s]
                                                                                                                                                  [A
 32%|████████████████████████████████▊                                                                       | 3158/10000 [03:13<07:06, 16.05it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 486.14it/s][A


[101100] loss: 0.088 
[101120] loss: 0.021 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 689.51it/s][A
 32%|████████████████████████████████▊                                                                       | 3160/10000 [03:13<07:29, 15.21it/s]
                                                                                                                                                  [A
 32%|████████████████████████████████▊                                                                       | 3160/10000 [03:13<07:29, 15.21it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 653.14it/s][A


[101140] loss: 0.084 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 701.27it/s][A

                                                                                                                                                  [A
 32%|████████████████████████████████▊                                                                       | 3160/10000 [03:13<07:29, 15.21it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[101160] loss: 0.066 


                                                                                                                                                  
 32%|████████████████████████████████▊                                                                       | 3160/10000 [03:13<07:29, 15.21it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 540.89it/s][A


[101180] loss: 0.055 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 510.19it/s][A
 32%|████████████████████████████████▉                                                                       | 3162/10000 [03:13<07:26, 15.32it/s]
                                                                                                                                                  [A
 32%|████████████████████████████████▉                                                                       | 3162/10000 [03:13<07:26, 15.32it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 545.75it/s][A


[101200] loss: 0.073 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 672.27it/s][A

                                                                                                                                                  [A
 32%|████████████████████████████████▉                                                                       | 3162/10000 [03:13<07:26, 15.32it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[101220] loss: 0.058 


                                                                                                                                                  
 32%|████████████████████████████████▉                                                                       | 3162/10000 [03:14<07:26, 15.32it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 503.90it/s][A


[101240] loss: 0.067 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 676.61it/s][A
 32%|████████████████████████████████▉                                                                       | 3164/10000 [03:14<07:40, 14.84it/s]
                                                                                                                                                  [A
 32%|████████████████████████████████▉                                                                       | 3164/10000 [03:14<07:40, 14.84it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[101260] loss: 0.065 


                                                                                                                                                  
 32%|████████████████████████████████▉                                                                       | 3164/10000 [03:14<07:40, 14.84it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 528.55it/s][A


[101280] loss: 0.016 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 843.08it/s][A

                                                                                                                                                  [A
 32%|████████████████████████████████▉                                                                       | 3164/10000 [03:14<07:40, 14.84it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 619.58it/s][A


[101300] loss: 0.043 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 889.19it/s][A
 32%|████████████████████████████████▉                                                                       | 3166/10000 [03:14<07:32, 15.11it/s]
                                                                                                                                                  [A
 32%|████████████████████████████████▉                                                                       | 3166/10000 [03:14<07:32, 15.11it/s]

[101320] loss: 0.047 



                                                                                                                                                  [A
 32%|████████████████████████████████▉                                                                       | 3166/10000 [03:14<07:32, 15.11it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 751.17it/s][A


[101340] loss: 0.053 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1279.53it/s][A

                                                                                                                                                  [A
 32%|████████████████████████████████▉                                                                       | 3166/10000 [03:14<07:32, 15.11it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 747.25it/s][A


[101360] loss: 0.060 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 601.08it/s][A
 32%|████████████████████████████████▉                                                                       | 3168/10000 [03:14<07:03, 16.13it/s]
                                                                                                                                                  [A
 32%|████████████████████████████████▉                                                                       | 3168/10000 [03:14<07:03, 16.13it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[101380] loss: 0.089 


                                                                                                                                                  
 32%|████████████████████████████████▉                                                                       | 3168/10000 [03:14<07:03, 16.13it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 685.20it/s][A


[101400] loss: 0.071 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 743.01it/s][A

                                                                                                                                                  [A
 32%|████████████████████████████████▉                                                                       | 3168/10000 [03:14<07:03, 16.13it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[101420] loss: 0.033 


                                                                                                                                                  
 32%|████████████████████████████████▉                                                                       | 3168/10000 [03:14<07:03, 16.13it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 731.26it/s][A


[101440] loss: 0.026 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 878.57it/s][A
 32%|████████████████████████████████▉                                                                       | 3170/10000 [03:14<06:44, 16.89it/s]
                                                                                                                                                  [A
 32%|████████████████████████████████▉                                                                       | 3170/10000 [03:14<06:44, 16.89it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[101460] loss: 0.070 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 847.24it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1485.24it/s][A

                                                                                                                                                  [A
 32%|████████████████████████████████▉                                                                       | 3170/10000 [03:14<06:44, 16.89it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[101480] loss: 0.066 


                                                                                                                                                  
 32%|████████████████████████████████▉                                                                       | 3170/10000 [03:14<06:44, 16.89it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 705.91it/s][A


[101500] loss: 0.063 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1032.83it/s][A

                                                                                                                                                  [A
 32%|████████████████████████████████▉                                                                       | 3170/10000 [03:14<06:44, 16.89it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[101520] loss: 0.057 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 877.02it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 509.45it/s][A
 32%|████████████████████████████████▉                                                                       | 3173/10000 [03:14<06:16, 18.16it/s]
                                                                                                                                                  [A
 32%|████████████████████████████████▉                                                                       | 3173/10000 [03:14<06:16, 18.16it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[101540] loss: 0.060 


                                                                                                                                                  
 32%|████████████████████████████████▉                                                                       | 3173/10000 [03:14<06:16, 18.16it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[101560] loss: 0.062 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 617.16it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1089.43it/s][A

                                                                                                                                                  [A
 32%|████████████████████████████████▉                                                                       | 3173/10000 [03:14<06:16, 18.16it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[101580] loss: 0.076 


                                                                                                                                                  
 32%|████████████████████████████████▉                                                                       | 3173/10000 [03:14<06:16, 18.16it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 747.32it/s][A


[101600] loss: 0.075 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 919.00it/s][A
 32%|█████████████████████████████████                                                                       | 3175/10000 [03:14<06:17, 18.06it/s]
                                                                                                                                                  [A
 32%|█████████████████████████████████                                                                       | 3175/10000 [03:14<06:17, 18.06it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[101620] loss: 0.106 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 763.39it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 570.03it/s][A

                                                                                                                                                  [A
 32%|█████████████████████████████████                                                                       | 3175/10000 [03:14<06:17, 18.06it/s]
                                                                                                                                                  [A
 32%|█████████████████████████████████                                                                       | 3175/10000 [03:14<06:17, 18.06it/s]
Training Epoch:   0%|                                                                                      

[101640] loss: 0.059 
[101660] loss: 0.045 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 628.51it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1387.92it/s][A
 32%|█████████████████████████████████                                                                       | 3177/10000 [03:14<06:18, 18.01it/s]
                                                                                                                                                  [A
 32%|█████████████████████████████████                                                                       | 3177/10000 [03:14<06:18, 18.01it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 703.93it/s][A


[101680] loss: 0.070 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 560.36it/s][A

                                                                                                                                                  [A
 32%|█████████████████████████████████                                                                       | 3177/10000 [03:14<06:18, 18.01it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[101700] loss: 0.045 


                                                                                                                                                  
 32%|█████████████████████████████████                                                                       | 3177/10000 [03:14<06:18, 18.01it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 645.83it/s][A


[101720] loss: 0.047 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1259.93it/s][A
 32%|█████████████████████████████████                                                                       | 3179/10000 [03:14<06:24, 17.76it/s]
                                                                                                                                                  [A
 32%|█████████████████████████████████                                                                       | 3179/10000 [03:14<06:24, 17.76it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[101740] loss: 0.060 


                                                                                                                                                  
 32%|█████████████████████████████████                                                                       | 3179/10000 [03:14<06:24, 17.76it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 676.17it/s][A


[101760] loss: 0.132 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 246.93it/s][A

                                                                                                                                                  [A
 32%|█████████████████████████████████                                                                       | 3179/10000 [03:14<06:24, 17.76it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 751.77it/s][A


[101780] loss: 0.077 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1066.98it/s][A
 32%|█████████████████████████████████                                                                       | 3181/10000 [03:14<06:21, 17.89it/s]
                                                                                                                                                  [A
 32%|█████████████████████████████████                                                                       | 3181/10000 [03:14<06:21, 17.89it/s]
                                                                                                                                                  [A

[101800] loss: 0.076 



 32%|█████████████████████████████████                                                                       | 3181/10000 [03:15<06:21, 17.89it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 703.78it/s][A


[101820] loss: 0.051 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1365.78it/s][A

                                                                                                                                                  [A
 32%|█████████████████████████████████                                                                       | 3181/10000 [03:15<06:21, 17.89it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 820.14it/s][A


[101840] loss: 0.058 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2021.35it/s][A

                                                                                                                                                  [A
 32%|█████████████████████████████████                                                                       | 3181/10000 [03:15<06:21, 17.89it/s]
                                                                                                                                                  [A
 32%|█████████████████████████████████                                                                       | 3181/10000 [03:15<06:21, 17.89it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[101860] loss: 0.051 
[101880] loss: 0.039 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 688.92it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1417.95it/s][A
 32%|█████████████████████████████████                                                                       | 3184/10000 [03:15<06:09, 18.44it/s]
                                                                                                                                                  [A
 32%|█████████████████████████████████                                                                       | 3184/10000 [03:15<06:09, 18.44it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[101900] loss: 0.042 


                                                                                                                                                  
 32%|█████████████████████████████████                                                                       | 3184/10000 [03:15<06:09, 18.44it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 668.07it/s][A


[101920] loss: 0.103 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 480.34it/s][A

                                                                                                                                                  [A
 32%|█████████████████████████████████                                                                       | 3184/10000 [03:15<06:09, 18.44it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[101940] loss: 0.052 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 857.88it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1963.63it/s][A
 32%|█████████████████████████████████▏                                                                      | 3186/10000 [03:15<06:03, 18.77it/s]
                                                                                                                                                  [A
 32%|█████████████████████████████████▏                                                                      | 3186/10000 [03:15<06:03, 18.77it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[101960] loss: 0.058 


                                                                                                                                                  
 32%|█████████████████████████████████▏                                                                      | 3186/10000 [03:15<06:03, 18.77it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 613.59it/s][A

[101980] loss: 0.055 




Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 845.63it/s][A

                                                                                                                                                  [A
 32%|█████████████████████████████████▏                                                                      | 3186/10000 [03:15<06:03, 18.77it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 587.39it/s][A


[102000] loss: 0.095 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 971.80it/s][A
 32%|█████████████████████████████████▏                                                                      | 3188/10000 [03:15<06:19, 17.96it/s]
                                                                                                                                                  [A
 32%|█████████████████████████████████▏                                                                      | 3188/10000 [03:15<06:19, 17.96it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[102020] loss: 0.047 


                                                                                                                                                  
 32%|█████████████████████████████████▏                                                                      | 3188/10000 [03:15<06:19, 17.96it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[102040] loss: 0.065 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 525.96it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 987.59it/s][A

                                                                                                                                                  [A
 32%|█████████████████████████████████▏                                                                      | 3188/10000 [03:15<06:19, 17.96it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[102060] loss: 0.041 


                                                                                                                                                  
 32%|█████████████████████████████████▏                                                                      | 3188/10000 [03:15<06:19, 17.96it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 549.77it/s][A


[102080] loss: 0.086 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 811.59it/s][A
 32%|█████████████████████████████████▏                                                                      | 3190/10000 [03:15<06:42, 16.92it/s]
                                                                                                                                                  [A
 32%|█████████████████████████████████▏                                                                      | 3190/10000 [03:15<06:42, 16.92it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 571.91it/s][A


[102100] loss: 0.051 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 877.84it/s][A

                                                                                                                                                  [A
 32%|█████████████████████████████████▏                                                                      | 3190/10000 [03:15<06:42, 16.92it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[102120] loss: 0.065 


                                                                                                                                                  
 32%|█████████████████████████████████▏                                                                      | 3190/10000 [03:15<06:42, 16.92it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 543.79it/s][A


[102140] loss: 0.076 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 890.70it/s][A
 32%|█████████████████████████████████▏                                                                      | 3192/10000 [03:15<06:57, 16.33it/s]
                                                                                                                                                  [A
 32%|█████████████████████████████████▏                                                                      | 3192/10000 [03:15<06:57, 16.33it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 599.02it/s][A


[102160] loss: 0.046 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 977.92it/s][A

                                                                                                                                                  [A
 32%|█████████████████████████████████▏                                                                      | 3192/10000 [03:15<06:57, 16.33it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[102180] loss: 0.066 


                                                                                                                                                  
 32%|█████████████████████████████████▏                                                                      | 3192/10000 [03:15<06:57, 16.33it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 493.15it/s][A


[102200] loss: 0.035 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 960.45it/s][A
 32%|█████████████████████████████████▏                                                                      | 3194/10000 [03:15<07:10, 15.80it/s]
                                                                                                                                                  [A
 32%|█████████████████████████████████▏                                                                      | 3194/10000 [03:15<07:10, 15.80it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[102220] loss: 0.054 


                                                                                                                                                  
 32%|█████████████████████████████████▏                                                                      | 3194/10000 [03:15<07:10, 15.80it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 549.66it/s][A


[102240] loss: 0.070 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 229.44it/s][A

                                                                                                                                                  [A
 32%|█████████████████████████████████▏                                                                      | 3194/10000 [03:15<07:10, 15.80it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 584.43it/s][A


[102260] loss: 0.094 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 513.00it/s][A
 32%|█████████████████████████████████▏                                                                      | 3196/10000 [03:15<07:17, 15.57it/s]
                                                                                                                                                  [A
 32%|█████████████████████████████████▏                                                                      | 3196/10000 [03:15<07:17, 15.57it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[102280] loss: 0.061 


                                                                                                                                                  
 32%|█████████████████████████████████▏                                                                      | 3196/10000 [03:15<07:17, 15.57it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 519.94it/s][A


[102300] loss: 0.061 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 900.84it/s][A

                                                                                                                                                  [A
 32%|█████████████████████████████████▏                                                                      | 3196/10000 [03:15<07:17, 15.57it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 658.66it/s][A


[102320] loss: 0.077 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1062.39it/s][A
 32%|█████████████████████████████████▎                                                                      | 3198/10000 [03:16<07:15, 15.63it/s]
                                                                                                                                                  [A
 32%|█████████████████████████████████▎                                                                      | 3198/10000 [03:16<07:15, 15.63it/s]
                                                                                                                                                  [A
 32%|█████████████████████████████████▎                                                                      | 3198/10000 [03:16<07:15, 15.63it/s]
Training Epoch:   0%|                                                                                       

[102340] loss: 0.078 
[102360] loss: 0.049 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 597.38it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 980.44it/s][A

                                                                                                                                                  [A
 32%|█████████████████████████████████▎                                                                      | 3198/10000 [03:16<07:15, 15.63it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[102380] loss: 0.048 


                                                                                                                                                  
 32%|█████████████████████████████████▎                                                                      | 3198/10000 [03:16<07:15, 15.63it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 547.90it/s][A


[102400] loss: 0.013 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 177.97it/s][A
 32%|█████████████████████████████████▎                                                                      | 3200/10000 [03:16<07:18, 15.51it/s]
                                                                                                                                                  [A
 32%|█████████████████████████████████▎                                                                      | 3200/10000 [03:16<07:18, 15.51it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[102420] loss: 0.080 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 588.21it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 620.64it/s][A

                                                                                                                                                  [A
 32%|█████████████████████████████████▎                                                                      | 3200/10000 [03:16<07:18, 15.51it/s]
                                                                                                                                                  [A
 32%|█████████████████████████████████▎                                                                      | 3200/10000 [03:16<07:18, 15.51it/s]
Training Epoch: 100%|██████████████████████████████████████████████████████████████████████████████████████

[102440] loss: 0.031 
[102460] loss: 0.055 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 567.95it/s][A
 32%|█████████████████████████████████▎                                                                      | 3202/10000 [03:16<07:25, 15.25it/s]
                                                                                                                                                  [A
 32%|█████████████████████████████████▎                                                                      | 3202/10000 [03:16<07:25, 15.25it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[102480] loss: 0.043 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 582.12it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 946.15it/s][A

                                                                                                                                                  [A
 32%|█████████████████████████████████▎                                                                      | 3202/10000 [03:16<07:25, 15.25it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[102500] loss: 0.045 


                                                                                                                                                  
 32%|█████████████████████████████████▎                                                                      | 3202/10000 [03:16<07:25, 15.25it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 520.14it/s][A


[102520] loss: 0.079 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 783.10it/s][A
 32%|█████████████████████████████████▎                                                                      | 3204/10000 [03:16<07:28, 15.16it/s]
                                                                                                                                                  [A
 32%|█████████████████████████████████▎                                                                      | 3204/10000 [03:16<07:28, 15.16it/s]
                                                                                                                                                  [A
 32%|█████████████████████████████████▎                                                                      | 3204/10000 [03:16<07:28, 15.16it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[102540] loss: 0.038 
[102560] loss: 0.093 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2357.68it/s][A

                                                                                                                                                  [A
 32%|█████████████████████████████████▎                                                                      | 3204/10000 [03:16<07:28, 15.16it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 828.13it/s][A


[102580] loss: 0.038 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 679.35it/s][A

                                                                                                                                                  [A
 32%|█████████████████████████████████▎                                                                      | 3204/10000 [03:16<07:28, 15.16it/s]
                                                                                                                                                  [A
 32%|█████████████████████████████████▎                                                                      | 3204/10000 [03:16<07:28, 15.16it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[102600] loss: 0.055 
[102620] loss: 0.041 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 645.27it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1438.87it/s][A
 32%|█████████████████████████████████▎                                                                      | 3207/10000 [03:16<06:51, 16.51it/s]
                                                                                                                                                  [A
 32%|█████████████████████████████████▎                                                                      | 3207/10000 [03:16<06:51, 16.51it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 718.99it/s][A


[102640] loss: 0.076 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 483.88it/s][A

                                                                                                                                                  [A
 32%|█████████████████████████████████▎                                                                      | 3207/10000 [03:16<06:51, 16.51it/s]
                                                                                                                                                  [A
 32%|█████████████████████████████████▎                                                                      | 3207/10000 [03:16<06:51, 16.51it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 636.83it/s][A


[102660] loss: 0.061 
[102680] loss: 0.058 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 638.01it/s][A
 32%|█████████████████████████████████▎                                                                      | 3209/10000 [03:16<06:44, 16.77it/s]
                                                                                                                                                  [A
 32%|█████████████████████████████████▎                                                                      | 3209/10000 [03:16<06:44, 16.77it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[102700] loss: 0.052 


                                                                                                                                                  
 32%|█████████████████████████████████▎                                                                      | 3209/10000 [03:16<06:44, 16.77it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 664.36it/s][A


[102720] loss: 0.056 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 301.08it/s][A

                                                                                                                                                  [A
 32%|█████████████████████████████████▎                                                                      | 3209/10000 [03:16<06:44, 16.77it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 745.38it/s][A


[102740] loss: 0.069 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 820.96it/s][A
 32%|█████████████████████████████████▍                                                                      | 3211/10000 [03:16<06:37, 17.10it/s]
                                                                                                                                                  [A
 32%|█████████████████████████████████▍                                                                      | 3211/10000 [03:16<06:37, 17.10it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[102760] loss: 0.045 


                                                                                                                                                  
 32%|█████████████████████████████████▍                                                                      | 3211/10000 [03:16<06:37, 17.10it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 629.99it/s][A


[102780] loss: 0.042 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1396.70it/s][A

                                                                                                                                                  [A
 32%|█████████████████████████████████▍                                                                      | 3211/10000 [03:16<06:37, 17.10it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 750.19it/s][A


[102800] loss: 0.061 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 702.09it/s][A
 32%|█████████████████████████████████▍                                                                      | 3213/10000 [03:16<06:32, 17.29it/s]
                                                                                                                                                  [A
 32%|█████████████████████████████████▍                                                                      | 3213/10000 [03:16<06:32, 17.29it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[102820] loss: 0.042 


                                                                                                                                                  
 32%|█████████████████████████████████▍                                                                      | 3213/10000 [03:16<06:32, 17.29it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 618.78it/s][A


[102840] loss: 0.045 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 698.24it/s][A

                                                                                                                                                  [A
 32%|█████████████████████████████████▍                                                                      | 3213/10000 [03:16<06:32, 17.29it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[102860] loss: 0.072 


                                                                                                                                                  
 32%|█████████████████████████████████▍                                                                      | 3213/10000 [03:17<06:32, 17.29it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 697.26it/s][A


[102880] loss: 0.056 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 701.98it/s][A
 32%|█████████████████████████████████▍                                                                      | 3215/10000 [03:17<06:33, 17.25it/s]
                                                                                                                                                  [A
 32%|█████████████████████████████████▍                                                                      | 3215/10000 [03:17<06:33, 17.25it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 728.10it/s][A


[102900] loss: 0.056 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 748.18it/s][A

                                                                                                                                                  [A
 32%|█████████████████████████████████▍                                                                      | 3215/10000 [03:17<06:33, 17.25it/s]
                                                                                                                                                  [A
 32%|█████████████████████████████████▍                                                                      | 3215/10000 [03:17<06:33, 17.25it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[102920] loss: 0.084 
[102940] loss: 0.034 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 685.82it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1291.35it/s][A
 32%|█████████████████████████████████▍                                                                      | 3217/10000 [03:17<06:24, 17.63it/s]
                                                                                                                                                  [A
 32%|█████████████████████████████████▍                                                                      | 3217/10000 [03:17<06:24, 17.63it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 823.88it/s][A


[102960] loss: 0.052 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 794.68it/s][A

                                                                                                                                                  [A
 32%|█████████████████████████████████▍                                                                      | 3217/10000 [03:17<06:24, 17.63it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[102980] loss: 0.054 


                                                                                                                                                  
 32%|█████████████████████████████████▍                                                                      | 3217/10000 [03:17<06:24, 17.63it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 644.85it/s][A


[103000] loss: 0.069 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1296.94it/s][A
 32%|█████████████████████████████████▍                                                                      | 3219/10000 [03:17<06:20, 17.84it/s]
                                                                                                                                                  [A
 32%|█████████████████████████████████▍                                                                      | 3219/10000 [03:17<06:20, 17.84it/s]
                                                                                                                                                  [A
 32%|█████████████████████████████████▍                                                                      | 3219/10000 [03:17<06:20, 17.84it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[103020] loss: 0.054 
[103040] loss: 0.125 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 502.85it/s][A

                                                                                                                                                  [A
 32%|█████████████████████████████████▍                                                                      | 3219/10000 [03:17<06:20, 17.84it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 858.37it/s][A


[103060] loss: 0.063 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1158.33it/s][A

                                                                                                                                                  [A
 32%|█████████████████████████████████▍                                                                      | 3219/10000 [03:17<06:20, 17.84it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[103080] loss: 0.062 


                                                                                                                                                  
 32%|█████████████████████████████████▍                                                                      | 3219/10000 [03:17<06:20, 17.84it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 769.73it/s][A


[103100] loss: 0.098 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1477.39it/s][A
 32%|█████████████████████████████████▌                                                                      | 3222/10000 [03:17<06:01, 18.74it/s]
                                                                                                                                                  [A
 32%|█████████████████████████████████▌                                                                      | 3222/10000 [03:17<06:01, 18.74it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[103120] loss: 0.048 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 834.88it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 932.69it/s][A

                                                                                                                                                  [A
 32%|█████████████████████████████████▌                                                                      | 3222/10000 [03:17<06:01, 18.74it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[103140] loss: 0.065 


                                                                                                                                                  
 32%|█████████████████████████████████▌                                                                      | 3222/10000 [03:17<06:01, 18.74it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 589.71it/s][A


[103160] loss: 0.074 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 975.87it/s][A
 32%|█████████████████████████████████▌                                                                      | 3224/10000 [03:17<06:03, 18.62it/s]
                                                                                                                                                  [A
 32%|█████████████████████████████████▌                                                                      | 3224/10000 [03:17<06:03, 18.62it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[103180] loss: 0.049 


                                                                                                                                                  
 32%|█████████████████████████████████▌                                                                      | 3224/10000 [03:17<06:03, 18.62it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 456.13it/s][A


[103200] loss: 0.094 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 786.04it/s][A

                                                                                                                                                  [A
 32%|█████████████████████████████████▌                                                                      | 3224/10000 [03:17<06:03, 18.62it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 581.14it/s][A


[103220] loss: 0.074 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 815.85it/s][A
 32%|█████████████████████████████████▌                                                                      | 3226/10000 [03:17<06:39, 16.96it/s]
                                                                                                                                                  [A
 32%|█████████████████████████████████▌                                                                      | 3226/10000 [03:17<06:39, 16.96it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[103240] loss: 0.032 


                                                                                                                                                  
 32%|█████████████████████████████████▌                                                                      | 3226/10000 [03:17<06:39, 16.96it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 486.11it/s][A


[103260] loss: 0.068 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 591.41it/s][A

                                                                                                                                                  [A
 32%|█████████████████████████████████▌                                                                      | 3226/10000 [03:17<06:39, 16.96it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[103280] loss: 0.057 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 585.39it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 773.57it/s][A
 32%|█████████████████████████████████▌                                                                      | 3228/10000 [03:17<07:03, 16.01it/s]
                                                                                                                                                  [A
 32%|█████████████████████████████████▌                                                                      | 3228/10000 [03:17<07:03, 16.01it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[103300] loss: 0.040 


                                                                                                                                                  
 32%|█████████████████████████████████▌                                                                      | 3228/10000 [03:17<07:03, 16.01it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 515.16it/s][A


[103320] loss: 0.041 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 623.04it/s][A

                                                                                                                                                  [A
 32%|█████████████████████████████████▌                                                                      | 3228/10000 [03:17<07:03, 16.01it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[103340] loss: 0.073 


                                                                                                                                                  
 32%|█████████████████████████████████▌                                                                      | 3228/10000 [03:17<07:03, 16.01it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 519.14it/s][A


[103360] loss: 0.076 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 687.03it/s][A
 32%|█████████████████████████████████▌                                                                      | 3230/10000 [03:17<07:19, 15.42it/s]
                                                                                                                                                  [A
 32%|█████████████████████████████████▌                                                                      | 3230/10000 [03:17<07:19, 15.42it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 646.46it/s][A


[103380] loss: 0.075 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 656.28it/s][A

                                                                                                                                                  [A
 32%|█████████████████████████████████▌                                                                      | 3230/10000 [03:17<07:19, 15.42it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[103400] loss: 0.052 


                                                                                                                                                  
 32%|█████████████████████████████████▌                                                                      | 3230/10000 [03:18<07:19, 15.42it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 485.52it/s][A


[103420] loss: 0.046 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 733.91it/s][A
 32%|█████████████████████████████████▌                                                                      | 3232/10000 [03:18<07:22, 15.28it/s]
                                                                                                                                                  [A
 32%|█████████████████████████████████▌                                                                      | 3232/10000 [03:18<07:22, 15.28it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[103440] loss: 0.085 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 564.39it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 954.55it/s][A

                                                                                                                                                  [A
 32%|█████████████████████████████████▌                                                                      | 3232/10000 [03:18<07:22, 15.28it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[103460] loss: 0.058 


                                                                                                                                                  
 32%|█████████████████████████████████▌                                                                      | 3232/10000 [03:18<07:22, 15.28it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 526.93it/s][A


[103480] loss: 0.049 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 945.30it/s][A
 32%|█████████████████████████████████▋                                                                      | 3234/10000 [03:18<07:27, 15.12it/s]
                                                                                                                                                  [A
 32%|█████████████████████████████████▋                                                                      | 3234/10000 [03:18<07:27, 15.12it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[103500] loss: 0.074 


                                                                                                                                                  
 32%|█████████████████████████████████▋                                                                      | 3234/10000 [03:18<07:27, 15.12it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 534.09it/s][A


[103520] loss: 0.126 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 230.54it/s][A

                                                                                                                                                  [A
 32%|█████████████████████████████████▋                                                                      | 3234/10000 [03:18<07:27, 15.12it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 602.31it/s][A


[103540] loss: 0.092 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 476.52it/s][A
 32%|█████████████████████████████████▋                                                                      | 3236/10000 [03:18<07:29, 15.05it/s]
                                                                                                                                                  [A
 32%|█████████████████████████████████▋                                                                      | 3236/10000 [03:18<07:29, 15.05it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[103560] loss: 0.084 


                                                                                                                                                  
 32%|█████████████████████████████████▋                                                                      | 3236/10000 [03:18<07:29, 15.05it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 528.26it/s][A


[103580] loss: 0.070 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1239.45it/s][A

                                                                                                                                                  [A
 32%|█████████████████████████████████▋                                                                      | 3236/10000 [03:18<07:29, 15.05it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[103600] loss: 0.050 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 586.84it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 838.02it/s][A
 32%|█████████████████████████████████▋                                                                      | 3238/10000 [03:18<07:29, 15.04it/s]
                                                                                                                                                  [A
 32%|█████████████████████████████████▋                                                                      | 3238/10000 [03:18<07:29, 15.04it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[103620] loss: 0.037 


                                                                                                                                                  
 32%|█████████████████████████████████▋                                                                      | 3238/10000 [03:18<07:29, 15.04it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 496.60it/s][A


[103640] loss: 0.114 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 642.41it/s][A

                                                                                                                                                  [A
 32%|█████████████████████████████████▋                                                                      | 3238/10000 [03:18<07:29, 15.04it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[103660] loss: 0.075 


                                                                                                                                                  
 32%|█████████████████████████████████▋                                                                      | 3238/10000 [03:18<07:29, 15.04it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 512.70it/s][A


[103680] loss: 0.067 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 298.74it/s][A
 32%|█████████████████████████████████▋                                                                      | 3240/10000 [03:18<07:42, 14.62it/s]
                                                                                                                                                  [A
 32%|█████████████████████████████████▋                                                                      | 3240/10000 [03:18<07:42, 14.62it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 599.81it/s][A


[103700] loss: 0.070 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 443.28it/s][A

                                                                                                                                                  [A
 32%|█████████████████████████████████▋                                                                      | 3240/10000 [03:18<07:42, 14.62it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[103720] loss: 0.048 


                                                                                                                                                  
 32%|█████████████████████████████████▋                                                                      | 3240/10000 [03:18<07:42, 14.62it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 576.00it/s][A


[103740] loss: 0.075 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1354.75it/s][A
 32%|█████████████████████████████████▋                                                                      | 3242/10000 [03:18<07:33, 14.89it/s]
                                                                                                                                                  [A
 32%|█████████████████████████████████▋                                                                      | 3242/10000 [03:18<07:33, 14.89it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[103760] loss: 0.045 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 758.85it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1052.79it/s][A

                                                                                                                                                  [A
 32%|█████████████████████████████████▋                                                                      | 3242/10000 [03:18<07:33, 14.89it/s]

[103780] loss: 0.060 



                                                                                                                                                  [A
 32%|█████████████████████████████████▋                                                                      | 3242/10000 [03:18<07:33, 14.89it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 686.82it/s][A


[103800] loss: 0.069 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 894.88it/s][A
 32%|█████████████████████████████████▋                                                                      | 3244/10000 [03:18<07:05, 15.89it/s]
                                                                                                                                                  [A
 32%|█████████████████████████████████▋                                                                      | 3244/10000 [03:18<07:05, 15.89it/s]
                                                                                                                                                  [A
 32%|█████████████████████████████████▋                                                                      | 3244/10000 [03:18<07:05, 15.89it/s]


[103820] loss: 0.046 
[103840] loss: 0.036 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 669.44it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1494.76it/s][A

                                                                                                                                                  [A
 32%|█████████████████████████████████▋                                                                      | 3244/10000 [03:18<07:05, 15.89it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 898.75it/s][A


[103860] loss: 0.033 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 907.07it/s][A
 32%|█████████████████████████████████▊                                                                      | 3246/10000 [03:18<06:39, 16.89it/s]
                                                                                                                                                  [A
 32%|█████████████████████████████████▊                                                                      | 3246/10000 [03:18<06:39, 16.89it/s]
                                                                                                                                                  [A
 32%|█████████████████████████████████▊                                                                      | 3246/10000 [03:18<06:39, 16.89it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[103880] loss: 0.069 
[103900] loss: 0.042 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1308.68it/s][A

                                                                                                                                                  [A
 32%|█████████████████████████████████▊                                                                      | 3246/10000 [03:19<06:39, 16.89it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[103920] loss: 0.083 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 798.25it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 904.33it/s][A
 32%|█████████████████████████████████▊                                                                      | 3248/10000 [03:19<06:24, 17.54it/s]
                                                                                                                                                  [A
 32%|█████████████████████████████████▊                                                                      | 3248/10000 [03:19<06:24, 17.54it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[103940] loss: 0.109 


                                                                                                                                                  
 32%|█████████████████████████████████▊                                                                      | 3248/10000 [03:19<06:24, 17.54it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 638.48it/s][A


[103960] loss: 0.065 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1090.00it/s][A

                                                                                                                                                  [A
 32%|█████████████████████████████████▊                                                                      | 3248/10000 [03:19<06:24, 17.54it/s]
                                                                                                                                                  [A
 32%|█████████████████████████████████▊                                                                      | 3248/10000 [03:19<06:24, 17.54it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 736.89it/s][A


[103980] loss: 0.087 
[104000] loss: 0.066 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 393.43it/s][A
 32%|█████████████████████████████████▊                                                                      | 3250/10000 [03:19<06:24, 17.55it/s]
                                                                                                                                                  [A
 32%|█████████████████████████████████▊                                                                      | 3250/10000 [03:19<06:24, 17.55it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 834.50it/s][A


[104020] loss: 0.033 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 793.32it/s][A

                                                                                                                                                  [A
 32%|█████████████████████████████████▊                                                                      | 3250/10000 [03:19<06:24, 17.55it/s]


[104040] loss: 0.045 


                                                                                                                                                  [A
 32%|█████████████████████████████████▊                                                                      | 3250/10000 [03:19<06:24, 17.55it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 642.68it/s][A

[104060] loss: 0.081 




Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1448.81it/s][A
 33%|█████████████████████████████████▊                                                                      | 3252/10000 [03:19<06:13, 18.05it/s]
                                                                                                                                                  [A
[A                                                                                                                                               

[104080] loss: 0.042 


 33%|█████████████████████████████████▊                                                                      | 3252/10000 [03:19<06:13, 18.05it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 783.17it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2066.16it/s][A

                                                                                                                                                  [A
 33%|█████████████████████████████████▊                                                                      | 3252/10000 [03:19<06:13, 18.05it/s]
                                                                                                                                                  [A
 33%|█████████████████████████████████▊                                                                 

[104100] loss: 0.038 
[104120] loss: 0.091 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1007.04it/s][A
 33%|█████████████████████████████████▊                                                                      | 3254/10000 [03:19<06:15, 17.98it/s]
                                                                                                                                                  [A
 33%|█████████████████████████████████▊                                                                      | 3254/10000 [03:19<06:15, 17.98it/s]
                                                                                                                                                  [A
 33%|█████████████████████████████████▊                                                                      | 3254/10000 [03:19<06:15, 17.98it/s]

[104140] loss: 0.066 
[104160] loss: 0.085 



Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 705.89it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1115.51it/s][A

                                                                                                                                                  [A
 33%|█████████████████████████████████▊                                                                      | 3254/10000 [03:19<06:15, 17.98it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 819.68it/s][A


[104180] loss: 0.128 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 717.34it/s][A
 33%|█████████████████████████████████▊                                                                      | 3256/10000 [03:19<06:06, 18.42it/s]
                                                                                                                                                  [A
 33%|█████████████████████████████████▊                                                                      | 3256/10000 [03:19<06:06, 18.42it/s]
                                                                                                                                                  [A
 33%|█████████████████████████████████▊                                                                      | 3256/10000 [03:19<06:06, 18.42it/s]
Training Epoch:   0%|                                                                                       

[104200] loss: 0.043 
[104220] loss: 0.075 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 619.87it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1643.54it/s][A

                                                                                                                                                  [A
 33%|█████████████████████████████████▊                                                                      | 3256/10000 [03:19<06:06, 18.42it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 863.57it/s][A


[104240] loss: 0.052 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1109.02it/s][A
 33%|█████████████████████████████████▉                                                                      | 3258/10000 [03:19<06:03, 18.56it/s]
                                                                                                                                                  [A
 33%|█████████████████████████████████▉                                                                      | 3258/10000 [03:19<06:03, 18.56it/s]
                                                                                                                                                  [A
 33%|█████████████████████████████████▉                                                                      | 3258/10000 [03:19<06:03, 18.56it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[104260] loss: 0.045 
[104280] loss: 0.050 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 644.48it/s][A

                                                                                                                                                  [A
 33%|█████████████████████████████████▉                                                                      | 3258/10000 [03:19<06:03, 18.56it/s]
                                                                                                                                                  [A


[104300] loss: 0.034 


 33%|█████████████████████████████████▉                                                                      | 3258/10000 [03:19<06:03, 18.56it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 556.34it/s][A


[104320] loss: 0.105 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 281.12it/s][A
 33%|█████████████████████████████████▉                                                                      | 3260/10000 [03:19<06:20, 17.70it/s]
                                                                                                                                                  [A
 33%|█████████████████████████████████▉                                                                      | 3260/10000 [03:19<06:20, 17.70it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[104340] loss: 0.054 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 599.49it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 454.96it/s][A

                                                                                                                                                  [A
 33%|█████████████████████████████████▉                                                                      | 3260/10000 [03:19<06:20, 17.70it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[104360] loss: 0.070 


                                                                                                                                                  
 33%|█████████████████████████████████▉                                                                      | 3260/10000 [03:19<06:20, 17.70it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 540.83it/s][A


[104380] loss: 0.071 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 676.39it/s][A
 33%|█████████████████████████████████▉                                                                      | 3262/10000 [03:19<06:37, 16.93it/s]
                                                                                                                                                  [A
 33%|█████████████████████████████████▉                                                                      | 3262/10000 [03:19<06:37, 16.93it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 654.61it/s][A


[104400] loss: 0.080 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 847.51it/s][A

                                                                                                                                                  [A
 33%|█████████████████████████████████▉                                                                      | 3262/10000 [03:19<06:37, 16.93it/s]
                                                                                                                                                  [A

[104420] loss: 0.052 



 33%|█████████████████████████████████▉                                                                      | 3262/10000 [03:19<06:37, 16.93it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 541.70it/s][A


[104440] loss: 0.051 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 846.48it/s][A
 33%|█████████████████████████████████▉                                                                      | 3264/10000 [03:19<06:47, 16.54it/s]
                                                                                                                                                  [A
 33%|█████████████████████████████████▉                                                                      | 3264/10000 [03:19<06:47, 16.54it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[104460] loss: 0.050 


                                                                                                                                                  
 33%|█████████████████████████████████▉                                                                      | 3264/10000 [03:20<06:47, 16.54it/s]

[104480] loss: 0.115 



Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 553.16it/s][A

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 816.97it/s][A

                                                                                                                                                  [A
 33%|█████████████████████████████████▉                                                                      | 3264/10000 [03:20<06:47, 16.54it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[104500] loss: 0.055 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 631.69it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 638.40it/s][A
 33%|█████████████████████████████████▉                                                                      | 3266/10000 [03:20<06:52, 16.31it/s]
                                                                                                                                                  [A
 33%|█████████████████████████████████▉                                                                      | 3266/10000 [03:20<06:52, 16.31it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[104520] loss: 0.056 


                                                                                                                                                  
 33%|█████████████████████████████████▉                                                                      | 3266/10000 [03:20<06:52, 16.31it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 541.94it/s][A


[104540] loss: 0.055 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 463.46it/s][A

                                                                                                                                                  [A
 33%|█████████████████████████████████▉                                                                      | 3266/10000 [03:20<06:52, 16.31it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 660.21it/s][A


[104560] loss: 0.069 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 650.38it/s][A
 33%|█████████████████████████████████▉                                                                      | 3268/10000 [03:20<06:58, 16.08it/s]
                                                                                                                                                  [A
 33%|█████████████████████████████████▉                                                                      | 3268/10000 [03:20<06:58, 16.08it/s]
                                                                                                                                                  [A

[104580] loss: 0.060 



 33%|█████████████████████████████████▉                                                                      | 3268/10000 [03:20<06:58, 16.08it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 552.68it/s][A


[104600] loss: 0.073 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 574.88it/s][A

                                                                                                                                                  [A
 33%|█████████████████████████████████▉                                                                      | 3268/10000 [03:20<06:58, 16.08it/s]
                                                                                                                                                  [A
 33%|█████████████████████████████████▉                                                                      | 3268/10000 [03:20<06:58, 16.08it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 586.21it/s][A


[104620] loss: 0.034 
[104640] loss: 0.080 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 220.59it/s][A
 33%|██████████████████████████████████                                                                      | 3270/10000 [03:20<07:06, 15.77it/s]
                                                                                                                                                  [A
 33%|██████████████████████████████████                                                                      | 3270/10000 [03:20<07:06, 15.77it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[104660] loss: 0.079 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 602.73it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 983.65it/s][A

                                                                                                                                                  [A
 33%|██████████████████████████████████                                                                      | 3270/10000 [03:20<07:06, 15.77it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[104680] loss: 0.076 


                                                                                                                                                  
 33%|██████████████████████████████████                                                                      | 3270/10000 [03:20<07:06, 15.77it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[104700] loss: 0.112 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 544.66it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 628.45it/s][A
 33%|██████████████████████████████████                                                                      | 3272/10000 [03:20<07:05, 15.82it/s]
                                                                                                                                                  [A
 33%|██████████████████████████████████                                                                      | 3272/10000 [03:20<07:05, 15.82it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[104720] loss: 0.033 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 581.19it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 821.93it/s][A

                                                                                                                                                  [A
 33%|██████████████████████████████████                                                                      | 3272/10000 [03:20<07:05, 15.82it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[104740] loss: 0.051 


                                                                                                                                                  
 33%|██████████████████████████████████                                                                      | 3272/10000 [03:20<07:05, 15.82it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 554.14it/s][A


[104760] loss: 0.060 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 702.56it/s][A
 33%|██████████████████████████████████                                                                      | 3274/10000 [03:20<07:08, 15.71it/s]
                                                                                                                                                  [A
 33%|██████████████████████████████████                                                                      | 3274/10000 [03:20<07:08, 15.71it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[104780] loss: 0.035 


                                                                                                                                                  
 33%|██████████████████████████████████                                                                      | 3274/10000 [03:20<07:08, 15.71it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 600.20it/s][A


[104800] loss: 0.095 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 709.10it/s][A

                                                                                                                                                  [A
 33%|██████████████████████████████████                                                                      | 3274/10000 [03:20<07:08, 15.71it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[104820] loss: 0.052 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 666.37it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 783.10it/s][A
 33%|██████████████████████████████████                                                                      | 3276/10000 [03:20<06:56, 16.14it/s]
                                                                                                                                                  [A
 33%|██████████████████████████████████                                                                      | 3276/10000 [03:20<06:56, 16.14it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[104840] loss: 0.069 


                                                                                                                                                  
 33%|██████████████████████████████████                                                                      | 3276/10000 [03:20<06:56, 16.14it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 536.92it/s][A


[104860] loss: 0.107 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 540.71it/s][A

                                                                                                                                                  [A
 33%|██████████████████████████████████                                                                      | 3276/10000 [03:20<06:56, 16.14it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[104880] loss: 0.040 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 728.57it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 414.70it/s][A
 33%|██████████████████████████████████                                                                      | 3278/10000 [03:20<06:56, 16.13it/s]
                                                                                                                                                  [A
 33%|██████████████████████████████████                                                                      | 3278/10000 [03:20<06:56, 16.13it/s]
                                                                                                                                                  [A
 33%|██████████████████████████████████                                                                     

[104900] loss: 0.064 
[104920] loss: 0.058 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 660.95it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1145.98it/s][A

                                                                                                                                                  [A
 33%|██████████████████████████████████                                                                      | 3278/10000 [03:20<06:56, 16.13it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[104940] loss: 0.049 


                                                                                                                                                  
 33%|██████████████████████████████████                                                                      | 3278/10000 [03:20<06:56, 16.13it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 626.74it/s][A


[104960] loss: 0.070 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 904.92it/s][A
 33%|██████████████████████████████████                                                                      | 3280/10000 [03:20<06:50, 16.38it/s]
                                                                                                                                                  [A
 33%|██████████████████████████████████                                                                      | 3280/10000 [03:20<06:50, 16.38it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 795.03it/s][A


[104980] loss: 0.039 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 720.55it/s][A

                                                                                                                                                  [A
 33%|██████████████████████████████████                                                                      | 3280/10000 [03:21<06:50, 16.38it/s]
                                                                                                                                                  [A
 33%|██████████████████████████████████                                                                      | 3280/10000 [03:21<06:50, 16.38it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[105000] loss: 0.037 
[105020] loss: 0.059 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 638.29it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1562.12it/s][A
 33%|██████████████████████████████████▏                                                                     | 3282/10000 [03:21<06:31, 17.15it/s]
                                                                                                                                                  [A
 33%|██████████████████████████████████▏                                                                     | 3282/10000 [03:21<06:31, 17.15it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 851.19it/s][A


[105040] loss: 0.054 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2241.74it/s][A

                                                                                                                                                  [A
 33%|██████████████████████████████████▏                                                                     | 3282/10000 [03:21<06:31, 17.15it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[105060] loss: 0.038 


                                                                                                                                                  
 33%|██████████████████████████████████▏                                                                     | 3282/10000 [03:21<06:31, 17.15it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 797.64it/s][A


[105080] loss: 0.062 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1578.59it/s][A

                                                                                                                                                  [A
 33%|██████████████████████████████████▏                                                                     | 3282/10000 [03:21<06:31, 17.15it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[105100] loss: 0.035 


                                                                                                                                                  
 33%|██████████████████████████████████▏                                                                     | 3282/10000 [03:21<06:31, 17.15it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 630.53it/s][A


[105120] loss: 0.113 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 584.25it/s][A
 33%|██████████████████████████████████▏                                                                     | 3285/10000 [03:21<06:06, 18.33it/s]
                                                                                                                                                  [A
 33%|██████████████████████████████████▏                                                                     | 3285/10000 [03:21<06:06, 18.33it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 960.05it/s][A


[105140] loss: 0.056 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2213.35it/s][A

                                                                                                                                                  [A
 33%|██████████████████████████████████▏                                                                     | 3285/10000 [03:21<06:06, 18.33it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[105160] loss: 0.060 


                                                                                                                                                  
 33%|██████████████████████████████████▏                                                                     | 3285/10000 [03:21<06:06, 18.33it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 572.30it/s][A


[105180] loss: 0.070 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 820.32it/s][A
 33%|██████████████████████████████████▏                                                                     | 3287/10000 [03:21<06:01, 18.55it/s]
                                                                                                                                                  [A
 33%|██████████████████████████████████▏                                                                     | 3287/10000 [03:21<06:01, 18.55it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 784.06it/s][A


[105200] loss: 0.057 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1034.10it/s][A

                                                                                                                                                  [A
 33%|██████████████████████████████████▏                                                                     | 3287/10000 [03:21<06:01, 18.55it/s]
                                                                                                                                                  [A


[105220] loss: 0.041 


 33%|██████████████████████████████████▏                                                                     | 3287/10000 [03:21<06:01, 18.55it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 652.38it/s][A


[105240] loss: 0.066 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1286.99it/s][A
 33%|██████████████████████████████████▏                                                                     | 3289/10000 [03:21<06:03, 18.44it/s]
                                                                                                                                                  [A
 33%|██████████████████████████████████▏                                                                     | 3289/10000 [03:21<06:03, 18.44it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[105260] loss: 0.047 


                                                                                                                                                  
 33%|██████████████████████████████████▏                                                                     | 3289/10000 [03:21<06:03, 18.44it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 630.69it/s][A


[105280] loss: 0.058 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2251.37it/s][A

                                                                                                                                                  [A
 33%|██████████████████████████████████▏                                                                     | 3289/10000 [03:21<06:03, 18.44it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 802.48it/s][A


[105300] loss: 0.045 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1791.67it/s][A
 33%|██████████████████████████████████▏                                                                     | 3291/10000 [03:21<06:02, 18.49it/s]
                                                                                                                                                  [A
 33%|██████████████████████████████████▏                                                                     | 3291/10000 [03:21<06:02, 18.49it/s]
                                                                                                                                                  [A
 33%|██████████████████████████████████▏                                                                     | 3291/10000 [03:21<06:02, 18.49it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[105320] loss: 0.090 
[105340] loss: 0.024 




Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1322.71it/s][A

                                                                                                                                                  [A
 33%|██████████████████████████████████▏                                                                     | 3291/10000 [03:21<06:02, 18.49it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 635.37it/s][A


[105360] loss: 0.063 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 846.31it/s][A
 33%|██████████████████████████████████▏                                                                     | 3293/10000 [03:21<06:05, 18.35it/s]
                                                                                                                                                  [A
 33%|██████████████████████████████████▏                                                                     | 3293/10000 [03:21<06:05, 18.35it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[105380] loss: 0.085 


                                                                                                                                                  
 33%|██████████████████████████████████▏                                                                     | 3293/10000 [03:21<06:05, 18.35it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 630.76it/s][A


[105400] loss: 0.065 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1464.49it/s][A

                                                                                                                                                  [A
 33%|██████████████████████████████████▏                                                                     | 3293/10000 [03:21<06:05, 18.35it/s]
                                                                                                                                                  [A

[105420] loss: 0.055 



 33%|██████████████████████████████████▏                                                                     | 3293/10000 [03:21<06:05, 18.35it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 637.38it/s][A


[105440] loss: 0.047 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1047.27it/s][A
 33%|██████████████████████████████████▎                                                                     | 3295/10000 [03:21<06:13, 17.96it/s]
                                                                                                                                                  [A
 33%|██████████████████████████████████▎                                                                     | 3295/10000 [03:21<06:13, 17.96it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 726.22it/s][A


[105460] loss: 0.045 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1952.66it/s][A

                                                                                                                                                  [A
 33%|██████████████████████████████████▎                                                                     | 3295/10000 [03:21<06:13, 17.96it/s]
                                                                                                                                                  [A


[105480] loss: 0.064 


 33%|██████████████████████████████████▎                                                                     | 3295/10000 [03:21<06:13, 17.96it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 637.03it/s][A


[105500] loss: 0.075 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1492.63it/s][A
 33%|██████████████████████████████████▎                                                                     | 3297/10000 [03:21<06:12, 18.01it/s]
                                                                                                                                                  [A
 33%|██████████████████████████████████▎                                                                     | 3297/10000 [03:21<06:12, 18.01it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 840.17it/s][A


[105520] loss: 0.083 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 477.71it/s][A

                                                                                                                                                  [A
 33%|██████████████████████████████████▎                                                                     | 3297/10000 [03:21<06:12, 18.01it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[105540] loss: 0.079 


                                                                                                                                                  
 33%|██████████████████████████████████▎                                                                     | 3297/10000 [03:21<06:12, 18.01it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 482.61it/s][A


[105560] loss: 0.065 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 789.00it/s][A
 33%|██████████████████████████████████▎                                                                     | 3299/10000 [03:21<06:28, 17.25it/s]
                                                                                                                                                  [A
 33%|██████████████████████████████████▎                                                                     | 3299/10000 [03:22<06:28, 17.25it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[105580] loss: 0.058 


                                                                                                                                                  
 33%|██████████████████████████████████▎                                                                     | 3299/10000 [03:22<06:28, 17.25it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 527.02it/s][A


[105600] loss: 0.028 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 850.43it/s][A

                                                                                                                                                  [A
 33%|██████████████████████████████████▎                                                                     | 3299/10000 [03:22<06:28, 17.25it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 556.67it/s][A


[105620] loss: 0.040 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 320.74it/s][A
 33%|██████████████████████████████████▎                                                                     | 3301/10000 [03:22<06:51, 16.26it/s]
                                                                                                                                                  [A
 33%|██████████████████████████████████▎                                                                     | 3301/10000 [03:22<06:51, 16.26it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[105640] loss: 0.071 


                                                                                                                                                  
 33%|██████████████████████████████████▎                                                                     | 3301/10000 [03:22<06:51, 16.26it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 474.36it/s][A


[105660] loss: 0.068 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1049.89it/s][A

                                                                                                                                                  [A
 33%|██████████████████████████████████▎                                                                     | 3301/10000 [03:22<06:51, 16.26it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[105680] loss: 0.053 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 599.02it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 702.68it/s][A
 33%|██████████████████████████████████▎                                                                     | 3303/10000 [03:22<07:09, 15.59it/s]
                                                                                                                                                  [A
 33%|██████████████████████████████████▎                                                                     | 3303/10000 [03:22<07:09, 15.59it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[105700] loss: 0.035 


                                                                                                                                                  
 33%|██████████████████████████████████▎                                                                     | 3303/10000 [03:22<07:09, 15.59it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 460.95it/s][A


[105720] loss: 0.070 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 331.17it/s][A

                                                                                                                                                  [A
 33%|██████████████████████████████████▎                                                                     | 3303/10000 [03:22<07:09, 15.59it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[105740] loss: 0.054 


                                                                                                                                                  
 33%|██████████████████████████████████▎                                                                     | 3303/10000 [03:22<07:09, 15.59it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 484.91it/s][A


[105760] loss: 0.056 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 504.43it/s][A
 33%|██████████████████████████████████▎                                                                     | 3305/10000 [03:22<07:40, 14.54it/s]
                                                                                                                                                  [A
 33%|██████████████████████████████████▎                                                                     | 3305/10000 [03:22<07:40, 14.54it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[105780] loss: 0.080 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 570.72it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 925.28it/s][A

                                                                                                                                                  [A
 33%|██████████████████████████████████▎                                                                     | 3305/10000 [03:22<07:40, 14.54it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[105800] loss: 0.019 


                                                                                                                                                  
 33%|██████████████████████████████████▎                                                                     | 3305/10000 [03:22<07:40, 14.54it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 471.46it/s][A


[105820] loss: 0.026 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 787.66it/s][A
 33%|██████████████████████████████████▍                                                                     | 3307/10000 [03:22<07:46, 14.34it/s]
                                                                                                                                                  [A
 33%|██████████████████████████████████▍                                                                     | 3307/10000 [03:22<07:46, 14.34it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[105840] loss: 0.071 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 551.18it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 953.03it/s][A

                                                                                                                                                  [A
 33%|██████████████████████████████████▍                                                                     | 3307/10000 [03:22<07:46, 14.34it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[105860] loss: 0.036 


                                                                                                                                                  
 33%|██████████████████████████████████▍                                                                     | 3307/10000 [03:22<07:46, 14.34it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 511.40it/s][A


[105880] loss: 0.065 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 570.58it/s][A
 33%|██████████████████████████████████▍                                                                     | 3309/10000 [03:22<07:44, 14.41it/s]
                                                                                                                                                  [A
 33%|██████████████████████████████████▍                                                                     | 3309/10000 [03:22<07:44, 14.41it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[105900] loss: 0.049 


                                                                                                                                                  
 33%|██████████████████████████████████▍                                                                     | 3309/10000 [03:22<07:44, 14.41it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 531.81it/s][A


[105920] loss: 0.056 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 679.90it/s][A

                                                                                                                                                  [A
 33%|██████████████████████████████████▍                                                                     | 3309/10000 [03:22<07:44, 14.41it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 615.44it/s][A


[105940] loss: 0.061 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 904.72it/s][A
 33%|██████████████████████████████████▍                                                                     | 3311/10000 [03:22<07:38, 14.59it/s]
                                                                                                                                                  [A
 33%|██████████████████████████████████▍                                                                     | 3311/10000 [03:22<07:38, 14.59it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[105960] loss: 0.055 


                                                                                                                                                  
 33%|██████████████████████████████████▍                                                                     | 3311/10000 [03:22<07:38, 14.59it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 522.45it/s][A


[105980] loss: 0.050 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 897.75it/s][A

                                                                                                                                                  [A
 33%|██████████████████████████████████▍                                                                     | 3311/10000 [03:22<07:38, 14.59it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[106000] loss: 0.049 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 611.20it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 915.19it/s][A
 33%|██████████████████████████████████▍                                                                     | 3313/10000 [03:22<07:33, 14.74it/s]
                                                                                                                                                  [A
 33%|██████████████████████████████████▍                                                                     | 3313/10000 [03:22<07:33, 14.74it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[106020] loss: 0.080 


                                                                                                                                                  
 33%|██████████████████████████████████▍                                                                     | 3313/10000 [03:23<07:33, 14.74it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 482.00it/s][A


[106040] loss: 0.063 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 564.59it/s][A

                                                                                                                                                  [A
 33%|██████████████████████████████████▍                                                                     | 3313/10000 [03:23<07:33, 14.74it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[106060] loss: 0.034 


                                                                                                                                                  
 33%|██████████████████████████████████▍                                                                     | 3313/10000 [03:23<07:33, 14.74it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 527.01it/s][A


[106080] loss: 0.037 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1011.16it/s][A
 33%|██████████████████████████████████▍                                                                     | 3315/10000 [03:23<07:45, 14.36it/s]
                                                                                                                                                  [A
 33%|██████████████████████████████████▍                                                                     | 3315/10000 [03:23<07:45, 14.36it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 842.75it/s][A


[106100] loss: 0.106 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1663.75it/s][A

                                                                                                                                                  [A
[A                                                                                                                                               

[106120] loss: 0.066 


 33%|██████████████████████████████████▍                                                                     | 3315/10000 [03:23<07:45, 14.36it/s]
                                                                                                                                                  [A
 33%|██████████████████████████████████▍                                                                     | 3315/10000 [03:23<07:45, 14.36it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[106140] loss: 0.050 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 604.27it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1188.19it/s][A
 33%|██████████████████████████████████▍                                                                     | 3317/10000 [03:23<07:17, 15.27it/s]
                                                                                                                                                  [A
 33%|██████████████████████████████████▍                                                                     | 3317/10000 [03:23<07:17, 15.27it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[106160] loss: 0.030 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 763.51it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 636.56it/s][A

                                                                                                                                                  [A
 33%|██████████████████████████████████▍                                                                     | 3317/10000 [03:23<07:17, 15.27it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[106180] loss: 0.040 


                                                                                                                                                  
 33%|██████████████████████████████████▍                                                                     | 3317/10000 [03:23<07:17, 15.27it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 661.79it/s][A


[106200] loss: 0.082 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 522.00it/s][A
 33%|██████████████████████████████████▌                                                                     | 3319/10000 [03:23<07:01, 15.86it/s]
                                                                                                                                                  [A
 33%|██████████████████████████████████▌                                                                     | 3319/10000 [03:23<07:01, 15.86it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[106220] loss: 0.034 


                                                                                                                                                  
 33%|██████████████████████████████████▌                                                                     | 3319/10000 [03:23<07:01, 15.86it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 638.53it/s][A


[106240] loss: 0.063 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1333.22it/s][A

                                                                                                                                                  [A
 33%|██████████████████████████████████▌                                                                     | 3319/10000 [03:23<07:01, 15.86it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 815.12it/s][A


[106260] loss: 0.065 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 924.87it/s][A
 33%|██████████████████████████████████▌                                                                     | 3321/10000 [03:23<06:40, 16.66it/s]
                                                                                                                                                  [A
 33%|██████████████████████████████████▌                                                                     | 3321/10000 [03:23<06:40, 16.66it/s]
                                                                                                                                                  [A
 33%|██████████████████████████████████▌                                                                     | 3321/10000 [03:23<06:40, 16.66it/s]
Training Epoch:   0%|                                                                                       

[106280] loss: 0.057 
[106300] loss: 0.062 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 662.51it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1288.18it/s][A

                                                                                                                                                  [A
 33%|██████████████████████████████████▌                                                                     | 3321/10000 [03:23<06:40, 16.66it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 788.22it/s][A


[106320] loss: 0.088 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2624.72it/s][A
 33%|██████████████████████████████████▌                                                                     | 3323/10000 [03:23<06:27, 17.25it/s]
                                                                                                                                                  [A
[A                                                                                                                                               

[106340] loss: 0.046 


 33%|██████████████████████████████████▌                                                                     | 3323/10000 [03:23<06:27, 17.25it/s]
                                                                                                                                                  [A
[A                                                                                                                                               

[106360] loss: 0.046 

 33%|██████████████████████████████████▌                                                                     | 3323/10000 [03:23<06:27, 17.25it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 631.41it/s][A






Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 899.49it/s][A

                                                                                                                                                  [A
 33%|██████████████████████████████████▌                                                                     | 3323/10000 [03:23<06:27, 17.25it/s]
                                                                                                                                                  [A
[A                                                                                                                                               

[106380] loss: 0.079 
[106400] loss: 0.076 


 33%|██████████████████████████████████▌                                                                     | 3323/10000 [03:23<06:27, 17.25it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 587.65it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1116.10it/s][A
 33%|██████████████████████████████████▌                                                                     | 3325/10000 [03:23<06:32, 17.02it/s]
                                                                                                                                                  [A
 33%|██████████████████████████████████▌                                                                     | 3325/10000 [03:23<06:32, 17.02it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[106420] loss: 0.048 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1099.42it/s][A

                                                                                                                                                  [A
 33%|██████████████████████████████████▌                                                                     | 3325/10000 [03:23<06:32, 17.02it/s]
                                                                                                                                                  [A


[106440] loss: 0.073 


 33%|██████████████████████████████████▌                                                                     | 3325/10000 [03:23<06:32, 17.02it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 670.83it/s][A


[106460] loss: 0.048 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 726.41it/s][A
 33%|██████████████████████████████████▌                                                                     | 3327/10000 [03:23<06:18, 17.63it/s]
                                                                                                                                                  [A
 33%|██████████████████████████████████▌                                                                     | 3327/10000 [03:23<06:18, 17.63it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 657.73it/s][A


[106480] loss: 0.044 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 846.65it/s][A

                                                                                                                                                  [A
 33%|██████████████████████████████████▌                                                                     | 3327/10000 [03:23<06:18, 17.63it/s]
                                                                                                                                                  [A
 33%|██████████████████████████████████▌                                                                     | 3327/10000 [03:23<06:18, 17.63it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 650.53it/s][A


[106500] loss: 0.084 
[106520] loss: 0.056 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 715.02it/s][A
 33%|██████████████████████████████████▌                                                                     | 3329/10000 [03:23<06:20, 17.54it/s]
                                                                                                                                                  [A
 33%|██████████████████████████████████▌                                                                     | 3329/10000 [03:23<06:20, 17.54it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[106540] loss: 0.041 


                                                                                                                                                  
 33%|██████████████████████████████████▌                                                                     | 3329/10000 [03:23<06:20, 17.54it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 608.48it/s][A


[106560] loss: 0.094 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1437.88it/s][A

                                                                                                                                                  [A
 33%|██████████████████████████████████▌                                                                     | 3329/10000 [03:23<06:20, 17.54it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 750.53it/s][A


[106580] loss: 0.058 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 692.82it/s][A
 33%|██████████████████████████████████▋                                                                     | 3331/10000 [03:24<06:17, 17.67it/s]
                                                                                                                                                  [A
 33%|██████████████████████████████████▋                                                                     | 3331/10000 [03:24<06:17, 17.67it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[106600] loss: 0.078 


                                                                                                                                                  
 33%|██████████████████████████████████▋                                                                     | 3331/10000 [03:24<06:17, 17.67it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 578.22it/s][A


[106620] loss: 0.036 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 539.04it/s][A

                                                                                                                                                  [A
 33%|██████████████████████████████████▋                                                                     | 3331/10000 [03:24<06:17, 17.67it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[106640] loss: 0.049 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 730.57it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 611.41it/s][A
 33%|██████████████████████████████████▋                                                                     | 3333/10000 [03:24<06:21, 17.50it/s]
                                                                                                                                                  [A
 33%|██████████████████████████████████▋                                                                     | 3333/10000 [03:24<06:21, 17.50it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[106660] loss: 0.056 


                                                                                                                                                  
 33%|██████████████████████████████████▋                                                                     | 3333/10000 [03:24<06:21, 17.50it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[106680] loss: 0.071 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 551.63it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 770.59it/s][A

                                                                                                                                                  [A
 33%|██████████████████████████████████▋                                                                     | 3333/10000 [03:24<06:21, 17.50it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[106700] loss: 0.045 


                                                                                                                                                  
 33%|██████████████████████████████████▋                                                                     | 3333/10000 [03:24<06:21, 17.50it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 430.15it/s][A


[106720] loss: 0.019 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 650.89it/s][A
 33%|██████████████████████████████████▋                                                                     | 3335/10000 [03:24<06:57, 15.95it/s]
                                                                                                                                                  [A
 33%|██████████████████████████████████▋                                                                     | 3335/10000 [03:24<06:57, 15.95it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[106740] loss: 0.072 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 520.16it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 509.70it/s][A

                                                                                                                                                  [A
 33%|██████████████████████████████████▋                                                                     | 3335/10000 [03:24<06:57, 15.95it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[106760] loss: 0.051 


                                                                                                                                                  
 33%|██████████████████████████████████▋                                                                     | 3335/10000 [03:24<06:57, 15.95it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 490.71it/s][A


[106780] loss: 0.064 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 827.28it/s][A
 33%|██████████████████████████████████▋                                                                     | 3337/10000 [03:24<07:18, 15.19it/s]
                                                                                                                                                  [A
 33%|██████████████████████████████████▋                                                                     | 3337/10000 [03:24<07:18, 15.19it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[106800] loss: 0.088 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 542.22it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1201.81it/s][A

                                                                                                                                                  [A
 33%|██████████████████████████████████▋                                                                     | 3337/10000 [03:24<07:18, 15.19it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[106820] loss: 0.082 


                                                                                                                                                  
 33%|██████████████████████████████████▋                                                                     | 3337/10000 [03:24<07:18, 15.19it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 487.16it/s][A


[106840] loss: 0.083 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 769.46it/s][A
 33%|██████████████████████████████████▋                                                                     | 3339/10000 [03:24<07:30, 14.79it/s]
                                                                                                                                                  [A
 33%|██████████████████████████████████▋                                                                     | 3339/10000 [03:24<07:30, 14.79it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[106860] loss: 0.066 


                                                                                                                                                  
 33%|██████████████████████████████████▋                                                                     | 3339/10000 [03:24<07:30, 14.79it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 527.95it/s][A


[106880] loss: 0.023 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 446.44it/s][A

                                                                                                                                                  [A
 33%|██████████████████████████████████▋                                                                     | 3339/10000 [03:24<07:30, 14.79it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 590.26it/s][A


[106900] loss: 0.055 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 576.22it/s][A
 33%|██████████████████████████████████▋                                                                     | 3341/10000 [03:24<07:28, 14.85it/s]
                                                                                                                                                  [A
 33%|██████████████████████████████████▋                                                                     | 3341/10000 [03:24<07:28, 14.85it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[106920] loss: 0.054 


                                                                                                                                                  
 33%|██████████████████████████████████▋                                                                     | 3341/10000 [03:24<07:28, 14.85it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 499.57it/s][A


[106940] loss: 0.102 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 776.72it/s][A

                                                                                                                                                  [A
 33%|██████████████████████████████████▋                                                                     | 3341/10000 [03:24<07:28, 14.85it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[106960] loss: 0.057 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 551.44it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 778.45it/s][A
 33%|██████████████████████████████████▊                                                                     | 3343/10000 [03:24<07:35, 14.61it/s]
                                                                                                                                                  [A
 33%|██████████████████████████████████▊                                                                     | 3343/10000 [03:24<07:35, 14.61it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[106980] loss: 0.078 


                                                                                                                                                  
 33%|██████████████████████████████████▊                                                                     | 3343/10000 [03:24<07:35, 14.61it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 492.31it/s][A


[107000] loss: 0.076 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 833.69it/s][A

                                                                                                                                                  [A
 33%|██████████████████████████████████▊                                                                     | 3343/10000 [03:24<07:35, 14.61it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[107020] loss: 0.041 


                                                                                                                                                  
 33%|██████████████████████████████████▊                                                                     | 3343/10000 [03:25<07:35, 14.61it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 452.75it/s][A


[107040] loss: 0.052 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 463.61it/s][A
 33%|██████████████████████████████████▊                                                                     | 3345/10000 [03:25<07:54, 14.02it/s]
                                                                                                                                                  [A
 33%|██████████████████████████████████▊                                                                     | 3345/10000 [03:25<07:54, 14.02it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[107060] loss: 0.037 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 548.07it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 514.70it/s][A

                                                                                                                                                  [A
 33%|██████████████████████████████████▊                                                                     | 3345/10000 [03:25<07:54, 14.02it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[107080] loss: 0.069 


                                                                                                                                                  
 33%|██████████████████████████████████▊                                                                     | 3345/10000 [03:25<07:54, 14.02it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 489.64it/s][A


[107100] loss: 0.092 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 782.67it/s][A
 33%|██████████████████████████████████▊                                                                     | 3347/10000 [03:25<07:57, 13.94it/s]
                                                                                                                                                  [A
 33%|██████████████████████████████████▊                                                                     | 3347/10000 [03:25<07:57, 13.94it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[107120] loss: 0.063 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 556.43it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1013.12it/s][A

                                                                                                                                                  [A
 33%|██████████████████████████████████▊                                                                     | 3347/10000 [03:25<07:57, 13.94it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[107140] loss: 0.056 


                                                                                                                                                  
 33%|██████████████████████████████████▊                                                                     | 3347/10000 [03:25<07:57, 13.94it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 466.15it/s][A


[107160] loss: 0.045 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 765.80it/s][A
 33%|██████████████████████████████████▊                                                                     | 3349/10000 [03:25<07:58, 13.89it/s]
                                                                                                                                                  [A
 33%|██████████████████████████████████▊                                                                     | 3349/10000 [03:25<07:58, 13.89it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[107180] loss: 0.082 


                                                                                                                                                  
 33%|██████████████████████████████████▊                                                                     | 3349/10000 [03:25<07:58, 13.89it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 622.58it/s][A


[107200] loss: 0.085 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1421.80it/s][A

                                                                                                                                                  [A
 33%|██████████████████████████████████▊                                                                     | 3349/10000 [03:25<07:58, 13.89it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 716.40it/s][A


[107220] loss: 0.091 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1804.00it/s][A
 34%|██████████████████████████████████▊                                                                     | 3351/10000 [03:25<07:29, 14.78it/s]
                                                                                                                                                  [A
 34%|██████████████████████████████████▊                                                                     | 3351/10000 [03:25<07:29, 14.78it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[107240] loss: 0.048 


                                                                                                                                                  
 34%|██████████████████████████████████▊                                                                     | 3351/10000 [03:25<07:29, 14.78it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 577.94it/s][A

[107260] loss: 0.062 




Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1271.77it/s][A

                                                                                                                                                  [A
 34%|██████████████████████████████████▊                                                                     | 3351/10000 [03:25<07:29, 14.78it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[107280] loss: 0.063 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 719.25it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 596.12it/s][A
 34%|██████████████████████████████████▊                                                                     | 3353/10000 [03:25<07:15, 15.27it/s]
                                                                                                                                                  [A
 34%|██████████████████████████████████▊                                                                     | 3353/10000 [03:25<07:15, 15.27it/s]


[107300] loss: 0.070 


                                                                                                                                                  [A
 34%|██████████████████████████████████▊                                                                     | 3353/10000 [03:25<07:15, 15.27it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[107320] loss: 0.067 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 561.32it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 738.17it/s][A

                                                                                                                                                  [A
 34%|██████████████████████████████████▊                                                                     | 3353/10000 [03:25<07:15, 15.27it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[107340] loss: 0.036 


                                                                                                                                                  
 34%|██████████████████████████████████▊                                                                     | 3353/10000 [03:25<07:15, 15.27it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 642.54it/s][A


[107360] loss: 0.075 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1314.42it/s][A
 34%|██████████████████████████████████▉                                                                     | 3355/10000 [03:25<07:13, 15.32it/s]
                                                                                                                                                  [A
 34%|██████████████████████████████████▉                                                                     | 3355/10000 [03:25<07:13, 15.32it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[107380] loss: 0.043 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 716.60it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1938.22it/s][A

                                                                                                                                                  [A
 34%|██████████████████████████████████▉                                                                     | 3355/10000 [03:25<07:13, 15.32it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[107400] loss: 0.072 


                                                                                                                                                  
 34%|██████████████████████████████████▉                                                                     | 3355/10000 [03:25<07:13, 15.32it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 610.77it/s][A


[107420] loss: 0.062 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1044.14it/s][A
 34%|██████████████████████████████████▉                                                                     | 3357/10000 [03:25<06:56, 15.94it/s]
                                                                                                                                                  [A
 34%|██████████████████████████████████▉                                                                     | 3357/10000 [03:25<06:56, 15.94it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[107440] loss: 0.050 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 619.38it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1359.14it/s][A

                                                                                                                                                  [A
 34%|██████████████████████████████████▉                                                                     | 3357/10000 [03:25<06:56, 15.94it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[107460] loss: 0.073 


                                                                                                                                                  
 34%|██████████████████████████████████▉                                                                     | 3357/10000 [03:25<06:56, 15.94it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[107480] loss: 0.040 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 597.09it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1180.16it/s][A
 34%|██████████████████████████████████▉                                                                     | 3359/10000 [03:25<06:58, 15.85it/s]
                                                                                                                                                  [A
 34%|██████████████████████████████████▉                                                                     | 3359/10000 [03:25<06:58, 15.85it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[107500] loss: 0.031 


                                                                                                                                                  
 34%|██████████████████████████████████▉                                                                     | 3359/10000 [03:25<06:58, 15.85it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 645.88it/s][A


[107520] loss: 0.069 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1025.25it/s][A

                                                                                                                                                  [A
 34%|██████████████████████████████████▉                                                                     | 3359/10000 [03:26<06:58, 15.85it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[107540] loss: 0.081 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 721.73it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 855.81it/s][A
 34%|██████████████████████████████████▉                                                                     | 3361/10000 [03:26<06:48, 16.25it/s]
                                                                                                                                                  [A
 34%|██████████████████████████████████▉                                                                     | 3361/10000 [03:26<06:48, 16.25it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[107560] loss: 0.057 


                                                                                                                                                  
 34%|██████████████████████████████████▉                                                                     | 3361/10000 [03:26<06:48, 16.25it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 600.38it/s][A


[107580] loss: 0.140 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 957.82it/s][A

                                                                                                                                                  [A
 34%|██████████████████████████████████▉                                                                     | 3361/10000 [03:26<06:48, 16.25it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[107600] loss: 0.113 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 721.98it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1919.59it/s][A
 34%|██████████████████████████████████▉                                                                     | 3363/10000 [03:26<06:47, 16.30it/s]
                                                                                                                                                  [A
 34%|██████████████████████████████████▉                                                                     | 3363/10000 [03:26<06:47, 16.30it/s]


[107620] loss: 0.038 


                                                                                                                                                  [A
 34%|██████████████████████████████████▉                                                                     | 3363/10000 [03:26<06:47, 16.30it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[107640] loss: 0.065 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 638.50it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1907.37it/s][A

                                                                                                                                                  [A
 34%|██████████████████████████████████▉                                                                     | 3363/10000 [03:26<06:47, 16.30it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[107660] loss: 0.048 


                                                                                                                                                  
 34%|██████████████████████████████████▉                                                                     | 3363/10000 [03:26<06:47, 16.30it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 603.14it/s][A


[107680] loss: 0.119 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1106.38it/s][A
 34%|██████████████████████████████████▉                                                                     | 3365/10000 [03:26<06:49, 16.21it/s]
                                                                                                                                                  [A
 34%|██████████████████████████████████▉                                                                     | 3365/10000 [03:26<06:49, 16.21it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 740.98it/s][A


[107700] loss: 0.054 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 665.55it/s][A

                                                                                                                                                  [A
 34%|██████████████████████████████████▉                                                                     | 3365/10000 [03:26<06:49, 16.21it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[107720] loss: 0.077 


                                                                                                                                                  
 34%|██████████████████████████████████▉                                                                     | 3365/10000 [03:26<06:49, 16.21it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 585.23it/s][A


[107740] loss: 0.054 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 833.69it/s][A
 34%|███████████████████████████████████                                                                     | 3367/10000 [03:26<06:42, 16.46it/s]
                                                                                                                                                  [A
 34%|███████████████████████████████████                                                                     | 3367/10000 [03:26<06:42, 16.46it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[107760] loss: 0.024 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 748.44it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 922.03it/s][A

                                                                                                                                                  [A
 34%|███████████████████████████████████                                                                     | 3367/10000 [03:26<06:42, 16.46it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[107780] loss: 0.042 


                                                                                                                                                  
 34%|███████████████████████████████████                                                                     | 3367/10000 [03:26<06:42, 16.46it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[107800] loss: 0.045 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 455.97it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 576.62it/s][A
 34%|███████████████████████████████████                                                                     | 3369/10000 [03:26<06:52, 16.06it/s]
                                                                                                                                                  [A
 34%|███████████████████████████████████                                                                     | 3369/10000 [03:26<06:52, 16.06it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[107820] loss: 0.039 


                                                                                                                                                  
 34%|███████████████████████████████████                                                                     | 3369/10000 [03:26<06:52, 16.06it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 473.34it/s][A


[107840] loss: 0.066 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 983.19it/s][A

                                                                                                                                                  [A
 34%|███████████████████████████████████                                                                     | 3369/10000 [03:26<06:52, 16.06it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 574.26it/s][A


[107860] loss: 0.063 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 927.33it/s][A
 34%|███████████████████████████████████                                                                     | 3371/10000 [03:26<07:06, 15.56it/s]
                                                                                                                                                  [A
 34%|███████████████████████████████████                                                                     | 3371/10000 [03:26<07:06, 15.56it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[107880] loss: 0.080 


                                                                                                                                                  
 34%|███████████████████████████████████                                                                     | 3371/10000 [03:26<07:06, 15.56it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 445.14it/s][A


[107900] loss: 0.064 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 946.80it/s][A

                                                                                                                                                  [A
 34%|███████████████████████████████████                                                                     | 3371/10000 [03:26<07:06, 15.56it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[107920] loss: 0.049 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 541.12it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1231.08it/s][A
 34%|███████████████████████████████████                                                                     | 3373/10000 [03:26<07:28, 14.77it/s]
                                                                                                                                                  [A
 34%|███████████████████████████████████                                                                     | 3373/10000 [03:26<07:28, 14.77it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[107940] loss: 0.037 


                                                                                                                                                  
 34%|███████████████████████████████████                                                                     | 3373/10000 [03:26<07:28, 14.77it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[107960] loss: 0.085 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 464.69it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 755.46it/s][A

                                                                                                                                                  [A
 34%|███████████████████████████████████                                                                     | 3373/10000 [03:26<07:28, 14.77it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[107980] loss: 0.058 


                                                                                                                                                  
 34%|███████████████████████████████████                                                                     | 3373/10000 [03:26<07:28, 14.77it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 504.31it/s][A


[108000] loss: 0.043 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 890.89it/s][A
 34%|███████████████████████████████████                                                                     | 3375/10000 [03:26<07:44, 14.26it/s]
                                                                                                                                                  [A
 34%|███████████████████████████████████                                                                     | 3375/10000 [03:26<07:44, 14.26it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 581.27it/s][A


[108020] loss: 0.081 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 404.89it/s][A

                                                                                                                                                  [A
 34%|███████████████████████████████████                                                                     | 3375/10000 [03:27<07:44, 14.26it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[108040] loss: 0.049 


                                                                                                                                                  
 34%|███████████████████████████████████                                                                     | 3375/10000 [03:27<07:44, 14.26it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 504.75it/s][A


[108060] loss: 0.069 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 605.68it/s][A
 34%|███████████████████████████████████                                                                     | 3377/10000 [03:27<07:42, 14.32it/s]
                                                                                                                                                  [A
 34%|███████████████████████████████████                                                                     | 3377/10000 [03:27<07:42, 14.32it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[108080] loss: 0.087 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 546.25it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 741.04it/s][A

                                                                                                                                                  [A
 34%|███████████████████████████████████                                                                     | 3377/10000 [03:27<07:42, 14.32it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[108100] loss: 0.080 


                                                                                                                                                  
 34%|███████████████████████████████████                                                                     | 3377/10000 [03:27<07:42, 14.32it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 517.22it/s][A


[108120] loss: 0.062 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1034.86it/s][A
 34%|███████████████████████████████████▏                                                                    | 3379/10000 [03:27<07:38, 14.44it/s]
                                                                                                                                                  [A
 34%|███████████████████████████████████▏                                                                    | 3379/10000 [03:27<07:38, 14.44it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[108140] loss: 0.048 


                                                                                                                                                  
 34%|███████████████████████████████████▏                                                                    | 3379/10000 [03:27<07:38, 14.44it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 513.26it/s][A


[108160] loss: 0.034 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 493.97it/s][A

                                                                                                                                                  [A
 34%|███████████████████████████████████▏                                                                    | 3379/10000 [03:27<07:38, 14.44it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 555.80it/s][A


[108180] loss: 0.056 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 550.94it/s][A
 34%|███████████████████████████████████▏                                                                    | 3381/10000 [03:27<07:36, 14.51it/s]
                                                                                                                                                  [A
 34%|███████████████████████████████████▏                                                                    | 3381/10000 [03:27<07:36, 14.51it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[108200] loss: 0.054 


                                                                                                                                                  
 34%|███████████████████████████████████▏                                                                    | 3381/10000 [03:27<07:36, 14.51it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 484.41it/s][A


[108220] loss: 0.080 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 816.65it/s][A

                                                                                                                                                  [A
 34%|███████████████████████████████████▏                                                                    | 3381/10000 [03:27<07:36, 14.51it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[108240] loss: 0.078 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 577.55it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 431.34it/s][A
 34%|███████████████████████████████████▏                                                                    | 3383/10000 [03:27<07:37, 14.48it/s]
                                                                                                                                                  [A
 34%|███████████████████████████████████▏                                                                    | 3383/10000 [03:27<07:37, 14.48it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[108260] loss: 0.044 


                                                                                                                                                  
 34%|███████████████████████████████████▏                                                                    | 3383/10000 [03:27<07:37, 14.48it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 489.31it/s][A


[108280] loss: 0.060 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 599.44it/s][A

                                                                                                                                                  [A
 34%|███████████████████████████████████▏                                                                    | 3383/10000 [03:27<07:37, 14.48it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[108300] loss: 0.064 


                                                                                                                                                  
 34%|███████████████████████████████████▏                                                                    | 3383/10000 [03:27<07:37, 14.48it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 576.37it/s][A


[108320] loss: 0.073 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1194.62it/s][A
 34%|███████████████████████████████████▏                                                                    | 3385/10000 [03:27<07:36, 14.49it/s]
                                                                                                                                                  [A
 34%|███████████████████████████████████▏                                                                    | 3385/10000 [03:27<07:36, 14.49it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[108340] loss: 0.102 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 909.01it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2119.41it/s][A

                                                                                                                                                  [A
 34%|███████████████████████████████████▏                                                                    | 3385/10000 [03:27<07:36, 14.49it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[108360] loss: 0.047 


                                                                                                                                                  
 34%|███████████████████████████████████▏                                                                    | 3385/10000 [03:27<07:36, 14.49it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 725.83it/s][A


[108380] loss: 0.066 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1321.04it/s][A

                                                                                                                                                  [A
 34%|███████████████████████████████████▏                                                                    | 3385/10000 [03:27<07:36, 14.49it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 818.30it/s][A


[108400] loss: 0.032 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1230.36it/s][A
 34%|███████████████████████████████████▏                                                                    | 3388/10000 [03:27<06:39, 16.56it/s]
                                                                                                                                                  [A
 34%|███████████████████████████████████▏                                                                    | 3388/10000 [03:27<06:39, 16.56it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[108420] loss: 0.039 


                                                                                                                                                  
 34%|███████████████████████████████████▏                                                                    | 3388/10000 [03:27<06:39, 16.56it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 682.76it/s][A


[108440] loss: 0.030 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1268.69it/s][A

                                                                                                                                                  [A
 34%|███████████████████████████████████▏                                                                    | 3388/10000 [03:27<06:39, 16.56it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[108460] loss: 0.063 


                                                                                                                                                  
 34%|███████████████████████████████████▏                                                                    | 3388/10000 [03:27<06:39, 16.56it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 735.29it/s][A


[108480] loss: 0.029 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1584.55it/s][A
 34%|███████████████████████████████████▎                                                                    | 3390/10000 [03:27<06:27, 17.04it/s]
                                                                                                                                                  [A
 34%|███████████████████████████████████▎                                                                    | 3390/10000 [03:27<06:27, 17.04it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[108500] loss: 0.064 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 808.17it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2022.33it/s][A

                                                                                                                                                  [A
 34%|███████████████████████████████████▎                                                                    | 3390/10000 [03:27<06:27, 17.04it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[108520] loss: 0.057 


                                                                                                                                                  
 34%|███████████████████████████████████▎                                                                    | 3390/10000 [03:27<06:27, 17.04it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 644.39it/s][A


[108540] loss: 0.086 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1446.81it/s][A
 34%|███████████████████████████████████▎                                                                    | 3392/10000 [03:28<06:15, 17.61it/s]
                                                                                                                                                  [A
 34%|███████████████████████████████████▎                                                                    | 3392/10000 [03:28<06:15, 17.61it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[108560] loss: 0.069 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 715.40it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2063.11it/s][A

                                                                                                                                                  [A
 34%|███████████████████████████████████▎                                                                    | 3392/10000 [03:28<06:15, 17.61it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[108580] loss: 0.037 


                                                                                                                                                  
 34%|███████████████████████████████████▎                                                                    | 3392/10000 [03:28<06:15, 17.61it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 670.05it/s][A


[108600] loss: 0.058 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 985.27it/s][A
 34%|███████████████████████████████████▎                                                                    | 3394/10000 [03:28<06:13, 17.68it/s]
                                                                                                                                                  [A
 34%|███████████████████████████████████▎                                                                    | 3394/10000 [03:28<06:13, 17.68it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[108620] loss: 0.051 


                                                                                                                                                  
 34%|███████████████████████████████████▎                                                                    | 3394/10000 [03:28<06:13, 17.68it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 703.17it/s][A


[108640] loss: 0.018 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2177.73it/s][A

                                                                                                                                                  [A
 34%|███████████████████████████████████▎                                                                    | 3394/10000 [03:28<06:13, 17.68it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 684.26it/s][A


[108660] loss: 0.043 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2091.92it/s][A
 34%|███████████████████████████████████▎                                                                    | 3396/10000 [03:28<06:06, 17.99it/s]
                                                                                                                                                  [A
 34%|███████████████████████████████████▎                                                                    | 3396/10000 [03:28<06:06, 17.99it/s]
                                                                                                                                                  [A
 34%|███████████████████████████████████▎                                                                    | 3396/10000 [03:28<06:06, 17.99it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[108680] loss: 0.067 
[108700] loss: 0.064 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 753.02it/s][A

                                                                                                                                                  [A
 34%|███████████████████████████████████▎                                                                    | 3396/10000 [03:28<06:06, 17.99it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 828.06it/s][A


[108720] loss: 0.076 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 885.25it/s][A

                                                                                                                                                  [A
 34%|███████████████████████████████████▎                                                                    | 3396/10000 [03:28<06:06, 17.99it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[108740] loss: 0.040 


                                                                                                                                                  
 34%|███████████████████████████████████▎                                                                    | 3396/10000 [03:28<06:06, 17.99it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 809.61it/s][A


[108760] loss: 0.091 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 608.13it/s][A
 34%|███████████████████████████████████▎                                                                    | 3399/10000 [03:28<05:48, 18.93it/s]
                                                                                                                                                  [A
 34%|███████████████████████████████████▎                                                                    | 3399/10000 [03:28<05:48, 18.93it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[108780] loss: 0.067 


                                                                                                                                                  
 34%|███████████████████████████████████▎                                                                    | 3399/10000 [03:28<05:48, 18.93it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 604.42it/s][A


[108800] loss: 0.084 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1449.81it/s][A

                                                                                                                                                  [A
 34%|███████████████████████████████████▎                                                                    | 3399/10000 [03:28<05:48, 18.93it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 734.54it/s][A


[108820] loss: 0.092 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2026.23it/s][A
 34%|███████████████████████████████████▎                                                                    | 3401/10000 [03:28<05:54, 18.64it/s]
                                                                                                                                                  [A
 34%|███████████████████████████████████▎                                                                    | 3401/10000 [03:28<05:54, 18.64it/s]
                                                                                                                                                  [A
 34%|███████████████████████████████████▎                                                                    | 3401/10000 [03:28<05:54, 18.64it/s]
Training Epoch:   0%|                                                                                       

[108840] loss: 0.061 
[108860] loss: 0.036 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 620.62it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1408.43it/s][A

                                                                                                                                                  [A
 34%|███████████████████████████████████▎                                                                    | 3401/10000 [03:28<05:54, 18.64it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 767.60it/s][A


[108880] loss: 0.050 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1440.35it/s][A
 34%|███████████████████████████████████▍                                                                    | 3403/10000 [03:28<05:55, 18.54it/s]
                                                                                                                                                  [A
 34%|███████████████████████████████████▍                                                                    | 3403/10000 [03:28<05:55, 18.54it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[108900] loss: 0.071 


                                                                                                                                                  
 34%|███████████████████████████████████▍                                                                    | 3403/10000 [03:28<05:55, 18.54it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 701.54it/s][A


[108920] loss: 0.061 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2317.30it/s][A

                                                                                                                                                  [A
[A                                                                                                                                               

[108940] loss: 0.059 

 34%|███████████████████████████████████▍                                                                    | 3403/10000 [03:28<05:55, 18.54it/s]
                                                                                                                                                  [A
 34%|███████████████████████████████████▍                                                                    | 3403/10000 [03:28<05:55, 18.54it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 627.26it/s][A



[108960] loss: 0.059 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 972.93it/s][A
 34%|███████████████████████████████████▍                                                                    | 3405/10000 [03:28<05:56, 18.50it/s]
                                                                                                                                                  [A
 34%|███████████████████████████████████▍                                                                    | 3405/10000 [03:28<05:56, 18.50it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 634.78it/s][A


[108980] loss: 0.057 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 849.39it/s][A

                                                                                                                                                  [A
 34%|███████████████████████████████████▍                                                                    | 3405/10000 [03:28<05:56, 18.50it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[109000] loss: 0.042 


                                                                                                                                                  
 34%|███████████████████████████████████▍                                                                    | 3405/10000 [03:28<05:56, 18.50it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 544.17it/s][A


[109020] loss: 0.082 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 921.02it/s][A
 34%|███████████████████████████████████▍                                                                    | 3407/10000 [03:28<06:14, 17.62it/s]
                                                                                                                                                  [A
 34%|███████████████████████████████████▍                                                                    | 3407/10000 [03:28<06:14, 17.62it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[109040] loss: 0.038 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 595.52it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1008.25it/s][A

                                                                                                                                                  [A
 34%|███████████████████████████████████▍                                                                    | 3407/10000 [03:28<06:14, 17.62it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[109060] loss: 0.053 


                                                                                                                                                  
 34%|███████████████████████████████████▍                                                                    | 3407/10000 [03:28<06:14, 17.62it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 514.29it/s][A


[109080] loss: 0.065 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 951.52it/s][A
 34%|███████████████████████████████████▍                                                                    | 3409/10000 [03:28<06:31, 16.84it/s]
                                                                                                                                                  [A
 34%|███████████████████████████████████▍                                                                    | 3409/10000 [03:28<06:31, 16.84it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[109100] loss: 0.064 


                                                                                                                                                  
 34%|███████████████████████████████████▍                                                                    | 3409/10000 [03:29<06:31, 16.84it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 553.98it/s][A


[109120] loss: 0.040 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 959.14it/s][A

                                                                                                                                                  [A
 34%|███████████████████████████████████▍                                                                    | 3409/10000 [03:29<06:31, 16.84it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 549.01it/s][A


[109140] loss: 0.065 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 886.00it/s][A
 34%|███████████████████████████████████▍                                                                    | 3411/10000 [03:29<06:43, 16.34it/s]
                                                                                                                                                  [A
 34%|███████████████████████████████████▍                                                                    | 3411/10000 [03:29<06:43, 16.34it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[109160] loss: 0.039 


                                                                                                                                                  
 34%|███████████████████████████████████▍                                                                    | 3411/10000 [03:29<06:43, 16.34it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 533.48it/s][A


[109180] loss: 0.128 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 741.57it/s][A

                                                                                                                                                  [A
 34%|███████████████████████████████████▍                                                                    | 3411/10000 [03:29<06:43, 16.34it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[109200] loss: 0.066 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 511.04it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 996.27it/s][A
 34%|███████████████████████████████████▍                                                                    | 3413/10000 [03:29<06:59, 15.71it/s]
                                                                                                                                                  [A
 34%|███████████████████████████████████▍                                                                    | 3413/10000 [03:29<06:59, 15.71it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[109220] loss: 0.027 


                                                                                                                                                  
 34%|███████████████████████████████████▍                                                                    | 3413/10000 [03:29<06:59, 15.71it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 483.31it/s][A


[109240] loss: 0.042 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 699.05it/s][A

                                                                                                                                                  [A
 34%|███████████████████████████████████▍                                                                    | 3413/10000 [03:29<06:59, 15.71it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[109260] loss: 0.085 


                                                                                                                                                  
 34%|███████████████████████████████████▍                                                                    | 3413/10000 [03:29<06:59, 15.71it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 466.48it/s][A


[109280] loss: 0.029 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 439.01it/s][A
 34%|███████████████████████████████████▌                                                                    | 3415/10000 [03:29<07:26, 14.74it/s]
                                                                                                                                                  [A
 34%|███████████████████████████████████▌                                                                    | 3415/10000 [03:29<07:26, 14.74it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 611.67it/s][A


[109300] loss: 0.079 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 663.34it/s][A

                                                                                                                                                  [A
 34%|███████████████████████████████████▌                                                                    | 3415/10000 [03:29<07:26, 14.74it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[109320] loss: 0.077 


                                                                                                                                                  
 34%|███████████████████████████████████▌                                                                    | 3415/10000 [03:29<07:26, 14.74it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 483.86it/s][A


[109340] loss: 0.083 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 800.13it/s][A
 34%|███████████████████████████████████▌                                                                    | 3417/10000 [03:29<07:32, 14.56it/s]
                                                                                                                                                  [A
 34%|███████████████████████████████████▌                                                                    | 3417/10000 [03:29<07:32, 14.56it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[109360] loss: 0.054 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 562.35it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 826.30it/s][A

                                                                                                                                                  [A
 34%|███████████████████████████████████▌                                                                    | 3417/10000 [03:29<07:32, 14.56it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[109380] loss: 0.058 


                                                                                                                                                  
 34%|███████████████████████████████████▌                                                                    | 3417/10000 [03:29<07:32, 14.56it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 485.04it/s][A


[109400] loss: 0.065 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 677.48it/s][A
 34%|███████████████████████████████████▌                                                                    | 3419/10000 [03:29<07:38, 14.35it/s]
                                                                                                                                                  [A
 34%|███████████████████████████████████▌                                                                    | 3419/10000 [03:29<07:38, 14.35it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[109420] loss: 0.075 


                                                                                                                                                  
 34%|███████████████████████████████████▌                                                                    | 3419/10000 [03:29<07:38, 14.35it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 512.49it/s][A


[109440] loss: 0.009 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 678.25it/s][A

                                                                                                                                                  [A
 34%|███████████████████████████████████▌                                                                    | 3419/10000 [03:29<07:38, 14.35it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 801.16it/s][A


[109460] loss: 0.025 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 425.13it/s][A
 34%|███████████████████████████████████▌                                                                    | 3421/10000 [03:29<07:24, 14.80it/s]
                                                                                                                                                  [A
 34%|███████████████████████████████████▌                                                                    | 3421/10000 [03:29<07:24, 14.80it/s]
                                                                                                                                                  [A
 34%|███████████████████████████████████▌                                                                    | 3421/10000 [03:29<07:24, 14.80it/s]
Training Epoch:   0%|                                                                                       

[109480] loss: 0.057 
[109500] loss: 0.022 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 690.40it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 996.51it/s][A

                                                                                                                                                  [A
 34%|███████████████████████████████████▌                                                                    | 3421/10000 [03:29<07:24, 14.80it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[109520] loss: 0.048 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 751.81it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 803.20it/s][A
 34%|███████████████████████████████████▌                                                                    | 3423/10000 [03:29<06:59, 15.68it/s]
                                                                                                                                                  [A
 34%|███████████████████████████████████▌                                                                    | 3423/10000 [03:29<06:59, 15.68it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[109540] loss: 0.056 


                                                                                                                                                  
 34%|███████████████████████████████████▌                                                                    | 3423/10000 [03:29<06:59, 15.68it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 580.08it/s][A


[109560] loss: 0.082 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 427.68it/s][A

                                                                                                                                                  [A
 34%|███████████████████████████████████▌                                                                    | 3423/10000 [03:29<06:59, 15.68it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[109580] loss: 0.055 


                                                                                                                                                  
 34%|███████████████████████████████████▌                                                                    | 3423/10000 [03:30<06:59, 15.68it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 715.87it/s][A


[109600] loss: 0.092 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 472.38it/s][A
 34%|███████████████████████████████████▌                                                                    | 3425/10000 [03:30<06:50, 16.00it/s]
                                                                                                                                                  [A
 34%|███████████████████████████████████▌                                                                    | 3425/10000 [03:30<06:50, 16.00it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 1068.60it/s][A


[109620] loss: 0.049 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1020.76it/s][A

                                                                                                                                                  [A
 34%|███████████████████████████████████▌                                                                    | 3425/10000 [03:30<06:50, 16.00it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[109640] loss: 0.071 


                                                                                                                                                  
 34%|███████████████████████████████████▌                                                                    | 3425/10000 [03:30<06:50, 16.00it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 899.78it/s][A


[109660] loss: 0.057 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1251.66it/s][A

                                                                                                                                                  [A
 34%|███████████████████████████████████▌                                                                    | 3425/10000 [03:30<06:50, 16.00it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[109680] loss: 0.048 


Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 1018.20it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1979.38it/s][A
 34%|███████████████████████████████████▋                                                                    | 3428/10000 [03:30<05:50, 18.77it/s]
                                                                                                                                                  [A
 34%|███████████████████████████████████▋                                                                    | 3428/10000 [03:30<05:50, 18.77it/s]
                                                                                                                                                  [A
 34%|███████████████████████████████████▋                                                                   

[109700] loss: 0.055 
[109720] loss: 0.060 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1305.01it/s][A

                                                                                                                                                  [A
 34%|███████████████████████████████████▋                                                                    | 3428/10000 [03:30<05:50, 18.77it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[109740] loss: 0.076 


                                                                                                                                                  
 34%|███████████████████████████████████▋                                                                    | 3428/10000 [03:30<05:50, 18.77it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[109760] loss: 0.078 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 634.76it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 772.29it/s][A
 34%|███████████████████████████████████▋                                                                    | 3430/10000 [03:30<05:56, 18.44it/s]
                                                                                                                                                  [A
 34%|███████████████████████████████████▋                                                                    | 3430/10000 [03:30<05:56, 18.44it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[109780] loss: 0.121 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 882.93it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1453.83it/s][A

                                                                                                                                                  [A
 34%|███████████████████████████████████▋                                                                    | 3430/10000 [03:30<05:56, 18.44it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[109800] loss: 0.026 


                                                                                                                                                  
 34%|███████████████████████████████████▋                                                                    | 3430/10000 [03:30<05:56, 18.44it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[109820] loss: 0.042 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 613.47it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1066.98it/s][A
 34%|███████████████████████████████████▋                                                                    | 3432/10000 [03:30<05:54, 18.52it/s]
                                                                                                                                                  [A
 34%|███████████████████████████████████▋                                                                    | 3432/10000 [03:30<05:54, 18.52it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 791.48it/s][A


[109840] loss: 0.032 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1574.44it/s][A

                                                                                                                                                  [A
 34%|███████████████████████████████████▋                                                                    | 3432/10000 [03:30<05:54, 18.52it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[109860] loss: 0.070 


                                                                                                                                                  
 34%|███████████████████████████████████▋                                                                    | 3432/10000 [03:30<05:54, 18.52it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 612.37it/s][A


[109880] loss: 0.036 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 780.92it/s][A
 34%|███████████████████████████████████▋                                                                    | 3434/10000 [03:30<05:58, 18.34it/s]
                                                                                                                                                  [A
 34%|███████████████████████████████████▋                                                                    | 3434/10000 [03:30<05:58, 18.34it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[109900] loss: 0.029 


                                                                                                                                                  
 34%|███████████████████████████████████▋                                                                    | 3434/10000 [03:30<05:58, 18.34it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 621.29it/s][A


[109920] loss: 0.196 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1343.04it/s][A

                                                                                                                                                  [A
 34%|███████████████████████████████████▋                                                                    | 3434/10000 [03:30<05:58, 18.34it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 853.42it/s][A


[109940] loss: 0.036 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1509.83it/s][A
 34%|███████████████████████████████████▋                                                                    | 3436/10000 [03:30<05:56, 18.44it/s]
                                                                                                                                                  [A
 34%|███████████████████████████████████▋                                                                    | 3436/10000 [03:30<05:56, 18.44it/s]
                                                                                                                                                  [A
 34%|███████████████████████████████████▋                                                                    | 3436/10000 [03:30<05:56, 18.44it/s]
Training Epoch:   0%|                                                                                       

[109960] loss: 0.049 
[109980] loss: 0.090 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 683.35it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1076.57it/s][A

                                                                                                                                                  [A
 34%|███████████████████████████████████▋                                                                    | 3436/10000 [03:30<05:56, 18.44it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 756.06it/s][A


[110000] loss: 0.033 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 623.22it/s][A
 34%|███████████████████████████████████▊                                                                    | 3438/10000 [03:30<05:56, 18.42it/s]
                                                                                                                                                  [A
 34%|███████████████████████████████████▊                                                                    | 3438/10000 [03:30<05:56, 18.42it/s]
                                                                                                                                                  [A
[A                                                                                                                                               

[110020] loss: 0.041 


 34%|███████████████████████████████████▊                                                                    | 3438/10000 [03:30<05:56, 18.42it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 710.56it/s][A


[110040] loss: 0.099 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1528.54it/s][A

                                                                                                                                                  [A
 34%|███████████████████████████████████▊                                                                    | 3438/10000 [03:30<05:56, 18.42it/s]
                                                                                                                                                  [A
 34%|███████████████████████████████████▊                                                                    | 3438/10000 [03:30<05:56, 18.42it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 760.03it/s][A


[110060] loss: 0.065 
[110080] loss: 0.037 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1481.56it/s][A
 34%|███████████████████████████████████▊                                                                    | 3440/10000 [03:30<05:51, 18.69it/s]
                                                                                                                                                  [A
 34%|███████████████████████████████████▊                                                                    | 3440/10000 [03:30<05:51, 18.69it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 777.57it/s][A


[110100] loss: 0.064 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1076.29it/s][A

                                                                                                                                                  [A
 34%|███████████████████████████████████▊                                                                    | 3440/10000 [03:30<05:51, 18.69it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[110120] loss: 0.078 


                                                                                                                                                  
 34%|███████████████████████████████████▊                                                                    | 3440/10000 [03:30<05:51, 18.69it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[110140] loss: 0.052 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 564.17it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 830.39it/s][A
 34%|███████████████████████████████████▊                                                                    | 3442/10000 [03:30<06:00, 18.21it/s]
                                                                                                                                                  [A
 34%|███████████████████████████████████▊                                                                    | 3442/10000 [03:30<06:00, 18.21it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[110160] loss: 0.060 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 637.08it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1014.34it/s][A

                                                                                                                                                  [A
 34%|███████████████████████████████████▊                                                                    | 3442/10000 [03:30<06:00, 18.21it/s]
                                                                                                                                                  [A
 34%|███████████████████████████████████▊                                                                    | 3442/10000 [03:31<06:00, 18.21it/s]
Training Epoch:   0%|                                                                                      

[110180] loss: 0.051 
[110200] loss: 0.062 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 509.06it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 925.28it/s][A
 34%|███████████████████████████████████▊                                                                    | 3444/10000 [03:31<06:20, 17.24it/s]
                                                                                                                                                  [A
 34%|███████████████████████████████████▊                                                                    | 3444/10000 [03:31<06:20, 17.24it/s]
                                                                                                                                                  [A

[110220] loss: 0.045 



 34%|███████████████████████████████████▊                                                                    | 3444/10000 [03:31<06:20, 17.24it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 553.35it/s][A


[110240] loss: 0.087 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 543.51it/s][A

                                                                                                                                                  [A
 34%|███████████████████████████████████▊                                                                    | 3444/10000 [03:31<06:20, 17.24it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 559.72it/s][A


[110260] loss: 0.056 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 463.05it/s][A
 34%|███████████████████████████████████▊                                                                    | 3446/10000 [03:31<06:38, 16.45it/s]
                                                                                                                                                  [A
 34%|███████████████████████████████████▊                                                                    | 3446/10000 [03:31<06:38, 16.45it/s]
                                                                                                                                                  [A
 34%|███████████████████████████████████▊                                                                    | 3446/10000 [03:31<06:38, 16.45it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[110280] loss: 0.047 
[110300] loss: 0.035 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 768.47it/s][A

                                                                                                                                                  [A
 34%|███████████████████████████████████▊                                                                    | 3446/10000 [03:31<06:38, 16.45it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[110320] loss: 0.069 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 582.69it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 508.65it/s][A
 34%|███████████████████████████████████▊                                                                    | 3448/10000 [03:31<06:54, 15.81it/s]
                                                                                                                                                  [A
 34%|███████████████████████████████████▊                                                                    | 3448/10000 [03:31<06:54, 15.81it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[110340] loss: 0.072 


                                                                                                                                                  
 34%|███████████████████████████████████▊                                                                    | 3448/10000 [03:31<06:54, 15.81it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 541.28it/s][A


[110360] loss: 0.055 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1283.45it/s][A

                                                                                                                                                  [A
 34%|███████████████████████████████████▊                                                                    | 3448/10000 [03:31<06:54, 15.81it/s]
                                                                                                                                                  [A
 34%|███████████████████████████████████▊                                                                    | 3448/10000 [03:31<06:54, 15.81it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 564.13it/s][A


[110380] loss: 0.042 
[110400] loss: 0.153 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 749.25it/s][A
 34%|███████████████████████████████████▉                                                                    | 3450/10000 [03:31<06:59, 15.61it/s]
                                                                                                                                                  [A
 34%|███████████████████████████████████▉                                                                    | 3450/10000 [03:31<06:59, 15.61it/s]

[110420] loss: 0.050 



Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 629.58it/s][A

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 983.65it/s][A

                                                                                                                                                  [A
 34%|███████████████████████████████████▉                                                                    | 3450/10000 [03:31<06:59, 15.61it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[110440] loss: 0.060 


                                                                                                                                                  
 34%|███████████████████████████████████▉                                                                    | 3450/10000 [03:31<06:59, 15.61it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[110460] loss: 0.050 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 508.98it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 666.29it/s][A
 35%|███████████████████████████████████▉                                                                    | 3452/10000 [03:31<07:02, 15.49it/s]
                                                                                                                                                  [A
 35%|███████████████████████████████████▉                                                                    | 3452/10000 [03:31<07:02, 15.49it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 595.53it/s][A


[110480] loss: 0.064 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 392.87it/s][A

                                                                                                                                                  [A
 35%|███████████████████████████████████▉                                                                    | 3452/10000 [03:31<07:02, 15.49it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[110500] loss: 0.049 


                                                                                                                                                  
 35%|███████████████████████████████████▉                                                                    | 3452/10000 [03:31<07:02, 15.49it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 469.90it/s][A


[110520] loss: 0.098 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 470.48it/s][A
 35%|███████████████████████████████████▉                                                                    | 3454/10000 [03:31<07:18, 14.94it/s]
                                                                                                                                                  [A
 35%|███████████████████████████████████▉                                                                    | 3454/10000 [03:31<07:18, 14.94it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[110540] loss: 0.075 


                                                                                                                                                  
 35%|███████████████████████████████████▉                                                                    | 3454/10000 [03:31<07:18, 14.94it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 555.62it/s][A


[110560] loss: 0.018 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 539.46it/s][A

                                                                                                                                                  [A
 35%|███████████████████████████████████▉                                                                    | 3454/10000 [03:31<07:18, 14.94it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 609.47it/s][A


[110580] loss: 0.085 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 646.57it/s][A
 35%|███████████████████████████████████▉                                                                    | 3456/10000 [03:31<07:11, 15.16it/s]
                                                                                                                                                  [A
 35%|███████████████████████████████████▉                                                                    | 3456/10000 [03:31<07:11, 15.16it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[110600] loss: 0.074 


                                                                                                                                                  
 35%|███████████████████████████████████▉                                                                    | 3456/10000 [03:31<07:11, 15.16it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 504.30it/s][A


[110620] loss: 0.055 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 761.35it/s][A

                                                                                                                                                  [A
 35%|███████████████████████████████████▉                                                                    | 3456/10000 [03:31<07:11, 15.16it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[110640] loss: 0.034 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 575.72it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 749.65it/s][A
 35%|███████████████████████████████████▉                                                                    | 3458/10000 [03:31<07:18, 14.90it/s]
                                                                                                                                                  [A
 35%|███████████████████████████████████▉                                                                    | 3458/10000 [03:32<07:18, 14.90it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[110660] loss: 0.049 


                                                                                                                                                  
 35%|███████████████████████████████████▉                                                                    | 3458/10000 [03:32<07:18, 14.90it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 629.71it/s][A


[110680] loss: 0.107 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 494.44it/s][A

                                                                                                                                                  [A
 35%|███████████████████████████████████▉                                                                    | 3458/10000 [03:32<07:18, 14.90it/s]
                                                                                                                                                  [A
 35%|███████████████████████████████████▉                                                                    | 3458/10000 [03:32<07:18, 14.90it/s]

[110700] loss: 0.070 
[110720] loss: 0.038 



Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 634.01it/s][A

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 664.18it/s][A
 35%|███████████████████████████████████▉                                                                    | 3460/10000 [03:32<07:10, 15.18it/s]
                                                                                                                                                  [A
 35%|███████████████████████████████████▉                                                                    | 3460/10000 [03:32<07:10, 15.18it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[110740] loss: 0.032 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 803.04it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1330.26it/s][A

                                                                                                                                                  [A
 35%|███████████████████████████████████▉                                                                    | 3460/10000 [03:32<07:10, 15.18it/s]
                                                                                                                                                  [A
 35%|███████████████████████████████████▉                                                                    | 3460/10000 [03:32<07:10, 15.18it/s]
Training Epoch: 100%|██████████████████████████████████████████████████████████████████████████████████████

[110760] loss: 0.035 
[110780] loss: 0.094 




Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1306.23it/s][A
 35%|████████████████████████████████████                                                                    | 3462/10000 [03:32<06:40, 16.34it/s]
                                                                                                                                                  [A
 35%|████████████████████████████████████                                                                    | 3462/10000 [03:32<06:40, 16.34it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 892.30it/s][A


[110800] loss: 0.072 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2132.34it/s][A

                                                                                                                                                  [A
 35%|████████████████████████████████████                                                                    | 3462/10000 [03:32<06:40, 16.34it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[110820] loss: 0.055 


                                                                                                                                                  
 35%|████████████████████████████████████                                                                    | 3462/10000 [03:32<06:40, 16.34it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 674.81it/s][A


[110840] loss: 0.115 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2079.48it/s][A

                                                                                                                                                  [A
 35%|████████████████████████████████████                                                                    | 3462/10000 [03:32<06:40, 16.34it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[110860] loss: 0.044 


                                                                                                                                                  
 35%|████████████████████████████████████                                                                    | 3462/10000 [03:32<06:40, 16.34it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 760.91it/s][A


[110880] loss: 0.067 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2304.56it/s][A
 35%|████████████████████████████████████                                                                    | 3465/10000 [03:32<06:07, 17.79it/s]
                                                                                                                                                  [A
 35%|████████████████████████████████████                                                                    | 3465/10000 [03:32<06:07, 17.79it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 745.55it/s][A


[110900] loss: 0.036 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 862.67it/s][A

                                                                                                                                                  [A
 35%|████████████████████████████████████                                                                    | 3465/10000 [03:32<06:07, 17.79it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[110920] loss: 0.046 


                                                                                                                                                  
 35%|████████████████████████████████████                                                                    | 3465/10000 [03:32<06:07, 17.79it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[110940] loss: 0.049 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 521.35it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1361.79it/s][A
 35%|████████████████████████████████████                                                                    | 3467/10000 [03:32<06:13, 17.50it/s]
                                                                                                                                                  [A
 35%|████████████████████████████████████                                                                    | 3467/10000 [03:32<06:13, 17.50it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 843.68it/s][A


[110960] loss: 0.049 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 802.43it/s][A

                                                                                                                                                  [A
 35%|████████████████████████████████████                                                                    | 3467/10000 [03:32<06:13, 17.50it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[110980] loss: 0.040 


                                                                                                                                                  
 35%|████████████████████████████████████                                                                    | 3467/10000 [03:32<06:13, 17.50it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 602.06it/s][A


[111000] loss: 0.060 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1385.17it/s][A
 35%|████████████████████████████████████                                                                    | 3469/10000 [03:32<06:11, 17.58it/s]
                                                                                                                                                  [A
 35%|████████████████████████████████████                                                                    | 3469/10000 [03:32<06:11, 17.58it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[111020] loss: 0.062 


                                                                                                                                                  
 35%|████████████████████████████████████                                                                    | 3469/10000 [03:32<06:11, 17.58it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 678.20it/s][A


[111040] loss: 0.062 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 422.47it/s][A

                                                                                                                                                  [A
 35%|████████████████████████████████████                                                                    | 3469/10000 [03:32<06:11, 17.58it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 779.46it/s][A


[111060] loss: 0.072 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1992.54it/s][A
 35%|████████████████████████████████████                                                                    | 3471/10000 [03:32<06:03, 17.94it/s]
                                                                                                                                                  [A
 35%|████████████████████████████████████                                                                    | 3471/10000 [03:32<06:03, 17.94it/s]
                                                                                                                                                  [A


[111080] loss: 0.107 


 35%|████████████████████████████████████                                                                    | 3471/10000 [03:32<06:03, 17.94it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 670.08it/s][A


[111100] loss: 0.073 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2099.25it/s][A

                                                                                                                                                  [A
 35%|████████████████████████████████████                                                                    | 3471/10000 [03:32<06:03, 17.94it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[111120] loss: 0.060 


Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 1091.00it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2016.49it/s][A

                                                                                                                                                  [A
 35%|████████████████████████████████████                                                                    | 3471/10000 [03:32<06:03, 17.94it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[111140] loss: 0.072 


                                                                                                                                                  
 35%|████████████████████████████████████                                                                    | 3471/10000 [03:32<06:03, 17.94it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 833.70it/s][A


[111160] loss: 0.045 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 683.78it/s][A
 35%|████████████████████████████████████▏                                                                   | 3474/10000 [03:32<05:39, 19.23it/s]
                                                                                                                                                  [A
 35%|████████████████████████████████████▏                                                                   | 3474/10000 [03:32<05:39, 19.23it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[111180] loss: 0.044 


                                                                                                                                                  
 35%|████████████████████████████████████▏                                                                   | 3474/10000 [03:32<05:39, 19.23it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 616.02it/s][A


[111200] loss: 0.061 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1365.78it/s][A

                                                                                                                                                  [A
 35%|████████████████████████████████████▏                                                                   | 3474/10000 [03:32<05:39, 19.23it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 733.25it/s][A


[111220] loss: 0.038 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1425.18it/s][A
 35%|████████████████████████████████████▏                                                                   | 3476/10000 [03:32<05:48, 18.70it/s]
                                                                                                                                                  [A
 35%|████████████████████████████████████▏                                                                   | 3476/10000 [03:32<05:48, 18.70it/s]
                                                                                                                                                  [A
 35%|████████████████████████████████████▏                                                                   | 3476/10000 [03:32<05:48, 18.70it/s]
Training Epoch:   0%|                                                                                       

[111240] loss: 0.086 
[111260] loss: 0.050 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 638.93it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1280.31it/s][A

                                                                                                                                                  [A
 35%|████████████████████████████████████▏                                                                   | 3476/10000 [03:33<05:48, 18.70it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 754.52it/s][A


[111280] loss: 0.050 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 719.56it/s][A
 35%|████████████████████████████████████▏                                                                   | 3478/10000 [03:33<05:55, 18.34it/s]
                                                                                                                                                  [A
 35%|████████████████████████████████████▏                                                                   | 3478/10000 [03:33<05:55, 18.34it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[111300] loss: 0.075 


                                                                                                                                                  
 35%|████████████████████████████████████▏                                                                   | 3478/10000 [03:33<05:55, 18.34it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[111320] loss: 0.071 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 471.79it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 641.33it/s][A

                                                                                                                                                  [A
 35%|████████████████████████████████████▏                                                                   | 3478/10000 [03:33<05:55, 18.34it/s]

[111340] loss: 0.058 



                                                                                                                                                  [A
 35%|████████████████████████████████████▏                                                                   | 3478/10000 [03:33<05:55, 18.34it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 509.53it/s][A


[111360] loss: 0.021 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 960.89it/s][A
 35%|████████████████████████████████████▏                                                                   | 3480/10000 [03:33<06:33, 16.58it/s]
                                                                                                                                                  [A
 35%|████████████████████████████████████▏                                                                   | 3480/10000 [03:33<06:33, 16.58it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 643.46it/s][A


[111380] loss: 0.047 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1090.85it/s][A

                                                                                                                                                  [A
 35%|████████████████████████████████████▏                                                                   | 3480/10000 [03:33<06:33, 16.58it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[111400] loss: 0.052 


                                                                                                                                                  
 35%|████████████████████████████████████▏                                                                   | 3480/10000 [03:33<06:33, 16.58it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 560.94it/s][A


[111420] loss: 0.097 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 582.87it/s][A
 35%|████████████████████████████████████▏                                                                   | 3482/10000 [03:33<06:36, 16.42it/s]
                                                                                                                                                  [A
 35%|████████████████████████████████████▏                                                                   | 3482/10000 [03:33<06:36, 16.42it/s]

[111440] loss: 0.085 



Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 621.25it/s][A

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 876.74it/s][A

                                                                                                                                                  [A
 35%|████████████████████████████████████▏                                                                   | 3482/10000 [03:33<06:36, 16.42it/s]
                                                                                                                                                  [A
 35%|████████████████████████████████████▏                                                                   | 3482/10000 [03:33<06:36, 16.42it/s]
Training Epoch:   0%|                                                                                  

[111460] loss: 0.059 
[111480] loss: 0.046 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 576.69it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 760.25it/s][A
 35%|████████████████████████████████████▏                                                                   | 3484/10000 [03:33<06:39, 16.32it/s]
                                                                                                                                                  [A
 35%|████████████████████████████████████▏                                                                   | 3484/10000 [03:33<06:39, 16.32it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[111500] loss: 0.032 


                                                                                                                                                  
 35%|████████████████████████████████████▏                                                                   | 3484/10000 [03:33<06:39, 16.32it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 564.46it/s][A


[111520] loss: 0.029 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 623.97it/s][A

                                                                                                                                                  [A
 35%|████████████████████████████████████▏                                                                   | 3484/10000 [03:33<06:39, 16.32it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[111540] loss: 0.054 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 653.07it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 849.57it/s][A
 35%|████████████████████████████████████▎                                                                   | 3486/10000 [03:33<06:40, 16.25it/s]
                                                                                                                                                  [A
 35%|████████████████████████████████████▎                                                                   | 3486/10000 [03:33<06:40, 16.25it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[111560] loss: 0.049 


                                                                                                                                                  
 35%|████████████████████████████████████▎                                                                   | 3486/10000 [03:33<06:40, 16.25it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 528.16it/s][A


[111580] loss: 0.095 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 580.04it/s][A

                                                                                                                                                  [A
 35%|████████████████████████████████████▎                                                                   | 3486/10000 [03:33<06:40, 16.25it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[111600] loss: 0.051 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 678.29it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 655.56it/s][A
 35%|████████████████████████████████████▎                                                                   | 3488/10000 [03:33<06:44, 16.09it/s]
                                                                                                                                                  [A
 35%|████████████████████████████████████▎                                                                   | 3488/10000 [03:33<06:44, 16.09it/s]
                                                                                                                                                  [A
 35%|████████████████████████████████████▎                                                                  

[111620] loss: 0.069 
[111640] loss: 0.052 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 572.17it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 757.23it/s][A

                                                                                                                                                  [A
 35%|████████████████████████████████████▎                                                                   | 3488/10000 [03:33<06:44, 16.09it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[111660] loss: 0.059 


                                                                                                                                                  
 35%|████████████████████████████████████▎                                                                   | 3488/10000 [03:33<06:44, 16.09it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 506.15it/s][A

[111680] loss: 0.040 




Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 837.69it/s][A
 35%|████████████████████████████████████▎                                                                   | 3490/10000 [03:33<06:55, 15.68it/s]
                                                                                                                                                  [A
 35%|████████████████████████████████████▎                                                                   | 3490/10000 [03:33<06:55, 15.68it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 557.57it/s][A


[111700] loss: 0.119 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 728.68it/s][A

                                                                                                                                                  [A
 35%|████████████████████████████████████▎                                                                   | 3490/10000 [03:33<06:55, 15.68it/s]
                                                                                                                                                  [A
 35%|████████████████████████████████████▎                                                                   | 3490/10000 [03:33<06:55, 15.68it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 556.60it/s][A


[111720] loss: 0.038 
[111740] loss: 0.056 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 803.35it/s][A
 35%|████████████████████████████████████▎                                                                   | 3492/10000 [03:33<06:58, 15.54it/s]
                                                                                                                                                  [A
 35%|████████████████████████████████████▎                                                                   | 3492/10000 [03:34<06:58, 15.54it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 573.58it/s][A

[111760] loss: 0.061 




Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1621.93it/s][A

                                                                                                                                                  [A
 35%|████████████████████████████████████▎                                                                   | 3492/10000 [03:34<06:58, 15.54it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[111780] loss: 0.050 


                                                                                                                                                  
 35%|████████████████████████████████████▎                                                                   | 3492/10000 [03:34<06:58, 15.54it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 486.73it/s][A


[111800] loss: 0.044 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 696.96it/s][A
 35%|████████████████████████████████████▎                                                                   | 3494/10000 [03:34<07:11, 15.07it/s]
                                                                                                                                                  [A
 35%|████████████████████████████████████▎                                                                   | 3494/10000 [03:34<07:11, 15.07it/s]
                                                                                                                                                  [A
 35%|████████████████████████████████████▎                                                                   | 3494/10000 [03:34<07:11, 15.07it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[111820] loss: 0.055 
[111840] loss: 0.009 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1151.33it/s][A

                                                                                                                                                  [A
 35%|████████████████████████████████████▎                                                                   | 3494/10000 [03:34<07:11, 15.07it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 793.52it/s][A


[111860] loss: 0.068 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 658.34it/s][A
 35%|████████████████████████████████████▎                                                                   | 3496/10000 [03:34<06:54, 15.69it/s]
                                                                                                                                                  [A
 35%|████████████████████████████████████▎                                                                   | 3496/10000 [03:34<06:54, 15.69it/s]


[111880] loss: 0.047 


                                                                                                                                                  [A
 35%|████████████████████████████████████▎                                                                   | 3496/10000 [03:34<06:54, 15.69it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[111900] loss: 0.046 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 553.79it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1153.87it/s][A

                                                                                                                                                  [A
 35%|████████████████████████████████████▎                                                                   | 3496/10000 [03:34<06:54, 15.69it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[111920] loss: 0.045 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 733.59it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2038.05it/s][A
 35%|████████████████████████████████████▍                                                                   | 3498/10000 [03:34<06:45, 16.02it/s]
                                                                                                                                                  [A
 35%|████████████████████████████████████▍                                                                   | 3498/10000 [03:34<06:45, 16.02it/s]
                                                                                                                                                  [A
 35%|████████████████████████████████████▍                                                                  

[111940] loss: 0.060 
[111960] loss: 0.043 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1302.58it/s][A

                                                                                                                                                  [A
 35%|████████████████████████████████████▍                                                                   | 3498/10000 [03:34<06:45, 16.02it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[111980] loss: 0.077 


                                                                                                                                                  
 35%|████████████████████████████████████▍                                                                   | 3498/10000 [03:34<06:45, 16.02it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 592.91it/s][A


[112000] loss: 0.019 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1342.61it/s][A
 35%|████████████████████████████████████▍                                                                   | 3500/10000 [03:34<06:42, 16.13it/s]
                                                                                                                                                  [A
 35%|████████████████████████████████████▍                                                                   | 3500/10000 [03:34<06:42, 16.13it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 765.74it/s][A


[112020] loss: 0.073 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 753.96it/s][A

                                                                                                                                                  [A
 35%|████████████████████████████████████▍                                                                   | 3500/10000 [03:34<06:42, 16.13it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[112040] loss: 0.091 


                                                                                                                                                  
 35%|████████████████████████████████████▍                                                                   | 3500/10000 [03:34<06:42, 16.13it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 571.18it/s][A


[112060] loss: 0.061 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1183.83it/s][A
 35%|████████████████████████████████████▍                                                                   | 3502/10000 [03:34<06:38, 16.31it/s]
                                                                                                                                                  [A
 35%|████████████████████████████████████▍                                                                   | 3502/10000 [03:34<06:38, 16.31it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[112080] loss: 0.046 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 650.38it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1900.45it/s][A

                                                                                                                                                  [A
 35%|████████████████████████████████████▍                                                                   | 3502/10000 [03:34<06:38, 16.31it/s]
                                                                                                                                                  [A
 35%|████████████████████████████████████▍                                                                   | 3502/10000 [03:34<06:38, 16.31it/s]
Training Epoch:   0%|                                                                                      

[112100] loss: 0.054 
[112120] loss: 0.031 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 578.94it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1576.21it/s][A
 35%|████████████████████████████████████▍                                                                   | 3504/10000 [03:34<06:42, 16.15it/s]
                                                                                                                                                  [A
 35%|████████████████████████████████████▍                                                                   | 3504/10000 [03:34<06:42, 16.15it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[112140] loss: 0.070 


                                                                                                                                                  
 35%|████████████████████████████████████▍                                                                   | 3504/10000 [03:34<06:42, 16.15it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 442.74it/s][A


[112160] loss: 0.053 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1353.00it/s][A

                                                                                                                                                  [A
 35%|████████████████████████████████████▍                                                                   | 3504/10000 [03:34<06:42, 16.15it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 773.01it/s][A


[112180] loss: 0.032 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1321.87it/s][A
 35%|████████████████████████████████████▍                                                                   | 3506/10000 [03:34<06:50, 15.81it/s]
                                                                                                                                                  [A
 35%|████████████████████████████████████▍                                                                   | 3506/10000 [03:34<06:50, 15.81it/s]
                                                                                                                                                  [A
 35%|████████████████████████████████████▍                                                                   | 3506/10000 [03:34<06:50, 15.81it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[112200] loss: 0.057 
[112220] loss: 0.062 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 789.44it/s][A

                                                                                                                                                  [A
 35%|████████████████████████████████████▍                                                                   | 3506/10000 [03:34<06:50, 15.81it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[112240] loss: 0.053 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 732.02it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1748.36it/s][A
 35%|████████████████████████████████████▍                                                                   | 3508/10000 [03:34<06:39, 16.26it/s]
                                                                                                                                                  [A
 35%|████████████████████████████████████▍                                                                   | 3508/10000 [03:34<06:39, 16.26it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[112260] loss: 0.048 


                                                                                                                                                  
 35%|████████████████████████████████████▍                                                                   | 3508/10000 [03:35<06:39, 16.26it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 559.30it/s][A

[112280] loss: 0.048 




Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1280.31it/s][A

                                                                                                                                                  [A
 35%|████████████████████████████████████▍                                                                   | 3508/10000 [03:35<06:39, 16.26it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[112300] loss: 0.088 


                                                                                                                                                  
 35%|████████████████████████████████████▍                                                                   | 3508/10000 [03:35<06:39, 16.26it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 606.47it/s][A


[112320] loss: 0.033 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1480.52it/s][A
 35%|████████████████████████████████████▌                                                                   | 3510/10000 [03:35<06:44, 16.03it/s]
                                                                                                                                                  [A
 35%|████████████████████████████████████▌                                                                   | 3510/10000 [03:35<06:44, 16.03it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[112340] loss: 0.052 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 606.15it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1447.81it/s][A

                                                                                                                                                  [A
 35%|████████████████████████████████████▌                                                                   | 3510/10000 [03:35<06:44, 16.03it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[112360] loss: 0.045 


                                                                                                                                                  
 35%|████████████████████████████████████▌                                                                   | 3510/10000 [03:35<06:44, 16.03it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 621.42it/s][A


[112380] loss: 0.032 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1488.93it/s][A
 35%|████████████████████████████████████▌                                                                   | 3512/10000 [03:35<06:39, 16.23it/s]
                                                                                                                                                  [A
 35%|████████████████████████████████████▌                                                                   | 3512/10000 [03:35<06:39, 16.23it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[112400] loss: 0.077 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 669.00it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1934.64it/s][A

                                                                                                                                                  [A
 35%|████████████████████████████████████▌                                                                   | 3512/10000 [03:35<06:39, 16.23it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[112420] loss: 0.062 


                                                                                                                                                  
 35%|████████████████████████████████████▌                                                                   | 3512/10000 [03:35<06:39, 16.23it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 631.87it/s][A


[112440] loss: 0.050 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 725.66it/s][A
 35%|████████████████████████████████████▌                                                                   | 3514/10000 [03:35<06:34, 16.45it/s]
                                                                                                                                                  [A
 35%|████████████████████████████████████▌                                                                   | 3514/10000 [03:35<06:34, 16.45it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[112460] loss: 0.047 


                                                                                                                                                  
 35%|████████████████████████████████████▌                                                                   | 3514/10000 [03:35<06:34, 16.45it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 647.01it/s][A


[112480] loss: 0.209 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1362.67it/s][A

                                                                                                                                                  [A
 35%|████████████████████████████████████▌                                                                   | 3514/10000 [03:35<06:34, 16.45it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 752.72it/s][A


[112500] loss: 0.060 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2029.17it/s][A
 35%|████████████████████████████████████▌                                                                   | 3516/10000 [03:35<06:25, 16.83it/s]
                                                                                                                                                  [A
 35%|████████████████████████████████████▌                                                                   | 3516/10000 [03:35<06:25, 16.83it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[112520] loss: 0.052 


                                                                                                                                                  
 35%|████████████████████████████████████▌                                                                   | 3516/10000 [03:35<06:25, 16.83it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 628.20it/s][A


[112540] loss: 0.034 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1392.07it/s][A

                                                                                                                                                  [A
 35%|████████████████████████████████████▌                                                                   | 3516/10000 [03:35<06:25, 16.83it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 732.63it/s][A


[112560] loss: 0.095 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 778.02it/s][A
 35%|████████████████████████████████████▌                                                                   | 3518/10000 [03:35<06:19, 17.08it/s]
                                                                                                                                                  [A
 35%|████████████████████████████████████▌                                                                   | 3518/10000 [03:35<06:19, 17.08it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[112580] loss: 0.057 


                                                                                                                                                  
 35%|████████████████████████████████████▌                                                                   | 3518/10000 [03:35<06:19, 17.08it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[112600] loss: 0.066 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 528.86it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 828.42it/s][A

                                                                                                                                                  [A
 35%|████████████████████████████████████▌                                                                   | 3518/10000 [03:35<06:19, 17.08it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[112620] loss: 0.049 


                                                                                                                                                  
 35%|████████████████████████████████████▌                                                                   | 3518/10000 [03:35<06:19, 17.08it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 483.41it/s][A


[112640] loss: 0.045 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 660.10it/s][A
 35%|████████████████████████████████████▌                                                                   | 3520/10000 [03:35<06:51, 15.74it/s]
                                                                                                                                                  [A
 35%|████████████████████████████████████▌                                                                   | 3520/10000 [03:35<06:51, 15.74it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 582.36it/s][A


[112660] loss: 0.073 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 720.30it/s][A

                                                                                                                                                  [A
 35%|████████████████████████████████████▌                                                                   | 3520/10000 [03:35<06:51, 15.74it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[112680] loss: 0.035 


                                                                                                                                                  
 35%|████████████████████████████████████▌                                                                   | 3520/10000 [03:35<06:51, 15.74it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 487.20it/s][A


[112700] loss: 0.052 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 894.50it/s][A
 35%|████████████████████████████████████▋                                                                   | 3522/10000 [03:35<07:05, 15.21it/s]
                                                                                                                                                  [A
 35%|████████████████████████████████████▋                                                                   | 3522/10000 [03:35<07:05, 15.21it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[112720] loss: 0.076 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 577.95it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 655.36it/s][A

                                                                                                                                                  [A
 35%|████████████████████████████████████▋                                                                   | 3522/10000 [03:35<07:05, 15.21it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[112740] loss: 0.054 


                                                                                                                                                  
 35%|████████████████████████████████████▋                                                                   | 3522/10000 [03:35<07:05, 15.21it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 446.32it/s][A


[112760] loss: 0.055 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 575.59it/s][A
 35%|████████████████████████████████████▋                                                                   | 3524/10000 [03:36<07:22, 14.63it/s]
                                                                                                                                                  [A
 35%|████████████████████████████████████▋                                                                   | 3524/10000 [03:36<07:22, 14.63it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[112780] loss: 0.062 


                                                                                                                                                  
 35%|████████████████████████████████████▋                                                                   | 3524/10000 [03:36<07:22, 14.63it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 543.42it/s][A


[112800] loss: 0.050 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 338.00it/s][A

                                                                                                                                                  [A
 35%|████████████████████████████████████▋                                                                   | 3524/10000 [03:36<07:22, 14.63it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 576.21it/s][A


[112820] loss: 0.045 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 812.69it/s][A
 35%|████████████████████████████████████▋                                                                   | 3526/10000 [03:36<07:19, 14.73it/s]
                                                                                                                                                  [A
 35%|████████████████████████████████████▋                                                                   | 3526/10000 [03:36<07:19, 14.73it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[112840] loss: 0.050 


                                                                                                                                                  
 35%|████████████████████████████████████▋                                                                   | 3526/10000 [03:36<07:19, 14.73it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 496.92it/s][A


[112860] loss: 0.098 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 902.00it/s][A

                                                                                                                                                  [A
 35%|████████████████████████████████████▋                                                                   | 3526/10000 [03:36<07:19, 14.73it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[112880] loss: 0.045 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 556.75it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 923.04it/s][A
 35%|████████████████████████████████████▋                                                                   | 3528/10000 [03:36<07:23, 14.58it/s]
                                                                                                                                                  [A
 35%|████████████████████████████████████▋                                                                   | 3528/10000 [03:36<07:23, 14.58it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[112900] loss: 0.040 


                                                                                                                                                  
 35%|████████████████████████████████████▋                                                                   | 3528/10000 [03:36<07:23, 14.58it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 525.06it/s][A


[112920] loss: 0.040 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 490.62it/s][A

                                                                                                                                                  [A
 35%|████████████████████████████████████▋                                                                   | 3528/10000 [03:36<07:23, 14.58it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[112940] loss: 0.056 


                                                                                                                                                  
 35%|████████████████████████████████████▋                                                                   | 3528/10000 [03:36<07:23, 14.58it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 463.29it/s][A


[112960] loss: 0.057 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 774.86it/s][A
 35%|████████████████████████████████████▋                                                                   | 3530/10000 [03:36<07:36, 14.19it/s]
                                                                                                                                                  [A
 35%|████████████████████████████████████▋                                                                   | 3530/10000 [03:36<07:36, 14.19it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 560.42it/s][A


[112980] loss: 0.090 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 532.41it/s][A

                                                                                                                                                  [A
 35%|████████████████████████████████████▋                                                                   | 3530/10000 [03:36<07:36, 14.19it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[113000] loss: 0.051 


                                                                                                                                                  
 35%|████████████████████████████████████▋                                                                   | 3530/10000 [03:36<07:36, 14.19it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 496.46it/s][A


[113020] loss: 0.079 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1052.52it/s][A
 35%|████████████████████████████████████▋                                                                   | 3532/10000 [03:36<07:33, 14.25it/s]
                                                                                                                                                  [A
 35%|████████████████████████████████████▋                                                                   | 3532/10000 [03:36<07:33, 14.25it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[113040] loss: 0.056 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 549.60it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 910.62it/s][A

                                                                                                                                                  [A
 35%|████████████████████████████████████▋                                                                   | 3532/10000 [03:36<07:33, 14.25it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[113060] loss: 0.070 


                                                                                                                                                  
 35%|████████████████████████████████████▋                                                                   | 3532/10000 [03:36<07:33, 14.25it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 599.31it/s][A


[113080] loss: 0.053 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 682.33it/s][A
 35%|████████████████████████████████████▊                                                                   | 3534/10000 [03:36<07:19, 14.72it/s]
                                                                                                                                                  [A
 35%|████████████████████████████████████▊                                                                   | 3534/10000 [03:36<07:19, 14.72it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[113100] loss: 0.052 


                                                                                                                                                  
 35%|████████████████████████████████████▊                                                                   | 3534/10000 [03:36<07:19, 14.72it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[113120] loss: 0.052 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 546.49it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 769.74it/s][A

                                                                                                                                                  [A
 35%|████████████████████████████████████▊                                                                   | 3534/10000 [03:36<07:19, 14.72it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[113140] loss: 0.044 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 580.13it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 861.08it/s][A
 35%|████████████████████████████████████▊                                                                   | 3536/10000 [03:36<07:15, 14.85it/s]
                                                                                                                                                  [A
 35%|████████████████████████████████████▊                                                                   | 3536/10000 [03:36<07:15, 14.85it/s]
                                                                                                                                                  [A
 35%|████████████████████████████████████▊                                                                  

[113160] loss: 0.065 
[113180] loss: 0.071 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 629.14it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1380.61it/s][A

                                                                                                                                                  [A
 35%|████████████████████████████████████▊                                                                   | 3536/10000 [03:36<07:15, 14.85it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[113200] loss: 0.049 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 730.41it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 882.64it/s][A
 35%|████████████████████████████████████▊                                                                   | 3538/10000 [03:36<06:54, 15.60it/s]
                                                                                                                                                  [A
 35%|████████████████████████████████████▊                                                                   | 3538/10000 [03:36<06:54, 15.60it/s]

[113220] loss: 0.066 



                                                                                                                                                  [A
 35%|████████████████████████████████████▊                                                                   | 3538/10000 [03:36<06:54, 15.60it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 668.73it/s][A


[113240] loss: 0.054 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 757.92it/s][A

                                                                                                                                                  [A
 35%|████████████████████████████████████▊                                                                   | 3538/10000 [03:37<06:54, 15.60it/s]
                                                                                                                                                  [A
 35%|████████████████████████████████████▊                                                                   | 3538/10000 [03:37<06:54, 15.60it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 674.05it/s][A

[113260] loss: 0.059 
[113280] loss: 0.150 




Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1379.71it/s][A
 35%|████████████████████████████████████▊                                                                   | 3540/10000 [03:37<06:39, 16.19it/s]
                                                                                                                                                  [A
 35%|████████████████████████████████████▊                                                                   | 3540/10000 [03:37<06:39, 16.19it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 839.25it/s][A


[113300] loss: 0.106 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1537.50it/s][A

                                                                                                                                                  [A
 35%|████████████████████████████████████▊                                                                   | 3540/10000 [03:37<06:39, 16.19it/s]
                                                                                                                                                  [A
 35%|████████████████████████████████████▊                                                                   | 3540/10000 [03:37<06:39, 16.19it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 747.95it/s][A


[113320] loss: 0.060 
[113340] loss: 0.063 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1470.65it/s][A

                                                                                                                                                  [A
 35%|████████████████████████████████████▊                                                                   | 3540/10000 [03:37<06:39, 16.19it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[113360] loss: 0.058 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 801.45it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1945.41it/s][A
 35%|████████████████████████████████████▊                                                                   | 3543/10000 [03:37<06:04, 17.71it/s]
                                                                                                                                                  [A
 35%|████████████████████████████████████▊                                                                   | 3543/10000 [03:37<06:04, 17.71it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[113380] loss: 0.088 


                                                                                                                                                  
 35%|████████████████████████████████████▊                                                                   | 3543/10000 [03:37<06:04, 17.71it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 729.84it/s][A


[113400] loss: 0.075 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1156.09it/s][A

                                                                                                                                                  [A
 35%|████████████████████████████████████▊                                                                   | 3543/10000 [03:37<06:04, 17.71it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[113420] loss: 0.079 


                                                                                                                                                  
 35%|████████████████████████████████████▊                                                                   | 3543/10000 [03:37<06:04, 17.71it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 738.66it/s][A


[113440] loss: 0.075 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1467.05it/s][A
 35%|████████████████████████████████████▊                                                                   | 3545/10000 [03:37<05:56, 18.11it/s]
                                                                                                                                                  [A
 35%|████████████████████████████████████▊                                                                   | 3545/10000 [03:37<05:56, 18.11it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 836.01it/s][A


[113460] loss: 0.096 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2150.93it/s][A

                                                                                                                                                  [A
 35%|████████████████████████████████████▊                                                                   | 3545/10000 [03:37<05:56, 18.11it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[113480] loss: 0.086 


                                                                                                                                                  
 35%|████████████████████████████████████▊                                                                   | 3545/10000 [03:37<05:56, 18.11it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 659.08it/s][A


[113500] loss: 0.077 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1190.21it/s][A
 35%|████████████████████████████████████▉                                                                   | 3547/10000 [03:37<05:47, 18.56it/s]
                                                                                                                                                  [A
 35%|████████████████████████████████████▉                                                                   | 3547/10000 [03:37<05:47, 18.56it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[113520] loss: 0.060 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 797.38it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1924.88it/s][A

                                                                                                                                                  [A
 35%|████████████████████████████████████▉                                                                   | 3547/10000 [03:37<05:47, 18.56it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[113540] loss: 0.038 


                                                                                                                                                  
 35%|████████████████████████████████████▉                                                                   | 3547/10000 [03:37<05:47, 18.56it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[113560] loss: 0.054 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 629.08it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 637.43it/s][A
 35%|████████████████████████████████████▉                                                                   | 3549/10000 [03:37<05:47, 18.54it/s]
                                                                                                                                                  [A
 35%|████████████████████████████████████▉                                                                   | 3549/10000 [03:37<05:47, 18.54it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[113580] loss: 0.034 


                                                                                                                                                  
 35%|████████████████████████████████████▉                                                                   | 3549/10000 [03:37<05:47, 18.54it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 613.07it/s][A


[113600] loss: 0.185 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 415.44it/s][A

                                                                                                                                                  [A
 35%|████████████████████████████████████▉                                                                   | 3549/10000 [03:37<05:47, 18.54it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 711.87it/s][A

[113620] loss: 0.048 




Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1090.85it/s][A
 36%|████████████████████████████████████▉                                                                   | 3551/10000 [03:37<06:02, 17.79it/s]
                                                                                                                                                  [A
 36%|████████████████████████████████████▉                                                                   | 3551/10000 [03:37<06:02, 17.79it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[113640] loss: 0.066 


                                                                                                                                                  
 36%|████████████████████████████████████▉                                                                   | 3551/10000 [03:37<06:02, 17.79it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 656.24it/s][A


[113660] loss: 0.046 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1533.57it/s][A

                                                                                                                                                  [A
 36%|████████████████████████████████████▉                                                                   | 3551/10000 [03:37<06:02, 17.79it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 835.96it/s][A


[113680] loss: 0.066 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2090.88it/s][A
 36%|████████████████████████████████████▉                                                                   | 3553/10000 [03:37<05:54, 18.19it/s]
                                                                                                                                                  [A
 36%|████████████████████████████████████▉                                                                   | 3553/10000 [03:37<05:54, 18.19it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[113700] loss: 0.076 


                                                                                                                                                  
 36%|████████████████████████████████████▉                                                                   | 3553/10000 [03:37<05:54, 18.19it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 783.72it/s][A


[113720] loss: 0.049 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2115.13it/s][A

                                                                                                                                                  [A
 36%|████████████████████████████████████▉                                                                   | 3553/10000 [03:37<05:54, 18.19it/s]
                                                                                                                                                  [A
 36%|████████████████████████████████████▉                                                                   | 3553/10000 [03:37<05:54, 18.19it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 616.43it/s][A


[113740] loss: 0.060 
[113760] loss: 0.080 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 645.18it/s][A
 36%|████████████████████████████████████▉                                                                   | 3555/10000 [03:37<05:51, 18.35it/s]
                                                                                                                                                  [A
 36%|████████████████████████████████████▉                                                                   | 3555/10000 [03:37<05:51, 18.35it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[113780] loss: 0.072 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 691.09it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2082.57it/s][A

                                                                                                                                                  [A
 36%|████████████████████████████████████▉                                                                   | 3555/10000 [03:37<05:51, 18.35it/s]


[113800] loss: 0.057 


                                                                                                                                                  [A
 36%|████████████████████████████████████▉                                                                   | 3555/10000 [03:37<05:51, 18.35it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[113820] loss: 0.070 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 598.59it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 892.41it/s][A
 36%|████████████████████████████████████▉                                                                   | 3557/10000 [03:37<05:57, 18.03it/s]
                                                                                                                                                  [A
 36%|████████████████████████████████████▉                                                                   | 3557/10000 [03:37<05:57, 18.03it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 750.32it/s][A


[113840] loss: 0.041 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 632.34it/s][A

                                                                                                                                                  [A
 36%|████████████████████████████████████▉                                                                   | 3557/10000 [03:38<05:57, 18.03it/s]
                                                                                                                                                  [A
 36%|████████████████████████████████████▉                                                                   | 3557/10000 [03:38<05:57, 18.03it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[113860] loss: 0.053 
[113880] loss: 0.080 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 526.34it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 459.40it/s][A
 36%|█████████████████████████████████████                                                                   | 3559/10000 [03:38<06:09, 17.43it/s]
                                                                                                                                                  [A
 36%|█████████████████████████████████████                                                                   | 3559/10000 [03:38<06:09, 17.43it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[113900] loss: 0.066 


                                                                                                                                                  
 36%|█████████████████████████████████████                                                                   | 3559/10000 [03:38<06:09, 17.43it/s]


[113920] loss: 0.037 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 525.25it/s][A

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 395.13it/s][A

                                                                                                                                                  [A
 36%|█████████████████████████████████████                                                                   | 3559/10000 [03:38<06:09, 17.43it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 606.88it/s][A


[113940] loss: 0.095 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 553.92it/s][A
 36%|█████████████████████████████████████                                                                   | 3561/10000 [03:38<06:25, 16.69it/s]
                                                                                                                                                  [A
 36%|█████████████████████████████████████                                                                   | 3561/10000 [03:38<06:25, 16.69it/s]
                                                                                                                                                  [A
 36%|█████████████████████████████████████                                                                   | 3561/10000 [03:38<06:25, 16.69it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[113960] loss: 0.075 
[113980] loss: 0.066 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 797.24it/s][A

                                                                                                                                                  [A
 36%|█████████████████████████████████████                                                                   | 3561/10000 [03:38<06:25, 16.69it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[114000] loss: 0.067 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 625.60it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 655.77it/s][A
 36%|█████████████████████████████████████                                                                   | 3563/10000 [03:38<06:44, 15.93it/s]
                                                                                                                                                  [A
 36%|█████████████████████████████████████                                                                   | 3563/10000 [03:38<06:44, 15.93it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[114020] loss: 0.089 


                                                                                                                                                  
 36%|█████████████████████████████████████                                                                   | 3563/10000 [03:38<06:44, 15.93it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 575.99it/s][A


[114040] loss: 0.040 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 637.14it/s][A

                                                                                                                                                  [A
 36%|█████████████████████████████████████                                                                   | 3563/10000 [03:38<06:44, 15.93it/s]
                                                                                                                                                  [A
 36%|█████████████████████████████████████                                                                   | 3563/10000 [03:38<06:44, 15.93it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 525.38it/s][A


[114060] loss: 0.048 
[114080] loss: 0.015 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 498.91it/s][A
 36%|█████████████████████████████████████                                                                   | 3565/10000 [03:38<06:52, 15.59it/s]
                                                                                                                                                  [A
 36%|█████████████████████████████████████                                                                   | 3565/10000 [03:38<06:52, 15.59it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 573.33it/s][A


[114100] loss: 0.073 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 507.60it/s][A

                                                                                                                                                  [A
 36%|█████████████████████████████████████                                                                   | 3565/10000 [03:38<06:52, 15.59it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[114120] loss: 0.059 


                                                                                                                                                  
 36%|█████████████████████████████████████                                                                   | 3565/10000 [03:38<06:52, 15.59it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 460.62it/s][A


[114140] loss: 0.061 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 764.97it/s][A
 36%|█████████████████████████████████████                                                                   | 3567/10000 [03:38<07:09, 14.99it/s]
                                                                                                                                                  [A
 36%|█████████████████████████████████████                                                                   | 3567/10000 [03:38<07:09, 14.99it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 516.77it/s][A


[114160] loss: 0.072 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 713.32it/s][A

                                                                                                                                                  [A
 36%|█████████████████████████████████████                                                                   | 3567/10000 [03:38<07:09, 14.99it/s]

[114180] loss: 0.056 



                                                                                                                                                  [A
 36%|█████████████████████████████████████                                                                   | 3567/10000 [03:38<07:09, 14.99it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[114200] loss: 0.095 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 484.30it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 636.85it/s][A
 36%|█████████████████████████████████████                                                                   | 3569/10000 [03:38<07:26, 14.39it/s]
                                                                                                                                                  [A
 36%|█████████████████████████████████████                                                                   | 3569/10000 [03:38<07:26, 14.39it/s]
                                                                                                                                                  [A
 36%|█████████████████████████████████████                                                                  

[114220] loss: 0.055 
[114240] loss: 0.086 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 796.34it/s][A

                                                                                                                                                  [A
 36%|█████████████████████████████████████                                                                   | 3569/10000 [03:38<07:26, 14.39it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 570.21it/s][A


[114260] loss: 0.094 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 725.78it/s][A
 36%|█████████████████████████████████████▏                                                                  | 3571/10000 [03:38<07:29, 14.30it/s]
                                                                                                                                                  [A
 36%|█████████████████████████████████████▏                                                                  | 3571/10000 [03:38<07:29, 14.30it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[114280] loss: 0.052 


                                                                                                                                                  
 36%|█████████████████████████████████████▏                                                                  | 3571/10000 [03:38<07:29, 14.30it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 476.78it/s][A


[114300] loss: 0.062 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 644.88it/s][A

                                                                                                                                                  [A
 36%|█████████████████████████████████████▏                                                                  | 3571/10000 [03:39<07:29, 14.30it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 546.82it/s][A


[114320] loss: 0.029 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 782.08it/s][A
 36%|█████████████████████████████████████▏                                                                  | 3573/10000 [03:39<07:36, 14.09it/s]
                                                                                                                                                  [A
 36%|█████████████████████████████████████▏                                                                  | 3573/10000 [03:39<07:36, 14.09it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[114340] loss: 0.061 


                                                                                                                                                  
 36%|█████████████████████████████████████▏                                                                  | 3573/10000 [03:39<07:36, 14.09it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 484.58it/s][A


[114360] loss: 0.068 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 838.53it/s][A

                                                                                                                                                  [A
 36%|█████████████████████████████████████▏                                                                  | 3573/10000 [03:39<07:36, 14.09it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[114380] loss: 0.075 


                                                                                                                                                  
 36%|█████████████████████████████████████▏                                                                  | 3573/10000 [03:39<07:36, 14.09it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 625.38it/s][A


[114400] loss: 0.034 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1244.60it/s][A
 36%|█████████████████████████████████████▏                                                                  | 3575/10000 [03:39<07:32, 14.20it/s]
                                                                                                                                                  [A
 36%|█████████████████████████████████████▏                                                                  | 3575/10000 [03:39<07:32, 14.20it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 717.05it/s][A


[114420] loss: 0.064 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1122.07it/s][A

                                                                                                                                                  [A
 36%|█████████████████████████████████████▏                                                                  | 3575/10000 [03:39<07:32, 14.20it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[114440] loss: 0.077 


                                                                                                                                                  
 36%|█████████████████████████████████████▏                                                                  | 3575/10000 [03:39<07:32, 14.20it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 603.66it/s][A


[114460] loss: 0.069 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1838.80it/s][A
 36%|█████████████████████████████████████▏                                                                  | 3577/10000 [03:39<07:10, 14.91it/s]
                                                                                                                                                  [A
 36%|█████████████████████████████████████▏                                                                  | 3577/10000 [03:39<07:10, 14.91it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[114480] loss: 0.039 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 683.68it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1232.89it/s][A

                                                                                                                                                  [A
 36%|█████████████████████████████████████▏                                                                  | 3577/10000 [03:39<07:10, 14.91it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[114500] loss: 0.053 


                                                                                                                                                  
 36%|█████████████████████████████████████▏                                                                  | 3577/10000 [03:39<07:10, 14.91it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 660.93it/s][A


[114520] loss: 0.069 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1357.38it/s][A
 36%|█████████████████████████████████████▏                                                                  | 3579/10000 [03:39<06:49, 15.66it/s]
                                                                                                                                                  [A
 36%|█████████████████████████████████████▏                                                                  | 3579/10000 [03:39<06:49, 15.66it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[114540] loss: 0.049 


                                                                                                                                                  
 36%|█████████████████████████████████████▏                                                                  | 3579/10000 [03:39<06:49, 15.66it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 622.53it/s][A


[114560] loss: 0.045 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1137.90it/s][A

                                                                                                                                                  [A
 36%|█████████████████████████████████████▏                                                                  | 3579/10000 [03:39<06:49, 15.66it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 742.35it/s][A


[114580] loss: 0.048 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1776.49it/s][A
 36%|█████████████████████████████████████▏                                                                  | 3581/10000 [03:39<06:35, 16.24it/s]
                                                                                                                                                  [A
 36%|█████████████████████████████████████▏                                                                  | 3581/10000 [03:39<06:35, 16.24it/s]
                                                                                                                                                  [A


[114600] loss: 0.061 


 36%|█████████████████████████████████████▏                                                                  | 3581/10000 [03:39<06:35, 16.24it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 694.77it/s][A


[114620] loss: 0.077 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1392.07it/s][A

                                                                                                                                                  [A
 36%|█████████████████████████████████████▏                                                                  | 3581/10000 [03:39<06:35, 16.24it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 721.93it/s][A


[114640] loss: 0.040 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 562.99it/s][A
 36%|█████████████████████████████████████▎                                                                  | 3583/10000 [03:39<06:22, 16.78it/s]
                                                                                                                                                  [A
 36%|█████████████████████████████████████▎                                                                  | 3583/10000 [03:39<06:22, 16.78it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[114660] loss: 0.041 


                                                                                                                                                  
 36%|█████████████████████████████████████▎                                                                  | 3583/10000 [03:39<06:22, 16.78it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 560.90it/s][A


[114680] loss: 0.054 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1474.79it/s][A

                                                                                                                                                  [A
 36%|█████████████████████████████████████▎                                                                  | 3583/10000 [03:39<06:22, 16.78it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[114700] loss: 0.058 


                                                                                                                                                  
 36%|█████████████████████████████████████▎                                                                  | 3583/10000 [03:39<06:22, 16.78it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 594.33it/s][A


[114720] loss: 0.050 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1548.28it/s][A
 36%|█████████████████████████████████████▎                                                                  | 3585/10000 [03:39<06:32, 16.36it/s]
                                                                                                                                                  [A
 36%|█████████████████████████████████████▎                                                                  | 3585/10000 [03:39<06:32, 16.36it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 799.56it/s][A

[114740] loss: 0.063 




Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1968.23it/s][A

                                                                                                                                                  [A
 36%|█████████████████████████████████████▎                                                                  | 3585/10000 [03:39<06:32, 16.36it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[114760] loss: 0.049 


                                                                                                                                                  
 36%|█████████████████████████████████████▎                                                                  | 3585/10000 [03:39<06:32, 16.36it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 696.03it/s][A


[114780] loss: 0.053 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1693.30it/s][A
 36%|█████████████████████████████████████▎                                                                  | 3587/10000 [03:39<06:13, 17.17it/s]
                                                                                                                                                  [A
 36%|█████████████████████████████████████▎                                                                  | 3587/10000 [03:39<06:13, 17.17it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 768.39it/s][A


[114800] loss: 0.047 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1004.14it/s][A

                                                                                                                                                  [A
 36%|█████████████████████████████████████▎                                                                  | 3587/10000 [03:39<06:13, 17.17it/s]
                                                                                                                                                  [A
[A                                                                                                                                               

[114820] loss: 0.049 
[114840] loss: 0.058 


 36%|█████████████████████████████████████▎                                                                  | 3587/10000 [03:39<06:13, 17.17it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 646.08it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2136.68it/s][A
 36%|█████████████████████████████████████▎                                                                  | 3589/10000 [03:39<06:03, 17.65it/s]
                                                                                                                                                  [A
 36%|█████████████████████████████████████▎                                                                  | 3589/10000 [03:40<06:03, 17.65it/s]

[114860] loss: 0.044 



                                                                                                                                                  [A
 36%|█████████████████████████████████████▎                                                                  | 3589/10000 [03:40<06:03, 17.65it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[114880] loss: 0.067 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 597.82it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 944.88it/s][A

                                                                                                                                                  [A
 36%|█████████████████████████████████████▎                                                                  | 3589/10000 [03:40<06:03, 17.65it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 778.15it/s][A


[114900] loss: 0.060 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 798.31it/s][A
 36%|█████████████████████████████████████▎                                                                  | 3591/10000 [03:40<05:59, 17.82it/s]
                                                                                                                                                  [A
 36%|█████████████████████████████████████▎                                                                  | 3591/10000 [03:40<05:59, 17.82it/s]
                                                                                                                                                  [A
 36%|█████████████████████████████████████▎                                                                  | 3591/10000 [03:40<05:59, 17.82it/s]
Training Epoch:   0%|                                                                                       

[114920] loss: 0.049 
[114940] loss: 0.092 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 729.82it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1114.91it/s][A

                                                                                                                                                  [A
 36%|█████████████████████████████████████▎                                                                  | 3591/10000 [03:40<05:59, 17.82it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 735.80it/s][A


[114960] loss: 0.064 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 956.08it/s][A
 36%|█████████████████████████████████████▎                                                                  | 3593/10000 [03:40<05:50, 18.28it/s]
                                                                                                                                                  [A
 36%|█████████████████████████████████████▎                                                                  | 3593/10000 [03:40<05:50, 18.28it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[114980] loss: 0.042 


                                                                                                                                                  
 36%|█████████████████████████████████████▎                                                                  | 3593/10000 [03:40<05:50, 18.28it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 526.88it/s][A


[115000] loss: 0.071 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 564.81it/s][A

                                                                                                                                                  [A
 36%|█████████████████████████████████████▎                                                                  | 3593/10000 [03:40<05:50, 18.28it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[115020] loss: 0.042 


                                                                                                                                                  
 36%|█████████████████████████████████████▎                                                                  | 3593/10000 [03:40<05:50, 18.28it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 545.21it/s][A


[115040] loss: 0.038 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 428.30it/s][A
 36%|█████████████████████████████████████▍                                                                  | 3595/10000 [03:40<06:16, 17.02it/s]
                                                                                                                                                  [A
 36%|█████████████████████████████████████▍                                                                  | 3595/10000 [03:40<06:16, 17.02it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[115060] loss: 0.063 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 563.94it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 674.54it/s][A

                                                                                                                                                  [A
 36%|█████████████████████████████████████▍                                                                  | 3595/10000 [03:40<06:16, 17.02it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[115080] loss: 0.076 


                                                                                                                                                  
 36%|█████████████████████████████████████▍                                                                  | 3595/10000 [03:40<06:16, 17.02it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 510.04it/s][A


[115100] loss: 0.059 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1087.73it/s][A
 36%|█████████████████████████████████████▍                                                                  | 3597/10000 [03:40<06:35, 16.19it/s]
                                                                                                                                                  [A
 36%|█████████████████████████████████████▍                                                                  | 3597/10000 [03:40<06:35, 16.19it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[115120] loss: 0.036 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 576.36it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 729.70it/s][A

                                                                                                                                                  [A
 36%|█████████████████████████████████████▍                                                                  | 3597/10000 [03:40<06:35, 16.19it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[115140] loss: 0.083 


                                                                                                                                                  
 36%|█████████████████████████████████████▍                                                                  | 3597/10000 [03:40<06:35, 16.19it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 491.45it/s][A


[115160] loss: 0.043 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 880.79it/s][A
 36%|█████████████████████████████████████▍                                                                  | 3599/10000 [03:40<06:50, 15.60it/s]
                                                                                                                                                  [A
 36%|█████████████████████████████████████▍                                                                  | 3599/10000 [03:40<06:50, 15.60it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[115180] loss: 0.033 


                                                                                                                                                  
 36%|█████████████████████████████████████▍                                                                  | 3599/10000 [03:40<06:50, 15.60it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 495.04it/s][A


[115200] loss: 0.063 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 416.23it/s][A

                                                                                                                                                  [A
 36%|█████████████████████████████████████▍                                                                  | 3599/10000 [03:40<06:50, 15.60it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 569.74it/s][A


[115220] loss: 0.081 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 481.88it/s][A
 36%|█████████████████████████████████████▍                                                                  | 3601/10000 [03:40<06:59, 15.25it/s]
                                                                                                                                                  [A
 36%|█████████████████████████████████████▍                                                                  | 3601/10000 [03:40<06:59, 15.25it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[115240] loss: 0.058 


                                                                                                                                                  
 36%|█████████████████████████████████████▍                                                                  | 3601/10000 [03:40<06:59, 15.25it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 516.20it/s][A


[115260] loss: 0.060 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 972.25it/s][A

                                                                                                                                                  [A
 36%|█████████████████████████████████████▍                                                                  | 3601/10000 [03:40<06:59, 15.25it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[115280] loss: 0.047 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 550.00it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 794.38it/s][A
 36%|█████████████████████████████████████▍                                                                  | 3603/10000 [03:40<07:06, 15.01it/s]
                                                                                                                                                  [A
 36%|█████████████████████████████████████▍                                                                  | 3603/10000 [03:40<07:06, 15.01it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[115300] loss: 0.038 


                                                                                                                                                  
 36%|█████████████████████████████████████▍                                                                  | 3603/10000 [03:40<07:06, 15.01it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 458.33it/s][A


[115320] loss: 0.092 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 701.15it/s][A

                                                                                                                                                  [A
 36%|█████████████████████████████████████▍                                                                  | 3603/10000 [03:41<07:06, 15.01it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[115340] loss: 0.098 


                                                                                                                                                  
 36%|█████████████████████████████████████▍                                                                  | 3603/10000 [03:41<07:06, 15.01it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 519.78it/s][A


[115360] loss: 0.037 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 268.56it/s][A
 36%|█████████████████████████████████████▍                                                                  | 3605/10000 [03:41<07:26, 14.31it/s]
                                                                                                                                                  [A
 36%|█████████████████████████████████████▍                                                                  | 3605/10000 [03:41<07:26, 14.31it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 588.70it/s][A


[115380] loss: 0.069 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 933.31it/s][A

                                                                                                                                                  [A
 36%|█████████████████████████████████████▍                                                                  | 3605/10000 [03:41<07:26, 14.31it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[115400] loss: 0.042 


                                                                                                                                                  
 36%|█████████████████████████████████████▍                                                                  | 3605/10000 [03:41<07:26, 14.31it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 568.12it/s][A


[115420] loss: 0.042 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 743.80it/s][A
 36%|█████████████████████████████████████▌                                                                  | 3607/10000 [03:41<07:15, 14.67it/s]
                                                                                                                                                  [A
 36%|█████████████████████████████████████▌                                                                  | 3607/10000 [03:41<07:15, 14.67it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[115440] loss: 0.053 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 545.13it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 717.96it/s][A

                                                                                                                                                  [A
 36%|█████████████████████████████████████▌                                                                  | 3607/10000 [03:41<07:15, 14.67it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[115460] loss: 0.047 


                                                                                                                                                  
 36%|█████████████████████████████████████▌                                                                  | 3607/10000 [03:41<07:15, 14.67it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 524.87it/s][A


[115480] loss: 0.049 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 857.03it/s][A
 36%|█████████████████████████████████████▌                                                                  | 3609/10000 [03:41<07:17, 14.62it/s]
                                                                                                                                                  [A
 36%|█████████████████████████████████████▌                                                                  | 3609/10000 [03:41<07:17, 14.62it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[115500] loss: 0.076 


                                                                                                                                                  
 36%|█████████████████████████████████████▌                                                                  | 3609/10000 [03:41<07:17, 14.62it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 465.63it/s][A


[115520] loss: 0.025 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1616.30it/s][A

                                                                                                                                                  [A
 36%|█████████████████████████████████████▌                                                                  | 3609/10000 [03:41<07:17, 14.62it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 588.34it/s][A


[115540] loss: 0.067 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 376.31it/s][A
 36%|█████████████████████████████████████▌                                                                  | 3611/10000 [03:41<07:18, 14.55it/s]
                                                                                                                                                  [A
 36%|█████████████████████████████████████▌                                                                  | 3611/10000 [03:41<07:18, 14.55it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[115560] loss: 0.059 


                                                                                                                                                  
 36%|█████████████████████████████████████▌                                                                  | 3611/10000 [03:41<07:18, 14.55it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 569.38it/s][A


[115580] loss: 0.045 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 738.04it/s][A

                                                                                                                                                  [A
 36%|█████████████████████████████████████▌                                                                  | 3611/10000 [03:41<07:18, 14.55it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 695.87it/s][A


[115600] loss: 0.056 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1143.49it/s][A
 36%|█████████████████████████████████████▌                                                                  | 3613/10000 [03:41<07:00, 15.18it/s]
                                                                                                                                                  [A
 36%|█████████████████████████████████████▌                                                                  | 3613/10000 [03:41<07:00, 15.18it/s]
                                                                                                                                                  [A
 36%|█████████████████████████████████████▌                                                                  | 3613/10000 [03:41<07:00, 15.18it/s]
Training Epoch:   0%|                                                                                       

[115620] loss: 0.057 
[115640] loss: 0.056 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 583.19it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1250.54it/s][A

                                                                                                                                                  [A
 36%|█████████████████████████████████████▌                                                                  | 3613/10000 [03:41<07:00, 15.18it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[115660] loss: 0.089 


                                                                                                                                                  
 36%|█████████████████████████████████████▌                                                                  | 3613/10000 [03:41<07:00, 15.18it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 549.94it/s][A


[115680] loss: 0.044 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 965.10it/s][A
 36%|█████████████████████████████████████▌                                                                  | 3615/10000 [03:41<07:01, 15.14it/s]
                                                                                                                                                  [A
 36%|█████████████████████████████████████▌                                                                  | 3615/10000 [03:41<07:01, 15.14it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[115700] loss: 0.043 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 558.00it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 699.75it/s][A

                                                                                                                                                  [A
 36%|█████████████████████████████████████▌                                                                  | 3615/10000 [03:41<07:01, 15.14it/s]
                                                                                                                                                  [A
 36%|█████████████████████████████████████▌                                                                  | 3615/10000 [03:41<07:01, 15.14it/s]
Training Epoch: 100%|██████████████████████████████████████████████████████████████████████████████████████

[115720] loss: 0.052 
[115740] loss: 0.094 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1178.18it/s][A
 36%|█████████████████████████████████████▌                                                                  | 3617/10000 [03:41<06:58, 15.26it/s]
                                                                                                                                                  [A
 36%|█████████████████████████████████████▌                                                                  | 3617/10000 [03:41<06:58, 15.26it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[115760] loss: 0.044 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 744.34it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1976.58it/s][A

                                                                                                                                                  [A
 36%|█████████████████████████████████████▌                                                                  | 3617/10000 [03:41<06:58, 15.26it/s]
                                                                                                                                                  [A
 36%|█████████████████████████████████████▌                                                                  | 3617/10000 [03:41<06:58, 15.26it/s]
Training Epoch: 100%|██████████████████████████████████████████████████████████████████████████████████████

[115780] loss: 0.037 
[115800] loss: 0.046 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1759.36it/s][A
 36%|█████████████████████████████████████▋                                                                  | 3619/10000 [03:41<06:41, 15.90it/s]
                                                                                                                                                  [A
 36%|█████████████████████████████████████▋                                                                  | 3619/10000 [03:41<06:41, 15.90it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[115820] loss: 0.050 


                                                                                                                                                  
 36%|█████████████████████████████████████▋                                                                  | 3619/10000 [03:42<06:41, 15.90it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 579.54it/s][A


[115840] loss: 0.145 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 908.25it/s][A

                                                                                                                                                  [A
 36%|█████████████████████████████████████▋                                                                  | 3619/10000 [03:42<06:41, 15.90it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 756.92it/s][A


[115860] loss: 0.073 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1825.20it/s][A
 36%|█████████████████████████████████████▋                                                                  | 3621/10000 [03:42<06:30, 16.35it/s]
                                                                                                                                                  [A
 36%|█████████████████████████████████████▋                                                                  | 3621/10000 [03:42<06:30, 16.35it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[115880] loss: 0.038 


                                                                                                                                                  
 36%|█████████████████████████████████████▋                                                                  | 3621/10000 [03:42<06:30, 16.35it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 516.50it/s][A


[115900] loss: 0.071 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1372.03it/s][A

                                                                                                                                                  [A
 36%|█████████████████████████████████████▋                                                                  | 3621/10000 [03:42<06:30, 16.35it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[115920] loss: 0.058 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 660.03it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1654.56it/s][A
 36%|█████████████████████████████████████▋                                                                  | 3623/10000 [03:42<06:37, 16.06it/s]
                                                                                                                                                  [A
 36%|█████████████████████████████████████▋                                                                  | 3623/10000 [03:42<06:37, 16.06it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[115940] loss: 0.055 


                                                                                                                                                  
 36%|█████████████████████████████████████▋                                                                  | 3623/10000 [03:42<06:37, 16.06it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 791.35it/s][A


[115960] loss: 0.088 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1784.81it/s][A

                                                                                                                                                  [A
 36%|█████████████████████████████████████▋                                                                  | 3623/10000 [03:42<06:37, 16.06it/s]
                                                                                                                                                  [A
                                                                                                                                                  

[115980] loss: 0.056 


 36%|█████████████████████████████████████▋                                                                  | 3623/10000 [03:42<06:37, 16.06it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 782.31it/s][A


[116000] loss: 0.069 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 747.78it/s][A

                                                                                                                                                  [A
 36%|█████████████████████████████████████▋                                                                  | 3623/10000 [03:42<06:37, 16.06it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[116020] loss: 0.103 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 974.28it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1762.31it/s][A
 36%|█████████████████████████████████████▋                                                                  | 3626/10000 [03:42<05:56, 17.86it/s]
                                                                                                                                                  [A
 36%|█████████████████████████████████████▋                                                                  | 3626/10000 [03:42<05:56, 17.86it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[116040] loss: 0.114 


                                                                                                                                                  
 36%|█████████████████████████████████████▋                                                                  | 3626/10000 [03:42<05:56, 17.86it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 711.59it/s][A


[116060] loss: 0.085 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2121.55it/s][A

                                                                                                                                                  [A
 36%|█████████████████████████████████████▋                                                                  | 3626/10000 [03:42<05:56, 17.86it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[116080] loss: 0.058 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 723.11it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 612.49it/s][A
 36%|█████████████████████████████████████▋                                                                  | 3628/10000 [03:42<05:51, 18.13it/s]
                                                                                                                                                  [A
 36%|█████████████████████████████████████▋                                                                  | 3628/10000 [03:42<05:51, 18.13it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[116100] loss: 0.025 


                                                                                                                                                  
 36%|█████████████████████████████████████▋                                                                  | 3628/10000 [03:42<05:51, 18.13it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[116120] loss: 0.041 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 607.61it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1272.93it/s][A

                                                                                                                                                  [A
 36%|█████████████████████████████████████▋                                                                  | 3628/10000 [03:42<05:51, 18.13it/s]
                                                                                                                                                  [A

[116140] loss: 0.056 



 36%|█████████████████████████████████████▋                                                                  | 3628/10000 [03:42<05:51, 18.13it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 659.63it/s][A


[116160] loss: 0.014 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 291.80it/s][A
 36%|█████████████████████████████████████▊                                                                  | 3630/10000 [03:42<06:02, 17.56it/s]
                                                                                                                                                  [A
 36%|█████████████████████████████████████▊                                                                  | 3630/10000 [03:42<06:02, 17.56it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 802.31it/s][A


[116180] loss: 0.067 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 720.55it/s][A

                                                                                                                                                  [A
 36%|█████████████████████████████████████▊                                                                  | 3630/10000 [03:42<06:02, 17.56it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[116200] loss: 0.026 


                                                                                                                                                  
 36%|█████████████████████████████████████▊                                                                  | 3630/10000 [03:42<06:02, 17.56it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 653.97it/s][A


[116220] loss: 0.057 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1440.35it/s][A
 36%|█████████████████████████████████████▊                                                                  | 3632/10000 [03:42<05:57, 17.83it/s]
                                                                                                                                                  [A
 36%|█████████████████████████████████████▊                                                                  | 3632/10000 [03:42<05:57, 17.83it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 682.46it/s][A


[116240] loss: 0.077 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 470.16it/s][A

                                                                                                                                                  [A
 36%|█████████████████████████████████████▊                                                                  | 3632/10000 [03:42<05:57, 17.83it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[116260] loss: 0.067 


                                                                                                                                                  
 36%|█████████████████████████████████████▊                                                                  | 3632/10000 [03:42<05:57, 17.83it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[116280] loss: 0.060 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 470.21it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 573.78it/s][A
 36%|█████████████████████████████████████▊                                                                  | 3634/10000 [03:42<06:16, 16.92it/s]
                                                                                                                                                  [A
 36%|█████████████████████████████████████▊                                                                  | 3634/10000 [03:42<06:16, 16.92it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[116300] loss: 0.055 


                                                                                                                                                  
 36%|█████████████████████████████████████▊                                                                  | 3634/10000 [03:42<06:16, 16.92it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 519.01it/s][A


[116320] loss: 0.029 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 484.67it/s][A

                                                                                                                                                  [A
 36%|█████████████████████████████████████▊                                                                  | 3634/10000 [03:42<06:16, 16.92it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 656.98it/s][A


[116340] loss: 0.058 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 984.58it/s][A
 36%|█████████████████████████████████████▊                                                                  | 3636/10000 [03:42<06:23, 16.60it/s]
                                                                                                                                                  [A
 36%|█████████████████████████████████████▊                                                                  | 3636/10000 [03:42<06:23, 16.60it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[116360] loss: 0.048 


                                                                                                                                                  
 36%|█████████████████████████████████████▊                                                                  | 3636/10000 [03:42<06:23, 16.60it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 532.40it/s][A


[116380] loss: 0.083 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 769.74it/s][A

                                                                                                                                                  [A
 36%|█████████████████████████████████████▊                                                                  | 3636/10000 [03:43<06:23, 16.60it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[116400] loss: 0.061 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 604.34it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 374.86it/s][A
 36%|█████████████████████████████████████▊                                                                  | 3638/10000 [03:43<06:35, 16.07it/s]
                                                                                                                                                  [A
 36%|█████████████████████████████████████▊                                                                  | 3638/10000 [03:43<06:35, 16.07it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[116420] loss: 0.039 


                                                                                                                                                  
 36%|█████████████████████████████████████▊                                                                  | 3638/10000 [03:43<06:35, 16.07it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 522.79it/s][A


[116440] loss: 0.054 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 580.69it/s][A

                                                                                                                                                  [A
 36%|█████████████████████████████████████▊                                                                  | 3638/10000 [03:43<06:35, 16.07it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[116460] loss: 0.028 


                                                                                                                                                  
 36%|█████████████████████████████████████▊                                                                  | 3638/10000 [03:43<06:35, 16.07it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 502.37it/s][A


[116480] loss: 0.020 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 203.06it/s][A
 36%|█████████████████████████████████████▊                                                                  | 3640/10000 [03:43<06:56, 15.28it/s]
                                                                                                                                                  [A
 36%|█████████████████████████████████████▊                                                                  | 3640/10000 [03:43<06:56, 15.28it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 633.68it/s][A


[116500] loss: 0.047 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 660.83it/s][A

                                                                                                                                                  [A
 36%|█████████████████████████████████████▊                                                                  | 3640/10000 [03:43<06:56, 15.28it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[116520] loss: 0.042 


                                                                                                                                                  
 36%|█████████████████████████████████████▊                                                                  | 3640/10000 [03:43<06:56, 15.28it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 505.13it/s][A


[116540] loss: 0.061 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 800.75it/s][A
 36%|█████████████████████████████████████▉                                                                  | 3642/10000 [03:43<07:03, 15.00it/s]
                                                                                                                                                  [A
 36%|█████████████████████████████████████▉                                                                  | 3642/10000 [03:43<07:03, 15.00it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[116560] loss: 0.062 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 664.67it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1860.83it/s][A

                                                                                                                                                  [A
 36%|█████████████████████████████████████▉                                                                  | 3642/10000 [03:43<07:03, 15.00it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[116580] loss: 0.028 


                                                                                                                                                  
 36%|█████████████████████████████████████▉                                                                  | 3642/10000 [03:43<07:03, 15.00it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 571.64it/s][A


[116600] loss: 0.080 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1030.79it/s][A
 36%|█████████████████████████████████████▉                                                                  | 3644/10000 [03:43<06:48, 15.55it/s]
                                                                                                                                                  [A
 36%|█████████████████████████████████████▉                                                                  | 3644/10000 [03:43<06:48, 15.55it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[116620] loss: 0.048 


                                                                                                                                                  
 36%|█████████████████████████████████████▉                                                                  | 3644/10000 [03:43<06:48, 15.55it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 588.88it/s][A


[116640] loss: 0.063 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 405.52it/s][A

                                                                                                                                                  [A
 36%|█████████████████████████████████████▉                                                                  | 3644/10000 [03:43<06:48, 15.55it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[116660] loss: 0.088 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 607.71it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1019.02it/s][A
 36%|█████████████████████████████████████▉                                                                  | 3646/10000 [03:43<06:42, 15.79it/s]
                                                                                                                                                  [A
 36%|█████████████████████████████████████▉                                                                  | 3646/10000 [03:43<06:42, 15.79it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[116680] loss: 0.047 


                                                                                                                                                  
 36%|█████████████████████████████████████▉                                                                  | 3646/10000 [03:43<06:42, 15.79it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[116700] loss: 0.052 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 530.82it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 860.19it/s][A

                                                                                                                                                  [A
 36%|█████████████████████████████████████▉                                                                  | 3646/10000 [03:43<06:42, 15.79it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 615.50it/s][A


[116720] loss: 0.062 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 592.58it/s][A
 36%|█████████████████████████████████████▉                                                                  | 3648/10000 [03:43<06:45, 15.67it/s]
                                                                                                                                                  [A
 36%|█████████████████████████████████████▉                                                                  | 3648/10000 [03:43<06:45, 15.67it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[116740] loss: 0.058 


                                                                                                                                                  
 36%|█████████████████████████████████████▉                                                                  | 3648/10000 [03:43<06:45, 15.67it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 443.73it/s][A


[116760] loss: 0.072 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 417.47it/s][A

                                                                                                                                                  [A
 36%|█████████████████████████████████████▉                                                                  | 3648/10000 [03:43<06:45, 15.67it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[116780] loss: 0.057 


                                                                                                                                                  
 36%|█████████████████████████████████████▉                                                                  | 3648/10000 [03:43<06:45, 15.67it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 547.22it/s][A


[116800] loss: 0.043 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 397.34it/s][A
 36%|█████████████████████████████████████▉                                                                  | 3650/10000 [03:43<07:06, 14.89it/s]
                                                                                                                                                  [A
 36%|█████████████████████████████████████▉                                                                  | 3650/10000 [03:43<07:06, 14.89it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 638.92it/s][A


[116820] loss: 0.070 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 763.16it/s][A

                                                                                                                                                  [A
 36%|█████████████████████████████████████▉                                                                  | 3650/10000 [03:43<07:06, 14.89it/s]
                                                                                                                                                  [A
 36%|█████████████████████████████████████▉                                                                  | 3650/10000 [03:43<07:06, 14.89it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 661.66it/s][A


[116840] loss: 0.047 
[116860] loss: 0.057 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1385.63it/s][A
 37%|█████████████████████████████████████▉                                                                  | 3652/10000 [03:43<06:47, 15.59it/s]
                                                                                                                                                  [A
 37%|█████████████████████████████████████▉                                                                  | 3652/10000 [03:44<06:47, 15.59it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 783.61it/s][A

[116880] loss: 0.067 




Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 771.72it/s][A

                                                                                                                                                  [A
 37%|█████████████████████████████████████▉                                                                  | 3652/10000 [03:44<06:47, 15.59it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[116900] loss: 0.067 


                                                                                                                                                  
 37%|█████████████████████████████████████▉                                                                  | 3652/10000 [03:44<06:47, 15.59it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 598.39it/s][A


[116920] loss: 0.060 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 884.31it/s][A
 37%|██████████████████████████████████████                                                                  | 3654/10000 [03:44<06:31, 16.21it/s]
                                                                                                                                                  [A
 37%|██████████████████████████████████████                                                                  | 3654/10000 [03:44<06:31, 16.21it/s]
                                                                                                                                                  [A
 37%|██████████████████████████████████████                                                                  | 3654/10000 [03:44<06:31, 16.21it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[116940] loss: 0.046 
[116960] loss: 0.056 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 430.41it/s][A

                                                                                                                                                  [A
 37%|██████████████████████████████████████                                                                  | 3654/10000 [03:44<06:31, 16.21it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 784.84it/s][A


[116980] loss: 0.062 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1218.21it/s][A

                                                                                                                                                  [A
 37%|██████████████████████████████████████                                                                  | 3654/10000 [03:44<06:31, 16.21it/s]
                                                                                                                                                  [A
 37%|██████████████████████████████████████                                                                  | 3654/10000 [03:44<06:31, 16.21it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 722.90it/s][A


[117000] loss: 0.031 
[117020] loss: 0.064 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1404.66it/s][A
 37%|██████████████████████████████████████                                                                  | 3657/10000 [03:44<06:04, 17.40it/s]
                                                                                                                                                  [A
 37%|██████████████████████████████████████                                                                  | 3657/10000 [03:44<06:04, 17.40it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[117040] loss: 0.040 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 837.08it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 888.44it/s][A

                                                                                                                                                  [A
 37%|██████████████████████████████████████                                                                  | 3657/10000 [03:44<06:04, 17.40it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[117060] loss: 0.085 


                                                                                                                                                  
 37%|██████████████████████████████████████                                                                  | 3657/10000 [03:44<06:04, 17.40it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 714.19it/s][A


[117080] loss: 0.042 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1451.32it/s][A

                                                                                                                                                  [A
 37%|██████████████████████████████████████                                                                  | 3657/10000 [03:44<06:04, 17.40it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[117100] loss: 0.047 


                                                                                                                                                  
 37%|██████████████████████████████████████                                                                  | 3657/10000 [03:44<06:04, 17.40it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 719.68it/s][A


[117120] loss: 0.165 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 284.38it/s][A
 37%|██████████████████████████████████████                                                                  | 3660/10000 [03:44<05:49, 18.13it/s]
                                                                                                                                                  [A
 37%|██████████████████████████████████████                                                                  | 3660/10000 [03:44<05:49, 18.13it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 839.65it/s][A


[117140] loss: 0.091 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 469.84it/s][A

                                                                                                                                                  [A
 37%|██████████████████████████████████████                                                                  | 3660/10000 [03:44<05:49, 18.13it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[117160] loss: 0.054 


                                                                                                                                                  
 37%|██████████████████████████████████████                                                                  | 3660/10000 [03:44<05:49, 18.13it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 721.13it/s][A


[117180] loss: 0.040 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1559.22it/s][A

                                                                                                                                                  [A
 37%|██████████████████████████████████████                                                                  | 3660/10000 [03:44<05:49, 18.13it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[117200] loss: 0.045 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 825.90it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2263.52it/s][A
 37%|██████████████████████████████████████                                                                  | 3663/10000 [03:44<05:32, 19.08it/s]
                                                                                                                                                  [A
 37%|██████████████████████████████████████                                                                  | 3663/10000 [03:44<05:32, 19.08it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[117220] loss: 0.049 


                                                                                                                                                  
 37%|██████████████████████████████████████                                                                  | 3663/10000 [03:44<05:32, 19.08it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 792.64it/s][A


[117240] loss: 0.049 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1585.15it/s][A

                                                                                                                                                  [A
 37%|██████████████████████████████████████                                                                  | 3663/10000 [03:44<05:32, 19.08it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[117260] loss: 0.076 


                                                                                                                                                  
 37%|██████████████████████████████████████                                                                  | 3663/10000 [03:44<05:32, 19.08it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 793.24it/s][A


[117280] loss: 0.167 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2250.16it/s][A

                                                                                                                                                  [A
 37%|██████████████████████████████████████                                                                  | 3663/10000 [03:44<05:32, 19.08it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[117300] loss: 0.022 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 808.25it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1487.34it/s][A
 37%|██████████████████████████████████████▏                                                                 | 3666/10000 [03:44<05:19, 19.85it/s]
                                                                                                                                                  [A
 37%|██████████████████████████████████████▏                                                                 | 3666/10000 [03:44<05:19, 19.85it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[117320] loss: 0.073 


                                                                                                                                                  
 37%|██████████████████████████████████████▏                                                                 | 3666/10000 [03:44<05:19, 19.85it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 643.89it/s][A


[117340] loss: 0.084 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1003.90it/s][A

                                                                                                                                                  [A
 37%|██████████████████████████████████████▏                                                                 | 3666/10000 [03:44<05:19, 19.85it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[117360] loss: 0.093 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 727.28it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2074.33it/s][A
 37%|██████████████████████████████████████▏                                                                 | 3668/10000 [03:44<05:26, 19.38it/s]
                                                                                                                                                  [A
 37%|██████████████████████████████████████▏                                                                 | 3668/10000 [03:44<05:26, 19.38it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[117380] loss: 0.067 


                                                                                                                                                  
 37%|██████████████████████████████████████▏                                                                 | 3668/10000 [03:44<05:26, 19.38it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 585.31it/s][A


[117400] loss: 0.036 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1487.87it/s][A

                                                                                                                                                  [A
 37%|██████████████████████████████████████▏                                                                 | 3668/10000 [03:44<05:26, 19.38it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[117420] loss: 0.050 


                                                                                                                                                  
 37%|██████████████████████████████████████▏                                                                 | 3668/10000 [03:44<05:26, 19.38it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 659.66it/s][A


[117440] loss: 0.052 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2182.26it/s][A
 37%|██████████████████████████████████████▏                                                                 | 3670/10000 [03:44<05:39, 18.62it/s]
                                                                                                                                                  [A
 37%|██████████████████████████████████████▏                                                                 | 3670/10000 [03:44<05:39, 18.62it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 818.78it/s][A


[117460] loss: 0.064 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 756.14it/s][A

                                                                                                                                                  [A
 37%|██████████████████████████████████████▏                                                                 | 3670/10000 [03:44<05:39, 18.62it/s]
                                                                                                                                                  [A
 37%|██████████████████████████████████████▏                                                                 | 3670/10000 [03:45<05:39, 18.62it/s]

[117480] loss: 0.079 
[117500] loss: 0.066 



Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 620.17it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1861.65it/s][A
 37%|██████████████████████████████████████▏                                                                 | 3672/10000 [03:45<05:39, 18.61it/s]
                                                                                                                                                  [A
 37%|██████████████████████████████████████▏                                                                 | 3672/10000 [03:45<05:39, 18.61it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 607.64it/s][A


[117520] loss: 0.049 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 568.18it/s][A

                                                                                                                                                  [A
 37%|██████████████████████████████████████▏                                                                 | 3672/10000 [03:45<05:39, 18.61it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[117540] loss: 0.036 


                                                                                                                                                  
 37%|██████████████████████████████████████▏                                                                 | 3672/10000 [03:45<05:39, 18.61it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[117560] loss: 0.090 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 512.62it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1041.03it/s][A
 37%|██████████████████████████████████████▏                                                                 | 3674/10000 [03:45<05:58, 17.63it/s]
                                                                                                                                                  [A
 37%|██████████████████████████████████████▏                                                                 | 3674/10000 [03:45<05:58, 17.63it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[117580] loss: 0.072 


                                                                                                                                                  
 37%|██████████████████████████████████████▏                                                                 | 3674/10000 [03:45<05:58, 17.63it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 657.53it/s][A


[117600] loss: 0.104 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1045.70it/s][A

                                                                                                                                                  [A
 37%|██████████████████████████████████████▏                                                                 | 3674/10000 [03:45<05:58, 17.63it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[117620] loss: 0.059 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 613.61it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 983.19it/s][A
 37%|██████████████████████████████████████▏                                                                 | 3676/10000 [03:45<06:01, 17.49it/s]
                                                                                                                                                  [A
 37%|██████████████████████████████████████▏                                                                 | 3676/10000 [03:45<06:01, 17.49it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[117640] loss: 0.041 


                                                                                                                                                  
 37%|██████████████████████████████████████▏                                                                 | 3676/10000 [03:45<06:01, 17.49it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 598.65it/s][A


[117660] loss: 0.057 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 994.15it/s][A

                                                                                                                                                  [A
 37%|██████████████████████████████████████▏                                                                 | 3676/10000 [03:45<06:01, 17.49it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[117680] loss: 0.075 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 657.55it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 982.04it/s][A
 37%|██████████████████████████████████████▎                                                                 | 3678/10000 [03:45<06:07, 17.18it/s]
                                                                                                                                                  [A
 37%|██████████████████████████████████████▎                                                                 | 3678/10000 [03:45<06:07, 17.18it/s]


[117700] loss: 0.041 


                                                                                                                                                  [A
 37%|██████████████████████████████████████▎                                                                 | 3678/10000 [03:45<06:07, 17.18it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[117720] loss: 0.071 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 561.25it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 772.43it/s][A

                                                                                                                                                  [A
 37%|██████████████████████████████████████▎                                                                 | 3678/10000 [03:45<06:07, 17.18it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[117740] loss: 0.057 


                                                                                                                                                  
 37%|██████████████████████████████████████▎                                                                 | 3678/10000 [03:45<06:07, 17.18it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 534.25it/s][A


[117760] loss: 0.036 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 338.74it/s][A
 37%|██████████████████████████████████████▎                                                                 | 3680/10000 [03:45<06:26, 16.36it/s]
                                                                                                                                                  [A
 37%|██████████████████████████████████████▎                                                                 | 3680/10000 [03:45<06:26, 16.36it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 589.20it/s][A


[117780] loss: 0.067 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 496.96it/s][A

                                                                                                                                                  [A
 37%|██████████████████████████████████████▎                                                                 | 3680/10000 [03:45<06:26, 16.36it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[117800] loss: 0.072 


                                                                                                                                                  
 37%|██████████████████████████████████████▎                                                                 | 3680/10000 [03:45<06:26, 16.36it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 533.80it/s][A


[117820] loss: 0.065 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 834.85it/s][A
 37%|██████████████████████████████████████▎                                                                 | 3682/10000 [03:45<06:35, 15.99it/s]
                                                                                                                                                  [A
 37%|██████████████████████████████████████▎                                                                 | 3682/10000 [03:45<06:35, 15.99it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 613.31it/s][A


[117840] loss: 0.038 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 665.87it/s][A

                                                                                                                                                  [A
 37%|██████████████████████████████████████▎                                                                 | 3682/10000 [03:45<06:35, 15.99it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[117860] loss: 0.054 


                                                                                                                                                  
 37%|██████████████████████████████████████▎                                                                 | 3682/10000 [03:45<06:35, 15.99it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 514.61it/s][A


[117880] loss: 0.075 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 581.57it/s][A
 37%|██████████████████████████████████████▎                                                                 | 3684/10000 [03:45<06:44, 15.60it/s]
                                                                                                                                                  [A
 37%|██████████████████████████████████████▎                                                                 | 3684/10000 [03:45<06:44, 15.60it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[117900] loss: 0.053 


                                                                                                                                                  
 37%|██████████████████████████████████████▎                                                                 | 3684/10000 [03:45<06:44, 15.60it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 572.02it/s][A


[117920] loss: 0.016 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 759.70it/s][A

                                                                                                                                                  [A
 37%|██████████████████████████████████████▎                                                                 | 3684/10000 [03:45<06:44, 15.60it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 633.49it/s][A


[117940] loss: 0.078 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 521.03it/s][A
 37%|██████████████████████████████████████▎                                                                 | 3686/10000 [03:45<06:43, 15.66it/s]
                                                                                                                                                  [A
 37%|██████████████████████████████████████▎                                                                 | 3686/10000 [03:45<06:43, 15.66it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[117960] loss: 0.031 


                                                                                                                                                  
 37%|██████████████████████████████████████▎                                                                 | 3686/10000 [03:45<06:43, 15.66it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 524.44it/s][A


[117980] loss: 0.061 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 894.69it/s][A

                                                                                                                                                  [A
 37%|██████████████████████████████████████▎                                                                 | 3686/10000 [03:46<06:43, 15.66it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 606.91it/s][A


[118000] loss: 0.056 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1689.21it/s][A
 37%|██████████████████████████████████████▎                                                                 | 3688/10000 [03:46<06:48, 15.46it/s]
                                                                                                                                                  [A
 37%|██████████████████████████████████████▎                                                                 | 3688/10000 [03:46<06:48, 15.46it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[118020] loss: 0.040 


                                                                                                                                                  
 37%|██████████████████████████████████████▎                                                                 | 3688/10000 [03:46<06:48, 15.46it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 518.55it/s][A


[118040] loss: 0.055 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 880.79it/s][A

                                                                                                                                                  [A
 37%|██████████████████████████████████████▎                                                                 | 3688/10000 [03:46<06:48, 15.46it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[118060] loss: 0.053 


                                                                                                                                                  
 37%|██████████████████████████████████████▎                                                                 | 3688/10000 [03:46<06:48, 15.46it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 581.52it/s][A


[118080] loss: 0.030 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1634.57it/s][A
 37%|██████████████████████████████████████▍                                                                 | 3690/10000 [03:46<06:50, 15.37it/s]
                                                                                                                                                  [A
 37%|██████████████████████████████████████▍                                                                 | 3690/10000 [03:46<06:50, 15.37it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[118100] loss: 0.054 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 873.14it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2062.10it/s][A

                                                                                                                                                  [A
 37%|██████████████████████████████████████▍                                                                 | 3690/10000 [03:46<06:50, 15.37it/s]
                                                                                                                                                  [A
                                                                                                                                                  

[118120] loss: 0.057 


 37%|██████████████████████████████████████▍                                                                 | 3690/10000 [03:46<06:50, 15.37it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 757.98it/s][A


[118140] loss: 0.055 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1421.32it/s][A

                                                                                                                                                  [A
 37%|██████████████████████████████████████▍                                                                 | 3690/10000 [03:46<06:50, 15.37it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[118160] loss: 0.054 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 853.37it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1267.93it/s][A
 37%|██████████████████████████████████████▍                                                                 | 3693/10000 [03:46<06:05, 17.27it/s]
                                                                                                                                                  [A
 37%|██████████████████████████████████████▍                                                                 | 3693/10000 [03:46<06:05, 17.27it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[118180] loss: 0.041 


                                                                                                                                                  
 37%|██████████████████████████████████████▍                                                                 | 3693/10000 [03:46<06:05, 17.27it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 703.26it/s][A


[118200] loss: 0.041 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1933.75it/s][A

                                                                                                                                                  [A
 37%|██████████████████████████████████████▍                                                                 | 3693/10000 [03:46<06:05, 17.27it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[118220] loss: 0.059 


                                                                                                                                                  
 37%|██████████████████████████████████████▍                                                                 | 3693/10000 [03:46<06:05, 17.27it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 746.29it/s][A


[118240] loss: 0.062 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 281.91it/s][A
 37%|██████████████████████████████████████▍                                                                 | 3695/10000 [03:46<05:57, 17.64it/s]
                                                                                                                                                  [A
 37%|██████████████████████████████████████▍                                                                 | 3695/10000 [03:46<05:57, 17.64it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[118260] loss: 0.058 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 808.93it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2142.14it/s][A

                                                                                                                                                  [A
 37%|██████████████████████████████████████▍                                                                 | 3695/10000 [03:46<05:57, 17.64it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[118280] loss: 0.065 


                                                                                                                                                  
 37%|██████████████████████████████████████▍                                                                 | 3695/10000 [03:46<05:57, 17.64it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 671.87it/s][A


[118300] loss: 0.080 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1321.87it/s][A
 37%|██████████████████████████████████████▍                                                                 | 3697/10000 [03:46<05:46, 18.17it/s]
                                                                                                                                                  [A
 37%|██████████████████████████████████████▍                                                                 | 3697/10000 [03:46<05:46, 18.17it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[118320] loss: 0.056 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 821.49it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1316.07it/s][A

                                                                                                                                                  [A
 37%|██████████████████████████████████████▍                                                                 | 3697/10000 [03:46<05:46, 18.17it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[118340] loss: 0.067 


                                                                                                                                                  
 37%|██████████████████████████████████████▍                                                                 | 3697/10000 [03:46<05:46, 18.17it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 610.27it/s][A


[118360] loss: 0.084 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1429.06it/s][A
 37%|██████████████████████████████████████▍                                                                 | 3699/10000 [03:46<05:47, 18.15it/s]
                                                                                                                                                  [A
 37%|██████████████████████████████████████▍                                                                 | 3699/10000 [03:46<05:47, 18.15it/s]
                                                                                                                                                  [A
 37%|██████████████████████████████████████▍                                                                 | 3699/10000 [03:46<05:47, 18.15it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[118380] loss: 0.041 
[118400] loss: 0.054 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 370.52it/s][A

                                                                                                                                                  [A
 37%|██████████████████████████████████████▍                                                                 | 3699/10000 [03:46<05:47, 18.15it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 902.31it/s][A


[118420] loss: 0.042 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 618.26it/s][A

                                                                                                                                                  [A
 37%|██████████████████████████████████████▍                                                                 | 3699/10000 [03:46<05:47, 18.15it/s]
                                                                                                                                                  [A
 37%|██████████████████████████████████████▍                                                                 | 3699/10000 [03:46<05:47, 18.15it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 704.00it/s][A


[118440] loss: 0.058 
[118460] loss: 0.056 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 934.14it/s][A
 37%|██████████████████████████████████████▌                                                                 | 3702/10000 [03:46<05:35, 18.77it/s]
                                                                                                                                                  [A
 37%|██████████████████████████████████████▌                                                                 | 3702/10000 [03:46<05:35, 18.77it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[118480] loss: 0.023 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 776.40it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1979.38it/s][A

                                                                                                                                                  [A
 37%|██████████████████████████████████████▌                                                                 | 3702/10000 [03:46<05:35, 18.77it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[118500] loss: 0.043 


                                                                                                                                                  
 37%|██████████████████████████████████████▌                                                                 | 3702/10000 [03:46<05:35, 18.77it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 737.60it/s][A


[118520] loss: 0.045 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1346.92it/s][A
 37%|██████████████████████████████████████▌                                                                 | 3704/10000 [03:46<05:30, 19.06it/s]
                                                                                                                                                  [A
 37%|██████████████████████████████████████▌                                                                 | 3704/10000 [03:46<05:30, 19.06it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[118540] loss: 0.053 


                                                                                                                                                  
 37%|██████████████████████████████████████▌                                                                 | 3704/10000 [03:46<05:30, 19.06it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 723.79it/s][A


[118560] loss: 0.137 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2100.30it/s][A

                                                                                                                                                  [A
 37%|██████████████████████████████████████▌                                                                 | 3704/10000 [03:46<05:30, 19.06it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 754.11it/s][A


[118580] loss: 0.061 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1985.94it/s][A
 37%|██████████████████████████████████████▌                                                                 | 3706/10000 [03:46<05:26, 19.26it/s]
                                                                                                                                                  [A
 37%|██████████████████████████████████████▌                                                                 | 3706/10000 [03:47<05:26, 19.26it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[118600] loss: 0.038 


                                                                                                                                                  
 37%|██████████████████████████████████████▌                                                                 | 3706/10000 [03:47<05:26, 19.26it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 724.42it/s][A


[118620] loss: 0.052 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1365.33it/s][A

                                                                                                                                                  [A
 37%|██████████████████████████████████████▌                                                                 | 3706/10000 [03:47<05:26, 19.26it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[118640] loss: 0.043 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 714.68it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1380.16it/s][A
 37%|██████████████████████████████████████▌                                                                 | 3708/10000 [03:47<05:29, 19.11it/s]
                                                                                                                                                  [A
 37%|██████████████████████████████████████▌                                                                 | 3708/10000 [03:47<05:29, 19.11it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[118660] loss: 0.067 


                                                                                                                                                  
 37%|██████████████████████████████████████▌                                                                 | 3708/10000 [03:47<05:29, 19.11it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 561.04it/s][A


[118680] loss: 0.039 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 644.09it/s][A

                                                                                                                                                  [A
 37%|██████████████████████████████████████▌                                                                 | 3708/10000 [03:47<05:29, 19.11it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[118700] loss: 0.040 


                                                                                                                                                  
 37%|██████████████████████████████████████▌                                                                 | 3708/10000 [03:47<05:29, 19.11it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 735.40it/s][A


[118720] loss: 0.062 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1190.21it/s][A
 37%|██████████████████████████████████████▌                                                                 | 3710/10000 [03:47<05:45, 18.19it/s]
                                                                                                                                                  [A
 37%|██████████████████████████████████████▌                                                                 | 3710/10000 [03:47<05:45, 18.19it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[118740] loss: 0.070 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 706.23it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 693.73it/s][A

                                                                                                                                                  [A
 37%|██████████████████████████████████████▌                                                                 | 3710/10000 [03:47<05:45, 18.19it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[118760] loss: 0.042 


                                                                                                                                                  
 37%|██████████████████████████████████████▌                                                                 | 3710/10000 [03:47<05:45, 18.19it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 547.60it/s][A


[118780] loss: 0.080 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 848.53it/s][A
 37%|██████████████████████████████████████▌                                                                 | 3712/10000 [03:47<05:53, 17.80it/s]
                                                                                                                                                  [A
 37%|██████████████████████████████████████▌                                                                 | 3712/10000 [03:47<05:53, 17.80it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[118800] loss: 0.045 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 553.86it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 605.06it/s][A

                                                                                                                                                  [A
 37%|██████████████████████████████████████▌                                                                 | 3712/10000 [03:47<05:53, 17.80it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[118820] loss: 0.047 


                                                                                                                                                  
 37%|██████████████████████████████████████▌                                                                 | 3712/10000 [03:47<05:53, 17.80it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 519.00it/s][A


[118840] loss: 0.050 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 419.39it/s][A
 37%|██████████████████████████████████████▋                                                                 | 3714/10000 [03:47<06:15, 16.75it/s]
                                                                                                                                                  [A
 37%|██████████████████████████████████████▋                                                                 | 3714/10000 [03:47<06:15, 16.75it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[118860] loss: 0.064 


                                                                                                                                                  
 37%|██████████████████████████████████████▋                                                                 | 3714/10000 [03:47<06:15, 16.75it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 450.78it/s][A


[118880] loss: 0.025 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 754.64it/s][A

                                                                                                                                                  [A
 37%|██████████████████████████████████████▋                                                                 | 3714/10000 [03:47<06:15, 16.75it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 554.47it/s][A


[118900] loss: 0.071 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 505.76it/s][A
 37%|██████████████████████████████████████▋                                                                 | 3716/10000 [03:47<06:41, 15.66it/s]
                                                                                                                                                  [A
 37%|██████████████████████████████████████▋                                                                 | 3716/10000 [03:47<06:41, 15.66it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[118920] loss: 0.047 


                                                                                                                                                  
 37%|██████████████████████████████████████▋                                                                 | 3716/10000 [03:47<06:41, 15.66it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 540.56it/s][A


[118940] loss: 0.049 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 790.78it/s][A

                                                                                                                                                  [A
 37%|██████████████████████████████████████▋                                                                 | 3716/10000 [03:47<06:41, 15.66it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[118960] loss: 0.050 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 581.96it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 993.44it/s][A
 37%|██████████████████████████████████████▋                                                                 | 3718/10000 [03:47<06:44, 15.51it/s]
                                                                                                                                                  [A
 37%|██████████████████████████████████████▋                                                                 | 3718/10000 [03:47<06:44, 15.51it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[118980] loss: 0.042 


                                                                                                                                                  
 37%|██████████████████████████████████████▋                                                                 | 3718/10000 [03:47<06:44, 15.51it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 467.78it/s][A


[119000] loss: 0.063 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 681.78it/s][A

                                                                                                                                                  [A
 37%|██████████████████████████████████████▋                                                                 | 3718/10000 [03:47<06:44, 15.51it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[119020] loss: 0.030 


                                                                                                                                                  
 37%|██████████████████████████████████████▋                                                                 | 3718/10000 [03:47<06:44, 15.51it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 581.05it/s][A


[119040] loss: 0.050 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 788.11it/s][A
 37%|██████████████████████████████████████▋                                                                 | 3720/10000 [03:47<06:55, 15.11it/s]
                                                                                                                                                  [A
 37%|██████████████████████████████████████▋                                                                 | 3720/10000 [03:47<06:55, 15.11it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 623.56it/s][A


[119060] loss: 0.070 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 654.03it/s][A

                                                                                                                                                  [A
 37%|██████████████████████████████████████▋                                                                 | 3720/10000 [03:47<06:55, 15.11it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[119080] loss: 0.037 


                                                                                                                                                  
 37%|██████████████████████████████████████▋                                                                 | 3720/10000 [03:48<06:55, 15.11it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 460.35it/s][A


[119100] loss: 0.042 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 780.92it/s][A
 37%|██████████████████████████████████████▋                                                                 | 3722/10000 [03:48<07:05, 14.77it/s]
                                                                                                                                                  [A
 37%|██████████████████████████████████████▋                                                                 | 3722/10000 [03:48<07:05, 14.77it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[119120] loss: 0.043 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 584.10it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 627.89it/s][A

                                                                                                                                                  [A
 37%|██████████████████████████████████████▋                                                                 | 3722/10000 [03:48<07:05, 14.77it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[119140] loss: 0.038 


                                                                                                                                                  
 37%|██████████████████████████████████████▋                                                                 | 3722/10000 [03:48<07:05, 14.77it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 501.00it/s][A


[119160] loss: 0.096 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 558.79it/s][A
 37%|██████████████████████████████████████▋                                                                 | 3724/10000 [03:48<07:08, 14.66it/s]
                                                                                                                                                  [A
 37%|██████████████████████████████████████▋                                                                 | 3724/10000 [03:48<07:08, 14.66it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[119180] loss: 0.047 


                                                                                                                                                  
 37%|██████████████████████████████████████▋                                                                 | 3724/10000 [03:48<07:08, 14.66it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 495.95it/s][A


[119200] loss: 0.008 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 891.46it/s][A

                                                                                                                                                  [A
 37%|██████████████████████████████████████▋                                                                 | 3724/10000 [03:48<07:08, 14.66it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 554.04it/s][A


[119220] loss: 0.050 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 720.30it/s][A
 37%|██████████████████████████████████████▊                                                                 | 3726/10000 [03:48<07:10, 14.56it/s]
                                                                                                                                                  [A
 37%|██████████████████████████████████████▊                                                                 | 3726/10000 [03:48<07:10, 14.56it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[119240] loss: 0.064 


                                                                                                                                                  
 37%|██████████████████████████████████████▊                                                                 | 3726/10000 [03:48<07:10, 14.56it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 465.28it/s][A


[119260] loss: 0.065 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 801.66it/s][A

                                                                                                                                                  [A
 37%|██████████████████████████████████████▊                                                                 | 3726/10000 [03:48<07:10, 14.56it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[119280] loss: 0.059 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 590.15it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2179.99it/s][A
 37%|██████████████████████████████████████▊                                                                 | 3728/10000 [03:48<07:15, 14.39it/s]
                                                                                                                                                  [A
 37%|██████████████████████████████████████▊                                                                 | 3728/10000 [03:48<07:15, 14.39it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[119300] loss: 0.084 


                                                                                                                                                  
 37%|██████████████████████████████████████▊                                                                 | 3728/10000 [03:48<07:15, 14.39it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 635.86it/s][A


[119320] loss: 0.060 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 823.38it/s][A

                                                                                                                                                  [A
 37%|██████████████████████████████████████▊                                                                 | 3728/10000 [03:48<07:15, 14.39it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[119340] loss: 0.042 


                                                                                                                                                  
 37%|██████████████████████████████████████▊                                                                 | 3728/10000 [03:48<07:15, 14.39it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 777.70it/s][A


[119360] loss: 0.062 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2355.03it/s][A
 37%|██████████████████████████████████████▊                                                                 | 3730/10000 [03:48<06:45, 15.45it/s]
                                                                                                                                                  [A
 37%|██████████████████████████████████████▊                                                                 | 3730/10000 [03:48<06:45, 15.45it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 871.49it/s][A


[119380] loss: 0.057 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 807.84it/s][A

                                                                                                                                                  [A
 37%|██████████████████████████████████████▊                                                                 | 3730/10000 [03:48<06:45, 15.45it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[119400] loss: 0.062 


                                                                                                                                                  
 37%|██████████████████████████████████████▊                                                                 | 3730/10000 [03:48<06:45, 15.45it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 755.29it/s][A


[119420] loss: 0.041 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2365.65it/s][A

                                                                                                                                                  [A
 37%|██████████████████████████████████████▊                                                                 | 3730/10000 [03:48<06:45, 15.45it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 911.72it/s][A


[119440] loss: 0.070 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2059.06it/s][A
 37%|██████████████████████████████████████▊                                                                 | 3733/10000 [03:48<05:57, 17.54it/s]
                                                                                                                                                  [A
 37%|██████████████████████████████████████▊                                                                 | 3733/10000 [03:48<05:57, 17.54it/s]
                                                                                                                                                  [A

[119460] loss: 0.047 



 37%|██████████████████████████████████████▊                                                                 | 3733/10000 [03:48<05:57, 17.54it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 690.66it/s][A


[119480] loss: 0.057 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1126.90it/s][A

                                                                                                                                                  [A
 37%|██████████████████████████████████████▊                                                                 | 3733/10000 [03:48<05:57, 17.54it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[119500] loss: 0.066 


                                                                                                                                                  
 37%|██████████████████████████████████████▊                                                                 | 3733/10000 [03:48<05:57, 17.54it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 779.50it/s][A


[119520] loss: 0.045 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1381.98it/s][A
 37%|██████████████████████████████████████▊                                                                 | 3735/10000 [03:48<05:50, 17.88it/s]
                                                                                                                                                  [A
 37%|██████████████████████████████████████▊                                                                 | 3735/10000 [03:48<05:50, 17.88it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[119540] loss: 0.071 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 788.73it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2031.14it/s][A

                                                                                                                                                  [A
 37%|██████████████████████████████████████▊                                                                 | 3735/10000 [03:48<05:50, 17.88it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[119560] loss: 0.057 


                                                                                                                                                  
 37%|██████████████████████████████████████▊                                                                 | 3735/10000 [03:48<05:50, 17.88it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 755.62it/s][A


[119580] loss: 0.105 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1259.17it/s][A

                                                                                                                                                  [A
 37%|██████████████████████████████████████▊                                                                 | 3735/10000 [03:48<05:50, 17.88it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[119600] loss: 0.069 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 796.12it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1262.96it/s][A
 37%|██████████████████████████████████████▉                                                                 | 3738/10000 [03:48<05:37, 18.58it/s]
                                                                                                                                                  [A
 37%|██████████████████████████████████████▉                                                                 | 3738/10000 [03:48<05:37, 18.58it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[119620] loss: 0.066 


                                                                                                                                                  
 37%|██████████████████████████████████████▉                                                                 | 3738/10000 [03:49<05:37, 18.58it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 603.88it/s][A


[119640] loss: 0.089 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1335.34it/s][A

                                                                                                                                                  [A
 37%|██████████████████████████████████████▉                                                                 | 3738/10000 [03:49<05:37, 18.58it/s]
                                                                                                                                                  [A

[119660] loss: 0.079 



 37%|██████████████████████████████████████▉                                                                 | 3738/10000 [03:49<05:37, 18.58it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 638.14it/s][A


[119680] loss: 0.022 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 340.14it/s][A
 37%|██████████████████████████████████████▉                                                                 | 3740/10000 [03:49<05:49, 17.91it/s]
                                                                                                                                                  [A
 37%|██████████████████████████████████████▉                                                                 | 3740/10000 [03:49<05:49, 17.91it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 846.75it/s][A


[119700] loss: 0.049 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1804.00it/s][A

                                                                                                                                                  [A
 37%|██████████████████████████████████████▉                                                                 | 3740/10000 [03:49<05:49, 17.91it/s]
                                                                                                                                                  [A
[A                                                                                                                                               

[119720] loss: 0.057 
[119740] loss: 0.076 


 37%|██████████████████████████████████████▉                                                                 | 3740/10000 [03:49<05:49, 17.91it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 654.67it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1461.43it/s][A
 37%|██████████████████████████████████████▉                                                                 | 3742/10000 [03:49<05:42, 18.25it/s]
                                                                                                                                                  [A
 37%|██████████████████████████████████████▉                                                                 | 3742/10000 [03:49<05:42, 18.25it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[119760] loss: 0.064 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2006.84it/s][A

                                                                                                                                                  [A
 37%|██████████████████████████████████████▉                                                                 | 3742/10000 [03:49<05:42, 18.25it/s]
                                                                                                                                                  [A
 37%|██████████████████████████████████████▉                                                                 | 3742/10000 [03:49<05:42, 18.25it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[119780] loss: 0.065 
[119800] loss: 0.066 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 727.03it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1478.95it/s][A
 37%|██████████████████████████████████████▉                                                                 | 3744/10000 [03:49<05:34, 18.69it/s]
                                                                                                                                                  [A
 37%|██████████████████████████████████████▉                                                                 | 3744/10000 [03:49<05:34, 18.69it/s]


[119820] loss: 0.066 


                                                                                                                                                  [A
 37%|██████████████████████████████████████▉                                                                 | 3744/10000 [03:49<05:34, 18.69it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 680.32it/s][A


[119840] loss: 0.067 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1475.31it/s][A

                                                                                                                                                  [A
 37%|██████████████████████████████████████▉                                                                 | 3744/10000 [03:49<05:34, 18.69it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 766.65it/s][A


[119860] loss: 0.035 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2061.08it/s][A
 37%|██████████████████████████████████████▉                                                                 | 3746/10000 [03:49<05:32, 18.83it/s]
                                                                                                                                                  [A
 37%|██████████████████████████████████████▉                                                                 | 3746/10000 [03:49<05:32, 18.83it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[119880] loss: 0.052 


                                                                                                                                                  
 37%|██████████████████████████████████████▉                                                                 | 3746/10000 [03:49<05:32, 18.83it/s]


[119900] loss: 0.072 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 531.36it/s][A

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 809.40it/s][A

                                                                                                                                                  [A
 37%|██████████████████████████████████████▉                                                                 | 3746/10000 [03:49<05:32, 18.83it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[119920] loss: 0.052 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 601.29it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 965.76it/s][A
 37%|██████████████████████████████████████▉                                                                 | 3748/10000 [03:49<05:55, 17.61it/s]
                                                                                                                                                  [A
 37%|██████████████████████████████████████▉                                                                 | 3748/10000 [03:49<05:55, 17.61it/s]
                                                                                                                                                  [A
[A                                                                                                         

[119940] loss: 0.046 
[119960] loss: 0.082 


 37%|██████████████████████████████████████▉                                                                 | 3748/10000 [03:49<05:55, 17.61it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 539.22it/s][A

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 406.54it/s][A

                                                                                                                                                  [A
 37%|██████████████████████████████████████▉                                                                 | 3748/10000 [03:49<05:55, 17.61it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[119980] loss: 0.053 


                                                                                                                                                  
 37%|██████████████████████████████████████▉                                                                 | 3748/10000 [03:49<05:55, 17.61it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 545.86it/s][A


[120000] loss: 0.078 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 834.69it/s][A
 38%|███████████████████████████████████████                                                                 | 3750/10000 [03:49<06:15, 16.64it/s]
                                                                                                                                                  [A
 38%|███████████████████████████████████████                                                                 | 3750/10000 [03:49<06:15, 16.64it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 591.92it/s][A


[120020] loss: 0.053 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 500.51it/s][A

                                                                                                                                                  [A
 38%|███████████████████████████████████████                                                                 | 3750/10000 [03:49<06:15, 16.64it/s]
                                                                                                                                                  [A
 38%|███████████████████████████████████████                                                                 | 3750/10000 [03:49<06:15, 16.64it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 526.63it/s][A


[120040] loss: 0.045 
[120060] loss: 0.063 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 763.02it/s][A
 38%|███████████████████████████████████████                                                                 | 3752/10000 [03:49<06:28, 16.07it/s]
                                                                                                                                                  [A
 38%|███████████████████████████████████████                                                                 | 3752/10000 [03:49<06:28, 16.07it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[120080] loss: 0.048 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 553.23it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 798.61it/s][A

                                                                                                                                                  [A
 38%|███████████████████████████████████████                                                                 | 3752/10000 [03:49<06:28, 16.07it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[120100] loss: 0.027 


                                                                                                                                                  
 38%|███████████████████████████████████████                                                                 | 3752/10000 [03:49<06:28, 16.07it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 471.10it/s][A


[120120] loss: 0.059 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1042.06it/s][A
 38%|███████████████████████████████████████                                                                 | 3754/10000 [03:49<06:49, 15.25it/s]
                                                                                                                                                  [A
 38%|███████████████████████████████████████                                                                 | 3754/10000 [03:49<06:49, 15.25it/s]
                                                                                                                                                  [A
 38%|███████████████████████████████████████                                                                 | 3754/10000 [03:50<06:49, 15.25it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[120140] loss: 0.046 
[120160] loss: 0.008 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 759.15it/s][A

                                                                                                                                                  [A
 38%|███████████████████████████████████████                                                                 | 3754/10000 [03:50<06:49, 15.25it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 576.28it/s][A

[120180] loss: 0.092 




Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 585.63it/s][A
 38%|███████████████████████████████████████                                                                 | 3756/10000 [03:50<07:00, 14.85it/s]
                                                                                                                                                  [A
 38%|███████████████████████████████████████                                                                 | 3756/10000 [03:50<07:00, 14.85it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[120200] loss: 0.040 


                                                                                                                                                  
 38%|███████████████████████████████████████                                                                 | 3756/10000 [03:50<07:00, 14.85it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 496.99it/s][A


[120220] loss: 0.050 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 396.74it/s][A

                                                                                                                                                  [A
 38%|███████████████████████████████████████                                                                 | 3756/10000 [03:50<07:00, 14.85it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 537.13it/s][A


[120240] loss: 0.076 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 524.55it/s][A
 38%|███████████████████████████████████████                                                                 | 3758/10000 [03:50<07:11, 14.47it/s]
                                                                                                                                                  [A
 38%|███████████████████████████████████████                                                                 | 3758/10000 [03:50<07:11, 14.47it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[120260] loss: 0.086 


                                                                                                                                                  
 38%|███████████████████████████████████████                                                                 | 3758/10000 [03:50<07:11, 14.47it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 467.42it/s][A


[120280] loss: 0.059 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 592.16it/s][A

                                                                                                                                                  [A
 38%|███████████████████████████████████████                                                                 | 3758/10000 [03:50<07:11, 14.47it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[120300] loss: 0.054 


                                                                                                                                                  
 38%|███████████████████████████████████████                                                                 | 3758/10000 [03:50<07:11, 14.47it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 501.46it/s][A


[120320] loss: 0.062 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 465.62it/s][A
 38%|███████████████████████████████████████                                                                 | 3760/10000 [03:50<07:22, 14.10it/s]
                                                                                                                                                  [A
 38%|███████████████████████████████████████                                                                 | 3760/10000 [03:50<07:22, 14.10it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 595.31it/s][A


[120340] loss: 0.090 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 505.34it/s][A

                                                                                                                                                  [A
 38%|███████████████████████████████████████                                                                 | 3760/10000 [03:50<07:22, 14.10it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[120360] loss: 0.030 


                                                                                                                                                  
 38%|███████████████████████████████████████                                                                 | 3760/10000 [03:50<07:22, 14.10it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 496.43it/s][A


[120380] loss: 0.079 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 775.86it/s][A
 38%|███████████████████████████████████████                                                                 | 3762/10000 [03:50<07:18, 14.22it/s]
                                                                                                                                                  [A
 38%|███████████████████████████████████████                                                                 | 3762/10000 [03:50<07:18, 14.22it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[120400] loss: 0.041 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 616.60it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1330.26it/s][A

                                                                                                                                                  [A
 38%|███████████████████████████████████████                                                                 | 3762/10000 [03:50<07:18, 14.22it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[120420] loss: 0.066 


                                                                                                                                                  
 38%|███████████████████████████████████████                                                                 | 3762/10000 [03:50<07:18, 14.22it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 612.92it/s][A


[120440] loss: 0.084 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1275.25it/s][A
 38%|███████████████████████████████████████▏                                                                | 3764/10000 [03:50<07:03, 14.71it/s]
                                                                                                                                                  [A
 38%|███████████████████████████████████████▏                                                                | 3764/10000 [03:50<07:03, 14.71it/s]
                                                                                                                                                  [A
 38%|███████████████████████████████████████▏                                                                | 3764/10000 [03:50<07:03, 14.71it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[120460] loss: 0.064 
[120480] loss: 0.062 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1322.29it/s][A

                                                                                                                                                  [A
 38%|███████████████████████████████████████▏                                                                | 3764/10000 [03:50<07:03, 14.71it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 785.88it/s][A


[120500] loss: 0.054 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 600.73it/s][A
 38%|███████████████████████████████████████▏                                                                | 3766/10000 [03:50<06:39, 15.60it/s]
                                                                                                                                                  [A
 38%|███████████████████████████████████████▏                                                                | 3766/10000 [03:50<06:39, 15.60it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[120520] loss: 0.031 


                                                                                                                                                  
 38%|███████████████████████████████████████▏                                                                | 3766/10000 [03:50<06:39, 15.60it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 592.59it/s][A


[120540] loss: 0.091 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 735.97it/s][A

                                                                                                                                                  [A
 38%|███████████████████████████████████████▏                                                                | 3766/10000 [03:50<06:39, 15.60it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 696.88it/s][A

[120560] loss: 0.105 




Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1391.15it/s][A
 38%|███████████████████████████████████████▏                                                                | 3768/10000 [03:50<06:32, 15.87it/s]
                                                                                                                                                  [A
 38%|███████████████████████████████████████▏                                                                | 3768/10000 [03:50<06:32, 15.87it/s]
                                                                                                                                                  [A
 38%|███████████████████████████████████████▏                                                                | 3768/10000 [03:50<06:32, 15.87it/s]
Training Epoch: 100%|██████████████████████████████████████████████████████████████████████████████████████

[120580] loss: 0.060 
[120600] loss: 0.065 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1322.71it/s][A

                                                                                                                                                  [A
 38%|███████████████████████████████████████▏                                                                | 3768/10000 [03:50<06:32, 15.87it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[120620] loss: 0.065 


                                                                                                                                                  
 38%|███████████████████████████████████████▏                                                                | 3768/10000 [03:50<06:32, 15.87it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 545.26it/s][A


[120640] loss: 0.051 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1051.99it/s][A
 38%|███████████████████████████████████████▏                                                                | 3770/10000 [03:51<06:30, 15.97it/s]
                                                                                                                                                  [A
 38%|███████████████████████████████████████▏                                                                | 3770/10000 [03:51<06:30, 15.97it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[120660] loss: 0.073 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 696.04it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 452.56it/s][A

                                                                                                                                                  [A
 38%|███████████████████████████████████████▏                                                                | 3770/10000 [03:51<06:30, 15.97it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[120680] loss: 0.070 


                                                                                                                                                  
 38%|███████████████████████████████████████▏                                                                | 3770/10000 [03:51<06:30, 15.97it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 796.17it/s][A


[120700] loss: 0.084 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 969.11it/s][A
 38%|███████████████████████████████████████▏                                                                | 3772/10000 [03:51<06:14, 16.65it/s]
                                                                                                                                                  [A
 38%|███████████████████████████████████████▏                                                                | 3772/10000 [03:51<06:14, 16.65it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 778.82it/s][A


[120720] loss: 0.047 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 485.62it/s][A

                                                                                                                                                  [A
 38%|███████████████████████████████████████▏                                                                | 3772/10000 [03:51<06:14, 16.65it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[120740] loss: 0.047 


                                                                                                                                                  
 38%|███████████████████████████████████████▏                                                                | 3772/10000 [03:51<06:14, 16.65it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 685.79it/s][A


[120760] loss: 0.041 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 686.13it/s][A
 38%|███████████████████████████████████████▏                                                                | 3774/10000 [03:51<06:02, 17.17it/s]
                                                                                                                                                  [A
 38%|███████████████████████████████████████▏                                                                | 3774/10000 [03:51<06:02, 17.17it/s]
                                                                                                                                                  [A
 38%|███████████████████████████████████████▏                                                                | 3774/10000 [03:51<06:02, 17.17it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[120780] loss: 0.076 
[120800] loss: 0.029 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 487.54it/s][A

                                                                                                                                                  [A
 38%|███████████████████████████████████████▏                                                                | 3774/10000 [03:51<06:02, 17.17it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 900.81it/s][A


[120820] loss: 0.114 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1020.26it/s][A

                                                                                                                                                  [A
 38%|███████████████████████████████████████▏                                                                | 3774/10000 [03:51<06:02, 17.17it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[120840] loss: 0.067 


                                                                                                                                                  
 38%|███████████████████████████████████████▏                                                                | 3774/10000 [03:51<06:02, 17.17it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 784.74it/s][A


[120860] loss: 0.069 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1068.34it/s][A
 38%|███████████████████████████████████████▎                                                                | 3777/10000 [03:51<05:38, 18.40it/s]
                                                                                                                                                  [A
 38%|███████████████████████████████████████▎                                                                | 3777/10000 [03:51<05:38, 18.40it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[120880] loss: 0.047 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 804.61it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 503.22it/s][A

                                                                                                                                                  [A
 38%|███████████████████████████████████████▎                                                                | 3777/10000 [03:51<05:38, 18.40it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[120900] loss: 0.051 


                                                                                                                                                  
 38%|███████████████████████████████████████▎                                                                | 3777/10000 [03:51<05:38, 18.40it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 586.21it/s][A


[120920] loss: 0.037 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1169.96it/s][A
 38%|███████████████████████████████████████▎                                                                | 3779/10000 [03:51<05:42, 18.17it/s]
                                                                                                                                                  [A
 38%|███████████████████████████████████████▎                                                                | 3779/10000 [03:51<05:42, 18.17it/s]
                                                                                                                                                  [A
[A                                                                                                                                               

[120940] loss: 0.048 


 38%|███████████████████████████████████████▎                                                                | 3779/10000 [03:51<05:42, 18.17it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 627.09it/s][A


[120960] loss: 0.074 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1478.95it/s][A

                                                                                                                                                  [A
 38%|███████████████████████████████████████▎                                                                | 3779/10000 [03:51<05:42, 18.17it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 701.52it/s][A

[120980] loss: 0.071 




Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1878.33it/s][A
 38%|███████████████████████████████████████▎                                                                | 3781/10000 [03:51<05:46, 17.94it/s]
                                                                                                                                                  [A
 38%|███████████████████████████████████████▎                                                                | 3781/10000 [03:51<05:46, 17.94it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[121000] loss: 0.054 


                                                                                                                                                  
 38%|███████████████████████████████████████▎                                                                | 3781/10000 [03:51<05:46, 17.94it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[121020] loss: 0.076 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 472.49it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 808.15it/s][A

                                                                                                                                                  [A
 38%|███████████████████████████████████████▎                                                                | 3781/10000 [03:51<05:46, 17.94it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[121040] loss: 0.057 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 587.55it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1001.74it/s][A
 38%|███████████████████████████████████████▎                                                                | 3783/10000 [03:51<06:09, 16.81it/s]
                                                                                                                                                  [A
 38%|███████████████████████████████████████▎                                                                | 3783/10000 [03:51<06:09, 16.81it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[121060] loss: 0.052 


                                                                                                                                                  
 38%|███████████████████████████████████████▎                                                                | 3783/10000 [03:51<06:09, 16.81it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 495.30it/s][A


[121080] loss: 0.098 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 647.07it/s][A

                                                                                                                                                  [A
 38%|███████████████████████████████████████▎                                                                | 3783/10000 [03:51<06:09, 16.81it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[121100] loss: 0.054 


                                                                                                                                                  
 38%|███████████████████████████████████████▎                                                                | 3783/10000 [03:51<06:09, 16.81it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 537.16it/s][A


[121120] loss: 0.100 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 749.38it/s][A
 38%|███████████████████████████████████████▎                                                                | 3785/10000 [03:51<06:30, 15.91it/s]
                                                                                                                                                  [A
 38%|███████████████████████████████████████▎                                                                | 3785/10000 [03:51<06:30, 15.91it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 526.72it/s][A


[121140] loss: 0.062 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 439.56it/s][A

                                                                                                                                                  [A
 38%|███████████████████████████████████████▎                                                                | 3785/10000 [03:51<06:30, 15.91it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[121160] loss: 0.068 


                                                                                                                                                  
 38%|███████████████████████████████████████▎                                                                | 3785/10000 [03:52<06:30, 15.91it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 471.65it/s][A


[121180] loss: 0.039 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 460.51it/s][A
 38%|███████████████████████████████████████▍                                                                | 3787/10000 [03:52<06:53, 15.02it/s]
                                                                                                                                                  [A
 38%|███████████████████████████████████████▍                                                                | 3787/10000 [03:52<06:53, 15.02it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[121200] loss: 0.037 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 580.64it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 754.64it/s][A

                                                                                                                                                  [A
 38%|███████████████████████████████████████▍                                                                | 3787/10000 [03:52<06:53, 15.02it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[121220] loss: 0.077 


                                                                                                                                                  
 38%|███████████████████████████████████████▍                                                                | 3787/10000 [03:52<06:53, 15.02it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 466.45it/s][A


[121240] loss: 0.108 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 886.93it/s][A
 38%|███████████████████████████████████████▍                                                                | 3789/10000 [03:52<07:06, 14.57it/s]
                                                                                                                                                  [A
 38%|███████████████████████████████████████▍                                                                | 3789/10000 [03:52<07:06, 14.57it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[121260] loss: 0.047 


                                                                                                                                                  
 38%|███████████████████████████████████████▍                                                                | 3789/10000 [03:52<07:06, 14.57it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 485.42it/s][A


[121280] loss: 0.052 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 716.24it/s][A

                                                                                                                                                  [A
 38%|███████████████████████████████████████▍                                                                | 3789/10000 [03:52<07:06, 14.57it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[121300] loss: 0.102 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 564.98it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1065.36it/s][A
 38%|███████████████████████████████████████▍                                                                | 3791/10000 [03:52<07:09, 14.46it/s]
                                                                                                                                                  [A
 38%|███████████████████████████████████████▍                                                                | 3791/10000 [03:52<07:09, 14.46it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[121320] loss: 0.064 


                                                                                                                                                  
 38%|███████████████████████████████████████▍                                                                | 3791/10000 [03:52<07:09, 14.46it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 510.18it/s][A


[121340] loss: 0.031 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 708.26it/s][A

                                                                                                                                                  [A
 38%|███████████████████████████████████████▍                                                                | 3791/10000 [03:52<07:09, 14.46it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[121360] loss: 0.071 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 629.73it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1077.12it/s][A
 38%|███████████████████████████████████████▍                                                                | 3793/10000 [03:52<07:02, 14.71it/s]
                                                                                                                                                  [A
 38%|███████████████████████████████████████▍                                                                | 3793/10000 [03:52<07:02, 14.71it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[121380] loss: 0.084 


                                                                                                                                                  
 38%|███████████████████████████████████████▍                                                                | 3793/10000 [03:52<07:02, 14.71it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 500.83it/s][A


[121400] loss: 0.048 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 631.58it/s][A

                                                                                                                                                  [A
 38%|███████████████████████████████████████▍                                                                | 3793/10000 [03:52<07:02, 14.71it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[121420] loss: 0.034 


                                                                                                                                                  
 38%|███████████████████████████████████████▍                                                                | 3793/10000 [03:52<07:02, 14.71it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 538.87it/s][A


[121440] loss: 0.114 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 708.62it/s][A
 38%|███████████████████████████████████████▍                                                                | 3795/10000 [03:52<07:07, 14.50it/s]
                                                                                                                                                  [A
 38%|███████████████████████████████████████▍                                                                | 3795/10000 [03:52<07:07, 14.50it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 560.00it/s][A


[121460] loss: 0.062 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 525.34it/s][A

                                                                                                                                                  [A
 38%|███████████████████████████████████████▍                                                                | 3795/10000 [03:52<07:07, 14.50it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[121480] loss: 0.056 


                                                                                                                                                  
 38%|███████████████████████████████████████▍                                                                | 3795/10000 [03:52<07:07, 14.50it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 475.84it/s][A


[121500] loss: 0.067 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1162.18it/s][A
 38%|███████████████████████████████████████▍                                                                | 3797/10000 [03:52<07:14, 14.29it/s]
                                                                                                                                                  [A
 38%|███████████████████████████████████████▍                                                                | 3797/10000 [03:52<07:14, 14.29it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[121520] loss: 0.072 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 523.74it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 929.59it/s][A

                                                                                                                                                  [A
 38%|███████████████████████████████████████▍                                                                | 3797/10000 [03:52<07:14, 14.29it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[121540] loss: 0.069 


                                                                                                                                                  
 38%|███████████████████████████████████████▍                                                                | 3797/10000 [03:52<07:14, 14.29it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 480.44it/s][A


[121560] loss: 0.049 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1147.87it/s][A
 38%|███████████████████████████████████████▌                                                                | 3799/10000 [03:52<07:23, 13.99it/s]
                                                                                                                                                  [A
 38%|███████████████████████████████████████▌                                                                | 3799/10000 [03:52<07:23, 13.99it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[121580] loss: 0.050 


                                                                                                                                                  
 38%|███████████████████████████████████████▌                                                                | 3799/10000 [03:52<07:23, 13.99it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 614.31it/s][A


[121600] loss: 0.035 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1111.96it/s][A

                                                                                                                                                  [A
 38%|███████████████████████████████████████▌                                                                | 3799/10000 [03:52<07:23, 13.99it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 732.44it/s][A


[121620] loss: 0.074 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 746.72it/s][A
 38%|███████████████████████████████████████▌                                                                | 3801/10000 [03:52<06:57, 14.86it/s]
                                                                                                                                                  [A
 38%|███████████████████████████████████████▌                                                                | 3801/10000 [03:53<06:57, 14.86it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[121640] loss: 0.058 


                                                                                                                                                  
 38%|███████████████████████████████████████▌                                                                | 3801/10000 [03:53<06:57, 14.86it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 587.37it/s][A


[121660] loss: 0.060 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1337.04it/s][A

                                                                                                                                                  [A
 38%|███████████████████████████████████████▌                                                                | 3801/10000 [03:53<06:57, 14.86it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[121680] loss: 0.037 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 665.31it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1410.32it/s][A
 38%|███████████████████████████████████████▌                                                                | 3803/10000 [03:53<06:45, 15.28it/s]
                                                                                                                                                  [A
 38%|███████████████████████████████████████▌                                                                | 3803/10000 [03:53<06:45, 15.28it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[121700] loss: 0.040 


                                                                                                                                                  
 38%|███████████████████████████████████████▌                                                                | 3803/10000 [03:53<06:45, 15.28it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 646.71it/s][A


[121720] loss: 0.050 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1224.61it/s][A

                                                                                                                                                  [A
 38%|███████████████████████████████████████▌                                                                | 3803/10000 [03:53<06:45, 15.28it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[121740] loss: 0.063 


                                                                                                                                                  
 38%|███████████████████████████████████████▌                                                                | 3803/10000 [03:53<06:45, 15.28it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 657.02it/s][A


[121760] loss: 0.040 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1307.45it/s][A
 38%|███████████████████████████████████████▌                                                                | 3805/10000 [03:53<06:35, 15.66it/s]
                                                                                                                                                  [A
 38%|███████████████████████████████████████▌                                                                | 3805/10000 [03:53<06:35, 15.66it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[121780] loss: 0.053 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 688.53it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1352.56it/s][A

                                                                                                                                                  [A
 38%|███████████████████████████████████████▌                                                                | 3805/10000 [03:53<06:35, 15.66it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[121800] loss: 0.106 


                                                                                                                                                  
 38%|███████████████████████████████████████▌                                                                | 3805/10000 [03:53<06:35, 15.66it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 607.13it/s][A


[121820] loss: 0.087 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1357.38it/s][A
 38%|███████████████████████████████████████▌                                                                | 3807/10000 [03:53<06:26, 16.04it/s]
                                                                                                                                                  [A
 38%|███████████████████████████████████████▌                                                                | 3807/10000 [03:53<06:26, 16.04it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[121840] loss: 0.037 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 668.71it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1291.75it/s][A

                                                                                                                                                  [A
[A                                                                                                                                               

[121860] loss: 0.047 


 38%|███████████████████████████████████████▌                                                                | 3807/10000 [03:53<06:26, 16.04it/s]
                                                                                                                                                  [A
 38%|███████████████████████████████████████▌                                                                | 3807/10000 [03:53<06:26, 16.04it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[121880] loss: 0.067 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 579.04it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1268.69it/s][A
 38%|███████████████████████████████████████▌                                                                | 3809/10000 [03:53<06:24, 16.09it/s]
                                                                                                                                                  [A
 38%|███████████████████████████████████████▌                                                                | 3809/10000 [03:53<06:24, 16.09it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[121900] loss: 0.086 


                                                                                                                                                  
 38%|███████████████████████████████████████▌                                                                | 3809/10000 [03:53<06:24, 16.09it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 653.60it/s][A


[121920] loss: 0.037 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1401.37it/s][A

                                                                                                                                                  [A
 38%|███████████████████████████████████████▌                                                                | 3809/10000 [03:53<06:24, 16.09it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[121940] loss: 0.054 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 635.02it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1731.75it/s][A
 38%|███████████████████████████████████████▋                                                                | 3811/10000 [03:53<06:19, 16.31it/s]
                                                                                                                                                  [A
 38%|███████████████████████████████████████▋                                                                | 3811/10000 [03:53<06:19, 16.31it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[121960] loss: 0.049 


                                                                                                                                                  
 38%|███████████████████████████████████████▋                                                                | 3811/10000 [03:53<06:19, 16.31it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[121980] loss: 0.051 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 543.26it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1369.35it/s][A

                                                                                                                                                  [A
 38%|███████████████████████████████████████▋                                                                | 3811/10000 [03:53<06:19, 16.31it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[122000] loss: 0.048 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 722.97it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1871.62it/s][A
 38%|███████████████████████████████████████▋                                                                | 3813/10000 [03:53<06:18, 16.34it/s]
                                                                                                                                                  [A
 38%|███████████████████████████████████████▋                                                                | 3813/10000 [03:53<06:18, 16.34it/s]
                                                                                                                                                  [A
 38%|███████████████████████████████████████▋                                                               

[122020] loss: 0.062 
[122040] loss: 0.072 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 831.71it/s][A

                                                                                                                                                  [A
 38%|███████████████████████████████████████▋                                                                | 3813/10000 [03:53<06:18, 16.34it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[122060] loss: 0.051 


                                                                                                                                                  
 38%|███████████████████████████████████████▋                                                                | 3813/10000 [03:53<06:18, 16.34it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 639.53it/s][A


[122080] loss: 0.117 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1369.79it/s][A
 38%|███████████████████████████████████████▋                                                                | 3815/10000 [03:53<06:07, 16.82it/s]
                                                                                                                                                  [A
 38%|███████████████████████████████████████▋                                                                | 3815/10000 [03:53<06:07, 16.82it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 715.16it/s][A


[122100] loss: 0.054 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 725.78it/s][A

                                                                                                                                                  [A
 38%|███████████████████████████████████████▋                                                                | 3815/10000 [03:53<06:07, 16.82it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[122120] loss: 0.045 


                                                                                                                                                  
 38%|███████████████████████████████████████▋                                                                | 3815/10000 [03:53<06:07, 16.82it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 579.58it/s][A


[122140] loss: 0.055 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1227.48it/s][A
 38%|███████████████████████████████████████▋                                                                | 3817/10000 [03:53<06:10, 16.67it/s]
                                                                                                                                                  [A
 38%|███████████████████████████████████████▋                                                                | 3817/10000 [03:53<06:10, 16.67it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[122160] loss: 0.047 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 553.15it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 466.92it/s][A

                                                                                                                                                  [A
 38%|███████████████████████████████████████▋                                                                | 3817/10000 [03:54<06:10, 16.67it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[122180] loss: 0.063 


                                                                                                                                                  
 38%|███████████████████████████████████████▋                                                                | 3817/10000 [03:54<06:10, 16.67it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 489.78it/s][A


[122200] loss: 0.046 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 897.75it/s][A
 38%|███████████████████████████████████████▋                                                                | 3819/10000 [03:54<06:32, 15.73it/s]
                                                                                                                                                  [A
 38%|███████████████████████████████████████▋                                                                | 3819/10000 [03:54<06:32, 15.73it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[122220] loss: 0.031 


                                                                                                                                                  
 38%|███████████████████████████████████████▋                                                                | 3819/10000 [03:54<06:32, 15.73it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 531.51it/s][A


[122240] loss: 0.131 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 266.66it/s][A

                                                                                                                                                  [A
 38%|███████████████████████████████████████▋                                                                | 3819/10000 [03:54<06:32, 15.73it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 618.66it/s][A


[122260] loss: 0.092 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 511.50it/s][A
 38%|███████████████████████████████████████▋                                                                | 3821/10000 [03:54<06:37, 15.56it/s]
                                                                                                                                                  [A
 38%|███████████████████████████████████████▋                                                                | 3821/10000 [03:54<06:37, 15.56it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[122280] loss: 0.064 


                                                                                                                                                  
 38%|███████████████████████████████████████▋                                                                | 3821/10000 [03:54<06:37, 15.56it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 487.49it/s][A


[122300] loss: 0.096 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 778.16it/s][A

                                                                                                                                                  [A
 38%|███████████████████████████████████████▋                                                                | 3821/10000 [03:54<06:37, 15.56it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[122320] loss: 0.028 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 539.97it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 491.60it/s][A
 38%|███████████████████████████████████████▊                                                                | 3823/10000 [03:54<06:51, 15.01it/s]
                                                                                                                                                  [A
 38%|███████████████████████████████████████▊                                                                | 3823/10000 [03:54<06:51, 15.01it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[122340] loss: 0.048 


                                                                                                                                                  
 38%|███████████████████████████████████████▊                                                                | 3823/10000 [03:54<06:51, 15.01it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 492.27it/s][A


[122360] loss: 0.037 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 515.71it/s][A

                                                                                                                                                  [A
 38%|███████████████████████████████████████▊                                                                | 3823/10000 [03:54<06:51, 15.01it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[122380] loss: 0.069 


                                                                                                                                                  
 38%|███████████████████████████████████████▊                                                                | 3823/10000 [03:54<06:51, 15.01it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 580.23it/s][A


[122400] loss: 0.088 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1015.82it/s][A
 38%|███████████████████████████████████████▊                                                                | 3825/10000 [03:54<06:54, 14.90it/s]
                                                                                                                                                  [A
 38%|███████████████████████████████████████▊                                                                | 3825/10000 [03:54<06:54, 14.90it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 635.27it/s][A


[122420] loss: 0.054 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 554.88it/s][A

                                                                                                                                                  [A
 38%|███████████████████████████████████████▊                                                                | 3825/10000 [03:54<06:54, 14.90it/s]


[122440] loss: 0.058 


                                                                                                                                                  [A
[A                                                                                                                                               

[122460] loss: 0.090 


 38%|███████████████████████████████████████▊                                                                | 3825/10000 [03:54<06:54, 14.90it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 513.92it/s][A

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 844.60it/s][A
 38%|███████████████████████████████████████▊                                                                | 3827/10000 [03:54<06:50, 15.05it/s]
                                                                                                                                                  [A
 38%|███████████████████████████████████████▊                                                                | 3827/10000 [03:54<06:50, 15.05it/s]

[122480] loss: 0.050 



Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 602.64it/s][A

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 589.67it/s][A

                                                                                                                                                  [A
 38%|███████████████████████████████████████▊                                                                | 3827/10000 [03:54<06:50, 15.05it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[122500] loss: 0.043 


                                                                                                                                                  
 38%|███████████████████████████████████████▊                                                                | 3827/10000 [03:54<06:50, 15.05it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 524.48it/s][A


[122520] loss: 0.053 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 685.23it/s][A
 38%|███████████████████████████████████████▊                                                                | 3829/10000 [03:54<06:49, 15.06it/s]
                                                                                                                                                  [A
 38%|███████████████████████████████████████▊                                                                | 3829/10000 [03:54<06:49, 15.06it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[122540] loss: 0.057 


                                                                                                                                                  
 38%|███████████████████████████████████████▊                                                                | 3829/10000 [03:54<06:49, 15.06it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 554.52it/s][A


[122560] loss: 0.160 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 349.15it/s][A

                                                                                                                                                  [A
 38%|███████████████████████████████████████▊                                                                | 3829/10000 [03:54<06:49, 15.06it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 602.49it/s][A


[122580] loss: 0.055 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 460.81it/s][A
 38%|███████████████████████████████████████▊                                                                | 3831/10000 [03:54<06:45, 15.22it/s]
                                                                                                                                                  [A
 38%|███████████████████████████████████████▊                                                                | 3831/10000 [03:54<06:45, 15.22it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[122600] loss: 0.035 


                                                                                                                                                  
 38%|███████████████████████████████████████▊                                                                | 3831/10000 [03:54<06:45, 15.22it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 531.96it/s][A


[122620] loss: 0.072 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 813.01it/s][A

                                                                                                                                                  [A
 38%|███████████████████████████████████████▊                                                                | 3831/10000 [03:54<06:45, 15.22it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 610.81it/s][A


[122640] loss: 0.055 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 620.00it/s][A
 38%|███████████████████████████████████████▊                                                                | 3833/10000 [03:55<06:44, 15.23it/s]
                                                                                                                                                  [A
 38%|███████████████████████████████████████▊                                                                | 3833/10000 [03:55<06:44, 15.23it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[122660] loss: 0.067 


                                                                                                                                                  
 38%|███████████████████████████████████████▊                                                                | 3833/10000 [03:55<06:44, 15.23it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 553.69it/s][A


[122680] loss: 0.061 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 495.96it/s][A

                                                                                                                                                  [A
 38%|███████████████████████████████████████▊                                                                | 3833/10000 [03:55<06:44, 15.23it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[122700] loss: 0.059 


                                                                                                                                                  
 38%|███████████████████████████████████████▊                                                                | 3833/10000 [03:55<06:44, 15.23it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 524.09it/s][A


[122720] loss: 0.040 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 406.15it/s][A
 38%|███████████████████████████████████████▉                                                                | 3835/10000 [03:55<06:51, 14.99it/s]
                                                                                                                                                  [A
 38%|███████████████████████████████████████▉                                                                | 3835/10000 [03:55<06:51, 14.99it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 594.45it/s][A


[122740] loss: 0.061 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 560.29it/s][A

                                                                                                                                                  [A
 38%|███████████████████████████████████████▉                                                                | 3835/10000 [03:55<06:51, 14.99it/s]
                                                                                                                                                  [A
 38%|███████████████████████████████████████▉                                                                | 3835/10000 [03:55<06:51, 14.99it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[122760] loss: 0.059 
[122780] loss: 0.070 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 756.77it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2327.58it/s][A
 38%|███████████████████████████████████████▉                                                                | 3837/10000 [03:55<06:31, 15.73it/s]
                                                                                                                                                  [A
 38%|███████████████████████████████████████▉                                                                | 3837/10000 [03:55<06:31, 15.73it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[122800] loss: 0.038 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 777.65it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 933.10it/s][A

                                                                                                                                                  [A
 38%|███████████████████████████████████████▉                                                                | 3837/10000 [03:55<06:31, 15.73it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[122820] loss: 0.042 


                                                                                                                                                  
 38%|███████████████████████████████████████▉                                                                | 3837/10000 [03:55<06:31, 15.73it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 617.37it/s][A


[122840] loss: 0.030 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 796.03it/s][A
 38%|███████████████████████████████████████▉                                                                | 3839/10000 [03:55<06:16, 16.39it/s]
                                                                                                                                                  [A
 38%|███████████████████████████████████████▉                                                                | 3839/10000 [03:55<06:16, 16.39it/s]
                                                                                                                                                  [A
 38%|███████████████████████████████████████▉                                                                | 3839/10000 [03:55<06:16, 16.39it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[122860] loss: 0.062 
[122880] loss: 0.055 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2092.97it/s][A

                                                                                                                                                  [A
 38%|███████████████████████████████████████▉                                                                | 3839/10000 [03:55<06:16, 16.39it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 772.25it/s][A


[122900] loss: 0.048 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1346.49it/s][A
 38%|███████████████████████████████████████▉                                                                | 3841/10000 [03:55<06:04, 16.90it/s]
                                                                                                                                                  [A
 38%|███████████████████████████████████████▉                                                                | 3841/10000 [03:55<06:04, 16.90it/s]
                                                                                                                                                  [A


[122920] loss: 0.065 


 38%|███████████████████████████████████████▉                                                                | 3841/10000 [03:55<06:04, 16.90it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 663.38it/s][A


[122940] loss: 0.109 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1439.36it/s][A

                                                                                                                                                  [A
 38%|███████████████████████████████████████▉                                                                | 3841/10000 [03:55<06:04, 16.90it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 771.94it/s][A


[122960] loss: 0.045 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 760.66it/s][A
 38%|███████████████████████████████████████▉                                                                | 3843/10000 [03:55<05:54, 17.39it/s]
                                                                                                                                                  [A
 38%|███████████████████████████████████████▉                                                                | 3843/10000 [03:55<05:54, 17.39it/s]
                                                                                                                                                  [A
 38%|███████████████████████████████████████▉                                                                | 3843/10000 [03:55<05:54, 17.39it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[122980] loss: 0.061 
[123000] loss: 0.040 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1401.84it/s][A

                                                                                                                                                  [A
 38%|███████████████████████████████████████▉                                                                | 3843/10000 [03:55<05:54, 17.39it/s]
                                                                                                                                                  [A
 38%|███████████████████████████████████████▉                                                                | 3843/10000 [03:55<05:54, 17.39it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 694.06it/s][A


[123020] loss: 0.052 
[123040] loss: 0.074 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 486.80it/s][A
 38%|███████████████████████████████████████▉                                                                | 3845/10000 [03:55<05:49, 17.60it/s]
                                                                                                                                                  [A
 38%|███████████████████████████████████████▉                                                                | 3845/10000 [03:55<05:49, 17.60it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 745.15it/s][A


[123060] loss: 0.060 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 519.80it/s][A

                                                                                                                                                  [A
 38%|███████████████████████████████████████▉                                                                | 3845/10000 [03:55<05:49, 17.60it/s]
                                                                                                                                                  [A
 38%|███████████████████████████████████████▉                                                                | 3845/10000 [03:55<05:49, 17.60it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[123080] loss: 0.036 
[123100] loss: 0.066 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 603.44it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1166.38it/s][A
 38%|████████████████████████████████████████                                                                | 3847/10000 [03:55<05:52, 17.48it/s]
                                                                                                                                                  [A
 38%|████████████████████████████████████████                                                                | 3847/10000 [03:55<05:52, 17.48it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 748.92it/s][A


[123120] loss: 0.079 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1400.44it/s][A

                                                                                                                                                  [A
 38%|████████████████████████████████████████                                                                | 3847/10000 [03:55<05:52, 17.48it/s]
                                                                                                                                                  [A
 38%|████████████████████████████████████████                                                                | 3847/10000 [03:55<05:52, 17.48it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 672.43it/s][A


[123140] loss: 0.035 
[123160] loss: 0.051 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 979.98it/s][A
 38%|████████████████████████████████████████                                                                | 3849/10000 [03:55<05:50, 17.57it/s]
                                                                                                                                                  [A
 38%|████████████████████████████████████████                                                                | 3849/10000 [03:55<05:50, 17.57it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[123180] loss: 0.040 


                                                                                                                                                  
 38%|████████████████████████████████████████                                                                | 3849/10000 [03:55<05:50, 17.57it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 696.32it/s][A


[123200] loss: 0.038 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 270.62it/s][A

                                                                                                                                                  [A
 38%|████████████████████████████████████████                                                                | 3849/10000 [03:56<05:50, 17.57it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 824.96it/s][A


[123220] loss: 0.082 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1781.78it/s][A
 39%|████████████████████████████████████████                                                                | 3851/10000 [03:56<05:40, 18.07it/s]
                                                                                                                                                  [A
 39%|████████████████████████████████████████                                                                | 3851/10000 [03:56<05:40, 18.07it/s]
                                                                                                                                                  [A
 39%|████████████████████████████████████████                                                                | 3851/10000 [03:56<05:40, 18.07it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[123240] loss: 0.054 
[123260] loss: 0.030 




Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1330.68it/s][A

                                                                                                                                                  [A
 39%|████████████████████████████████████████                                                                | 3851/10000 [03:56<05:40, 18.07it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 777.47it/s][A


[123280] loss: 0.091 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2108.75it/s][A
 39%|████████████████████████████████████████                                                                | 3853/10000 [03:56<05:35, 18.33it/s]
                                                                                                                                                  [A
 39%|████████████████████████████████████████                                                                | 3853/10000 [03:56<05:35, 18.33it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[123300] loss: 0.083 


                                                                                                                                                  
[A                                                                                                                                               

[123320] loss: 0.057 


 39%|████████████████████████████████████████                                                                | 3853/10000 [03:56<05:35, 18.33it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 685.98it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1322.71it/s][A

                                                                                                                                                  [A
 39%|████████████████████████████████████████                                                                | 3853/10000 [03:56<05:35, 18.33it/s]
                                                                                                                                                  [A
 39%|████████████████████████████████████████                                                           

[123340] loss: 0.027 
[123360] loss: 0.024 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2029.17it/s][A
 39%|████████████████████████████████████████                                                                | 3855/10000 [03:56<05:32, 18.50it/s]
                                                                                                                                                  [A
 39%|████████████████████████████████████████                                                                | 3855/10000 [03:56<05:32, 18.50it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 722.49it/s][A


[123380] loss: 0.047 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 742.22it/s][A

                                                                                                                                                  [A
 39%|████████████████████████████████████████                                                                | 3855/10000 [03:56<05:32, 18.50it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[123400] loss: 0.025 


                                                                                                                                                  
 39%|████████████████████████████████████████                                                                | 3855/10000 [03:56<05:32, 18.50it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 544.74it/s][A


[123420] loss: 0.062 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 858.78it/s][A
 39%|████████████████████████████████████████                                                                | 3857/10000 [03:56<05:43, 17.89it/s]
                                                                                                                                                  [A
 39%|████████████████████████████████████████                                                                | 3857/10000 [03:56<05:43, 17.89it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[123440] loss: 0.039 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 627.57it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1007.04it/s][A

                                                                                                                                                  [A
 39%|████████████████████████████████████████                                                                | 3857/10000 [03:56<05:43, 17.89it/s]
                                                                                                                                                  [A
 39%|████████████████████████████████████████                                                                | 3857/10000 [03:56<05:43, 17.89it/s]
Training Epoch:   0%|                                                                                      

[123460] loss: 0.054 
[123480] loss: 0.079 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 529.83it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 940.64it/s][A
 39%|████████████████████████████████████████▏                                                               | 3859/10000 [03:56<05:54, 17.31it/s]
                                                                                                                                                  [A
 39%|████████████████████████████████████████▏                                                               | 3859/10000 [03:56<05:54, 17.31it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[123500] loss: 0.057 


                                                                                                                                                  
 39%|████████████████████████████████████████▏                                                               | 3859/10000 [03:56<05:54, 17.31it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 553.36it/s][A


[123520] loss: 0.016 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 321.75it/s][A

                                                                                                                                                  [A
 39%|████████████████████████████████████████▏                                                               | 3859/10000 [03:56<05:54, 17.31it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 572.07it/s][A


[123540] loss: 0.053 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 681.34it/s][A
 39%|████████████████████████████████████████▏                                                               | 3861/10000 [03:56<06:10, 16.57it/s]
                                                                                                                                                  [A
 39%|████████████████████████████████████████▏                                                               | 3861/10000 [03:56<06:10, 16.57it/s]
                                                                                                                                                  [A
 39%|████████████████████████████████████████▏                                                               | 3861/10000 [03:56<06:10, 16.57it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[123560] loss: 0.065 
[123580] loss: 0.046 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 801.36it/s][A

                                                                                                                                                  [A
 39%|████████████████████████████████████████▏                                                               | 3861/10000 [03:56<06:10, 16.57it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[123600] loss: 0.033 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 547.92it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 789.59it/s][A
 39%|████████████████████████████████████████▏                                                               | 3863/10000 [03:56<06:29, 15.77it/s]
                                                                                                                                                  [A
 39%|████████████████████████████████████████▏                                                               | 3863/10000 [03:56<06:29, 15.77it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[123620] loss: 0.054 


                                                                                                                                                  
 39%|████████████████████████████████████████▏                                                               | 3863/10000 [03:56<06:29, 15.77it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 471.92it/s][A


[123640] loss: 0.041 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 505.58it/s][A

                                                                                                                                                  [A
 39%|████████████████████████████████████████▏                                                               | 3863/10000 [03:56<06:29, 15.77it/s]
                                                                                                                                                  [A
 39%|████████████████████████████████████████▏                                                               | 3863/10000 [03:56<06:29, 15.77it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 507.47it/s][A


[123660] loss: 0.056 
[123680] loss: 0.054 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 360.83it/s][A
 39%|████████████████████████████████████████▏                                                               | 3865/10000 [03:56<06:52, 14.88it/s]
                                                                                                                                                  [A
 39%|████████████████████████████████████████▏                                                               | 3865/10000 [03:56<06:52, 14.88it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 598.61it/s][A


[123700] loss: 0.082 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 803.97it/s][A

                                                                                                                                                  [A
 39%|████████████████████████████████████████▏                                                               | 3865/10000 [03:57<06:52, 14.88it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[123720] loss: 0.040 


                                                                                                                                                  
 39%|████████████████████████████████████████▏                                                               | 3865/10000 [03:57<06:52, 14.88it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 511.14it/s][A


[123740] loss: 0.052 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 640.35it/s][A
 39%|████████████████████████████████████████▏                                                               | 3867/10000 [03:57<06:56, 14.73it/s]
                                                                                                                                                  [A
 39%|████████████████████████████████████████▏                                                               | 3867/10000 [03:57<06:56, 14.73it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 592.36it/s][A


[123760] loss: 0.043 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 806.60it/s][A

                                                                                                                                                  [A
 39%|████████████████████████████████████████▏                                                               | 3867/10000 [03:57<06:56, 14.73it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[123780] loss: 0.068 


                                                                                                                                                  
 39%|████████████████████████████████████████▏                                                               | 3867/10000 [03:57<06:56, 14.73it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 493.54it/s][A


[123800] loss: 0.052 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 385.33it/s][A
 39%|████████████████████████████████████████▏                                                               | 3869/10000 [03:57<06:59, 14.60it/s]
                                                                                                                                                  [A
 39%|████████████████████████████████████████▏                                                               | 3869/10000 [03:57<06:59, 14.60it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[123820] loss: 0.054 


                                                                                                                                                  
 39%|████████████████████████████████████████▏                                                               | 3869/10000 [03:57<06:59, 14.60it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 523.27it/s][A


[123840] loss: 0.084 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 768.89it/s][A

                                                                                                                                                  [A
 39%|████████████████████████████████████████▏                                                               | 3869/10000 [03:57<06:59, 14.60it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 589.41it/s][A


[123860] loss: 0.079 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 480.78it/s][A
 39%|████████████████████████████████████████▎                                                               | 3871/10000 [03:57<06:59, 14.61it/s]
                                                                                                                                                  [A
 39%|████████████████████████████████████████▎                                                               | 3871/10000 [03:57<06:59, 14.61it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[123880] loss: 0.049 


                                                                                                                                                  
 39%|████████████████████████████████████████▎                                                               | 3871/10000 [03:57<06:59, 14.61it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 470.37it/s][A


[123900] loss: 0.052 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 511.31it/s][A

                                                                                                                                                  [A
 39%|████████████████████████████████████████▎                                                               | 3871/10000 [03:57<06:59, 14.61it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[123920] loss: 0.042 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 532.78it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 581.01it/s][A
 39%|████████████████████████████████████████▎                                                               | 3873/10000 [03:57<07:10, 14.22it/s]
                                                                                                                                                  [A
 39%|████████████████████████████████████████▎                                                               | 3873/10000 [03:57<07:10, 14.22it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[123940] loss: 0.050 


                                                                                                                                                  
 39%|████████████████████████████████████████▎                                                               | 3873/10000 [03:57<07:10, 14.22it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 577.26it/s][A


[123960] loss: 0.071 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1289.76it/s][A

                                                                                                                                                  [A
 39%|████████████████████████████████████████▎                                                               | 3873/10000 [03:57<07:10, 14.22it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[123980] loss: 0.034 


                                                                                                                                                  
 39%|████████████████████████████████████████▎                                                               | 3873/10000 [03:57<07:10, 14.22it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 578.02it/s][A


[124000] loss: 0.094 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1178.51it/s][A
 39%|████████████████████████████████████████▎                                                               | 3875/10000 [03:57<07:02, 14.49it/s]
                                                                                                                                                  [A
 39%|████████████████████████████████████████▎                                                               | 3875/10000 [03:57<07:02, 14.49it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[124020] loss: 0.096 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 804.02it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1006.07it/s][A

                                                                                                                                                  [A
 39%|████████████████████████████████████████▎                                                               | 3875/10000 [03:57<07:02, 14.49it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[124040] loss: 0.022 


                                                                                                                                                  
 39%|████████████████████████████████████████▎                                                               | 3875/10000 [03:57<07:02, 14.49it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 561.95it/s][A


[124060] loss: 0.100 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1281.09it/s][A
 39%|████████████████████████████████████████▎                                                               | 3877/10000 [03:57<06:40, 15.27it/s]
                                                                                                                                                  [A
 39%|████████████████████████████████████████▎                                                               | 3877/10000 [03:57<06:40, 15.27it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[124080] loss: 0.086 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 697.54it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 823.38it/s][A

                                                                                                                                                  [A
 39%|████████████████████████████████████████▎                                                               | 3877/10000 [03:57<06:40, 15.27it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[124100] loss: 0.069 


                                                                                                                                                  
 39%|████████████████████████████████████████▎                                                               | 3877/10000 [03:57<06:40, 15.27it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[124120] loss: 0.054 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 595.39it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1846.90it/s][A
 39%|████████████████████████████████████████▎                                                               | 3879/10000 [03:57<06:30, 15.67it/s]
                                                                                                                                                  [A
 39%|████████████████████████████████████████▎                                                               | 3879/10000 [03:57<06:30, 15.67it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[124140] loss: 0.052 


                                                                                                                                                  
 39%|████████████████████████████████████████▎                                                               | 3879/10000 [03:57<06:30, 15.67it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 612.51it/s][A


[124160] loss: 0.048 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 681.11it/s][A

                                                                                                                                                  [A
 39%|████████████████████████████████████████▎                                                               | 3879/10000 [03:57<06:30, 15.67it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[124180] loss: 0.053 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 731.23it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1996.34it/s][A
 39%|████████████████████████████████████████▎                                                               | 3881/10000 [03:57<06:17, 16.19it/s]
                                                                                                                                                  [A
 39%|████████████████████████████████████████▎                                                               | 3881/10000 [03:57<06:17, 16.19it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[124200] loss: 0.081 


                                                                                                                                                  
 39%|████████████████████████████████████████▎                                                               | 3881/10000 [03:58<06:17, 16.19it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 570.62it/s][A


[124220] loss: 0.101 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1170.61it/s][A

                                                                                                                                                  [A
 39%|████████████████████████████████████████▎                                                               | 3881/10000 [03:58<06:17, 16.19it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[124240] loss: 0.038 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 724.14it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1945.41it/s][A
 39%|████████████████████████████████████████▍                                                               | 3883/10000 [03:58<06:14, 16.34it/s]
                                                                                                                                                  [A
 39%|████████████████████████████████████████▍                                                               | 3883/10000 [03:58<06:14, 16.34it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[124260] loss: 0.032 


                                                                                                                                                  
 39%|████████████████████████████████████████▍                                                               | 3883/10000 [03:58<06:14, 16.34it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[124280] loss: 0.081 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 594.92it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1316.48it/s][A

                                                                                                                                                  [A
 39%|████████████████████████████████████████▍                                                               | 3883/10000 [03:58<06:14, 16.34it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[124300] loss: 0.062 


                                                                                                                                                  
 39%|████████████████████████████████████████▍                                                               | 3883/10000 [03:58<06:14, 16.34it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 611.63it/s][A


[124320] loss: 0.060 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 838.69it/s][A
 39%|████████████████████████████████████████▍                                                               | 3885/10000 [03:58<06:17, 16.20it/s]
                                                                                                                                                  [A
 39%|████████████████████████████████████████▍                                                               | 3885/10000 [03:58<06:17, 16.20it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 852.65it/s][A


[124340] loss: 0.037 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 555.17it/s][A

                                                                                                                                                  [A
 39%|████████████████████████████████████████▍                                                               | 3885/10000 [03:58<06:17, 16.20it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[124360] loss: 0.067 


                                                                                                                                                  
 39%|████████████████████████████████████████▍                                                               | 3885/10000 [03:58<06:17, 16.20it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 622.94it/s][A


[124380] loss: 0.058 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 675.30it/s][A
 39%|████████████████████████████████████████▍                                                               | 3887/10000 [03:58<06:02, 16.85it/s]
                                                                                                                                                  [A
 39%|████████████████████████████████████████▍                                                               | 3887/10000 [03:58<06:02, 16.85it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 714.59it/s][A


[124400] loss: 0.026 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1090.56it/s][A

                                                                                                                                                  [A
 39%|████████████████████████████████████████▍                                                               | 3887/10000 [03:58<06:02, 16.85it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[124420] loss: 0.048 


                                                                                                                                                  
 39%|████████████████████████████████████████▍                                                               | 3887/10000 [03:58<06:02, 16.85it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 613.57it/s][A


[124440] loss: 0.062 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1281.88it/s][A
 39%|████████████████████████████████████████▍                                                               | 3889/10000 [03:58<05:58, 17.07it/s]
                                                                                                                                                  [A
 39%|████████████████████████████████████████▍                                                               | 3889/10000 [03:58<05:58, 17.07it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[124460] loss: 0.079 


                                                                                                                                                  
 39%|████████████████████████████████████████▍                                                               | 3889/10000 [03:58<05:58, 17.07it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 628.88it/s][A


[124480] loss: 0.125 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 662.19it/s][A

                                                                                                                                                  [A
 39%|████████████████████████████████████████▍                                                               | 3889/10000 [03:58<05:58, 17.07it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 787.83it/s][A


[124500] loss: 0.050 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 721.54it/s][A
 39%|████████████████████████████████████████▍                                                               | 3891/10000 [03:58<05:52, 17.35it/s]
                                                                                                                                                  [A
 39%|████████████████████████████████████████▍                                                               | 3891/10000 [03:58<05:52, 17.35it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[124520] loss: 0.047 


                                                                                                                                                  
 39%|████████████████████████████████████████▍                                                               | 3891/10000 [03:58<05:52, 17.35it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 533.26it/s][A


[124540] loss: 0.042 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 768.05it/s][A

                                                                                                                                                  [A
 39%|████████████████████████████████████████▍                                                               | 3891/10000 [03:58<05:52, 17.35it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[124560] loss: 0.034 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 567.08it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 974.51it/s][A
 39%|████████████████████████████████████████▍                                                               | 3893/10000 [03:58<06:13, 16.35it/s]
                                                                                                                                                  [A
 39%|████████████████████████████████████████▍                                                               | 3893/10000 [03:58<06:13, 16.35it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[124580] loss: 0.045 


                                                                                                                                                  
 39%|████████████████████████████████████████▍                                                               | 3893/10000 [03:58<06:13, 16.35it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 467.62it/s][A


[124600] loss: 0.043 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 908.45it/s][A

                                                                                                                                                  [A
 39%|████████████████████████████████████████▍                                                               | 3893/10000 [03:58<06:13, 16.35it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[124620] loss: 0.091 


                                                                                                                                                  
 39%|████████████████████████████████████████▍                                                               | 3893/10000 [03:58<06:13, 16.35it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 530.00it/s][A


[124640] loss: 0.042 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 854.76it/s][A
 39%|████████████████████████████████████████▌                                                               | 3895/10000 [03:58<06:38, 15.33it/s]
                                                                                                                                                  [A
 39%|████████████████████████████████████████▌                                                               | 3895/10000 [03:58<06:38, 15.33it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 676.15it/s][A


[124660] loss: 0.058 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1020.26it/s][A

                                                                                                                                                  [A
 39%|████████████████████████████████████████▌                                                               | 3895/10000 [03:58<06:38, 15.33it/s]
                                                                                                                                                  [A

[124680] loss: 0.068 



 39%|████████████████████████████████████████▌                                                               | 3895/10000 [03:58<06:38, 15.33it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 556.15it/s][A


[124700] loss: 0.047 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 848.53it/s][A
 39%|████████████████████████████████████████▌                                                               | 3897/10000 [03:58<06:26, 15.80it/s]
                                                                                                                                                  [A
 39%|████████████████████████████████████████▌                                                               | 3897/10000 [03:58<06:26, 15.80it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[124720] loss: 0.080 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 609.78it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1025.00it/s][A

                                                                                                                                                  [A
[A                                                                                                                                               

[124740] loss: 0.127 

 39%|████████████████████████████████████████▌                                                               | 3897/10000 [03:59<06:26, 15.80it/s]
                                                                                                                                                  [A
 39%|████████████████████████████████████████▌                                                               | 3897/10000 [03:59<06:26, 15.80it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A


[124760] loss: 0.051 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 500.55it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 978.61it/s][A
 39%|████████████████████████████████████████▌                                                               | 3899/10000 [03:59<06:29, 15.68it/s]
                                                                                                                                                  [A
 39%|████████████████████████████████████████▌                                                               | 3899/10000 [03:59<06:29, 15.68it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[124780] loss: 0.085 


                                                                                                                                                  
 39%|████████████████████████████████████████▌                                                               | 3899/10000 [03:59<06:29, 15.68it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 548.36it/s][A


[124800] loss: 0.040 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 462.23it/s][A

                                                                                                                                                  [A
 39%|████████████████████████████████████████▌                                                               | 3899/10000 [03:59<06:29, 15.68it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 627.95it/s][A


[124820] loss: 0.039 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1008.25it/s][A
 39%|████████████████████████████████████████▌                                                               | 3901/10000 [03:59<06:27, 15.76it/s]
                                                                                                                                                  [A
[A                                                                                                                                               

[124840] loss: 0.063 

 39%|████████████████████████████████████████▌                                                               | 3901/10000 [03:59<06:27, 15.76it/s]
                                                                                                                                                  [A
 39%|████████████████████████████████████████▌                                                               | 3901/10000 [03:59<06:27, 15.76it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 567.98it/s][A



[124860] loss: 0.060 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 596.12it/s][A

                                                                                                                                                  [A
 39%|████████████████████████████████████████▌                                                               | 3901/10000 [03:59<06:27, 15.76it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[124880] loss: 0.047 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 618.30it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1001.03it/s][A
 39%|████████████████████████████████████████▌                                                               | 3903/10000 [03:59<06:24, 15.85it/s]
                                                                                                                                                  [A
 39%|████████████████████████████████████████▌                                                               | 3903/10000 [03:59<06:24, 15.85it/s]
                                                                                                                                                  [A
 39%|████████████████████████████████████████▌                                                              

[124900] loss: 0.068 
[124920] loss: 0.087 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 537.50it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 982.50it/s][A

                                                                                                                                                  [A
 39%|████████████████████████████████████████▌                                                               | 3903/10000 [03:59<06:24, 15.85it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[124940] loss: 0.071 


                                                                                                                                                  
 39%|████████████████████████████████████████▌                                                               | 3903/10000 [03:59<06:24, 15.85it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 554.54it/s][A


[124960] loss: 0.050 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 317.56it/s][A
 39%|████████████████████████████████████████▌                                                               | 3905/10000 [03:59<06:32, 15.55it/s]
                                                                                                                                                  [A
 39%|████████████████████████████████████████▌                                                               | 3905/10000 [03:59<06:32, 15.55it/s]

[124980] loss: 0.074 



Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 587.89it/s][A

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 889.38it/s][A

                                                                                                                                                  [A
 39%|████████████████████████████████████████▌                                                               | 3905/10000 [03:59<06:32, 15.55it/s]
                                                                                                                                                  [A
 39%|████████████████████████████████████████▌                                                               | 3905/10000 [03:59<06:32, 15.55it/s]
Training Epoch: 100%|██████████████████████████████████████████████████████████████████████████████████

[125000] loss: 0.059 
[125020] loss: 0.055 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 834.02it/s][A
 39%|████████████████████████████████████████▋                                                               | 3907/10000 [03:59<06:46, 14.99it/s]
                                                                                                                                                  [A
 39%|████████████████████████████████████████▋                                                               | 3907/10000 [03:59<06:46, 14.99it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[125040] loss: 0.053 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 562.34it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 807.37it/s][A

                                                                                                                                                  [A
 39%|████████████████████████████████████████▋                                                               | 3907/10000 [03:59<06:46, 14.99it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[125060] loss: 0.038 


                                                                                                                                                  
 39%|████████████████████████████████████████▋                                                               | 3907/10000 [03:59<06:46, 14.99it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 543.00it/s][A


[125080] loss: 0.066 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 565.73it/s][A
 39%|████████████████████████████████████████▋                                                               | 3909/10000 [03:59<06:50, 14.84it/s]
                                                                                                                                                  [A
 39%|████████████████████████████████████████▋                                                               | 3909/10000 [03:59<06:50, 14.84it/s]
                                                                                                                                                  [A
 39%|████████████████████████████████████████▋                                                               | 3909/10000 [03:59<06:50, 14.84it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[125100] loss: 0.051 
[125120] loss: 0.103 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 814.74it/s][A

                                                                                                                                                  [A
 39%|████████████████████████████████████████▋                                                               | 3909/10000 [03:59<06:50, 14.84it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[125140] loss: 0.038 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 828.10it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1155.46it/s][A
 39%|████████████████████████████████████████▋                                                               | 3911/10000 [03:59<06:25, 15.81it/s]
                                                                                                                                                  [A
 39%|████████████████████████████████████████▋                                                               | 3911/10000 [03:59<06:25, 15.81it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[125160] loss: 0.063 


                                                                                                                                                  
 39%|████████████████████████████████████████▋                                                               | 3911/10000 [03:59<06:25, 15.81it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 590.26it/s][A


[125180] loss: 0.066 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 770.16it/s][A

                                                                                                                                                  [A
 39%|████████████████████████████████████████▋                                                               | 3911/10000 [03:59<06:25, 15.81it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 840.96it/s][A


[125200] loss: 0.058 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 607.43it/s][A
 39%|████████████████████████████████████████▋                                                               | 3913/10000 [03:59<06:11, 16.40it/s]
                                                                                                                                                  [A
 39%|████████████████████████████████████████▋                                                               | 3913/10000 [03:59<06:11, 16.40it/s]
                                                                                                                                                  [A
 39%|████████████████████████████████████████▋                                                               | 3913/10000 [04:00<06:11, 16.40it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[125220] loss: 0.044 
[125240] loss: 0.049 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 632.43it/s][A

                                                                                                                                                  [A
 39%|████████████████████████████████████████▋                                                               | 3913/10000 [04:00<06:11, 16.40it/s]
                                                                                                                                                  [A

[125260] loss: 0.045 



 39%|████████████████████████████████████████▋                                                               | 3913/10000 [04:00<06:11, 16.40it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 658.80it/s][A


[125280] loss: 0.039 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1514.19it/s][A
 39%|████████████████████████████████████████▋                                                               | 3915/10000 [04:00<06:07, 16.54it/s]
                                                                                                                                                  [A
 39%|████████████████████████████████████████▋                                                               | 3915/10000 [04:00<06:07, 16.54it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 899.62it/s][A


[125300] loss: 0.065 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 980.89it/s][A

                                                                                                                                                  [A
 39%|████████████████████████████████████████▋                                                               | 3915/10000 [04:00<06:07, 16.54it/s]
                                                                                                                                                  [A
 39%|████████████████████████████████████████▋                                                               | 3915/10000 [04:00<06:07, 16.54it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[125320] loss: 0.053 
[125340] loss: 0.060 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 674.14it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 983.19it/s][A
 39%|████████████████████████████████████████▋                                                               | 3917/10000 [04:00<05:51, 17.30it/s]
                                                                                                                                                  [A
 39%|████████████████████████████████████████▋                                                               | 3917/10000 [04:00<05:51, 17.30it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 797.61it/s][A


[125360] loss: 0.051 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 945.73it/s][A

                                                                                                                                                  [A
 39%|████████████████████████████████████████▋                                                               | 3917/10000 [04:00<05:51, 17.30it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[125380] loss: 0.082 


                                                                                                                                                  
 39%|████████████████████████████████████████▋                                                               | 3917/10000 [04:00<05:51, 17.30it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 584.33it/s][A


[125400] loss: 0.068 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 956.29it/s][A
 39%|████████████████████████████████████████▊                                                               | 3919/10000 [04:00<05:54, 17.16it/s]
                                                                                                                                                  [A
 39%|████████████████████████████████████████▊                                                               | 3919/10000 [04:00<05:54, 17.16it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[125420] loss: 0.045 


                                                                                                                                                  
 39%|████████████████████████████████████████▊                                                               | 3919/10000 [04:00<05:54, 17.16it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 651.21it/s][A


[125440] loss: 0.084 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 946.58it/s][A

                                                                                                                                                  [A
 39%|████████████████████████████████████████▊                                                               | 3919/10000 [04:00<05:54, 17.16it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 909.75it/s][A


[125460] loss: 0.044 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1437.88it/s][A
 39%|████████████████████████████████████████▊                                                               | 3921/10000 [04:00<05:44, 17.67it/s]
                                                                                                                                                  [A
 39%|████████████████████████████████████████▊                                                               | 3921/10000 [04:00<05:44, 17.67it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[125480] loss: 0.057 


                                                                                                                                                  
 39%|████████████████████████████████████████▊                                                               | 3921/10000 [04:00<05:44, 17.67it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 654.29it/s][A


[125500] loss: 0.054 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 824.51it/s][A

                                                                                                                                                  [A
 39%|████████████████████████████████████████▊                                                               | 3921/10000 [04:00<05:44, 17.67it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 710.41it/s][A


[125520] loss: 0.060 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 653.01it/s][A
 39%|████████████████████████████████████████▊                                                               | 3923/10000 [04:00<05:43, 17.68it/s]
                                                                                                                                                  [A
 39%|████████████████████████████████████████▊                                                               | 3923/10000 [04:00<05:43, 17.68it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[125540] loss: 0.049 


                                                                                                                                                  
 39%|████████████████████████████████████████▊                                                               | 3923/10000 [04:00<05:43, 17.68it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 579.64it/s][A


[125560] loss: 0.040 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 443.23it/s][A

                                                                                                                                                  [A
 39%|████████████████████████████████████████▊                                                               | 3923/10000 [04:00<05:43, 17.68it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[125580] loss: 0.069 


                                                                                                                                                  
 39%|████████████████████████████████████████▊                                                               | 3923/10000 [04:00<05:43, 17.68it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 615.22it/s][A


[125600] loss: 0.067 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1463.47it/s][A
 39%|████████████████████████████████████████▊                                                               | 3925/10000 [04:00<05:55, 17.07it/s]
                                                                                                                                                  [A
 39%|████████████████████████████████████████▊                                                               | 3925/10000 [04:00<05:55, 17.07it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[125620] loss: 0.068 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 760.49it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1947.22it/s][A

                                                                                                                                                  [A
 39%|████████████████████████████████████████▊                                                               | 3925/10000 [04:00<05:55, 17.07it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[125640] loss: 0.061 


                                                                                                                                                  
 39%|████████████████████████████████████████▊                                                               | 3925/10000 [04:00<05:55, 17.07it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 561.42it/s][A


[125660] loss: 0.060 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 705.52it/s][A
 39%|████████████████████████████████████████▊                                                               | 3927/10000 [04:00<05:54, 17.15it/s]
                                                                                                                                                  [A
 39%|████████████████████████████████████████▊                                                               | 3927/10000 [04:00<05:54, 17.15it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[125680] loss: 0.065 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 640.81it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 957.82it/s][A

                                                                                                                                                  [A
 39%|████████████████████████████████████████▊                                                               | 3927/10000 [04:00<05:54, 17.15it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[125700] loss: 0.047 


                                                                                                                                                  
 39%|████████████████████████████████████████▊                                                               | 3927/10000 [04:00<05:54, 17.15it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[125720] loss: 0.040 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 507.66it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 836.69it/s][A
 39%|████████████████████████████████████████▊                                                               | 3929/10000 [04:00<06:08, 16.48it/s]
                                                                                                                                                  [A
 39%|████████████████████████████████████████▊                                                               | 3929/10000 [04:00<06:08, 16.48it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[125740] loss: 0.068 


                                                                                                                                                  
 39%|████████████████████████████████████████▊                                                               | 3929/10000 [04:00<06:08, 16.48it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 523.51it/s][A


[125760] loss: 0.044 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 393.50it/s][A

                                                                                                                                                  [A
 39%|████████████████████████████████████████▊                                                               | 3929/10000 [04:01<06:08, 16.48it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 561.58it/s][A


[125780] loss: 0.087 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 583.51it/s][A
 39%|████████████████████████████████████████▉                                                               | 3931/10000 [04:01<06:23, 15.84it/s]
                                                                                                                                                  [A
 39%|████████████████████████████████████████▉                                                               | 3931/10000 [04:01<06:23, 15.84it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[125800] loss: 0.029 


                                                                                                                                                  
 39%|████████████████████████████████████████▉                                                               | 3931/10000 [04:01<06:23, 15.84it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 464.80it/s][A


[125820] loss: 0.036 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 498.37it/s][A

                                                                                                                                                  [A
 39%|████████████████████████████████████████▉                                                               | 3931/10000 [04:01<06:23, 15.84it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[125840] loss: 0.046 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 515.90it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 654.34it/s][A
 39%|████████████████████████████████████████▉                                                               | 3933/10000 [04:01<06:46, 14.94it/s]
                                                                                                                                                  [A
 39%|████████████████████████████████████████▉                                                               | 3933/10000 [04:01<06:46, 14.94it/s]


[125860] loss: 0.075 


                                                                                                                                                  [A
 39%|████████████████████████████████████████▉                                                               | 3933/10000 [04:01<06:46, 14.94it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[125880] loss: 0.057 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 432.28it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 922.43it/s][A

                                                                                                                                                  [A
 39%|████████████████████████████████████████▉                                                               | 3933/10000 [04:01<06:46, 14.94it/s]


[125900] loss: 0.058 


                                                                                                                                                  [A
 39%|████████████████████████████████████████▉                                                               | 3933/10000 [04:01<06:46, 14.94it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 550.13it/s][A


[125920] loss: 0.059 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 874.00it/s][A
 39%|████████████████████████████████████████▉                                                               | 3935/10000 [04:01<07:03, 14.31it/s]
                                                                                                                                                  [A
 39%|████████████████████████████████████████▉                                                               | 3935/10000 [04:01<07:03, 14.31it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 644.93it/s][A


[125940] loss: 0.033 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 663.24it/s][A

                                                                                                                                                  [A
 39%|████████████████████████████████████████▉                                                               | 3935/10000 [04:01<07:03, 14.31it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[125960] loss: 0.075 


                                                                                                                                                  
 39%|████████████████████████████████████████▉                                                               | 3935/10000 [04:01<07:03, 14.31it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 556.55it/s][A


[125980] loss: 0.055 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 864.80it/s][A
 39%|████████████████████████████████████████▉                                                               | 3937/10000 [04:01<06:54, 14.64it/s]
                                                                                                                                                  [A
 39%|████████████████████████████████████████▉                                                               | 3937/10000 [04:01<06:54, 14.64it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 652.27it/s][A


[126000] loss: 0.027 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 543.80it/s][A

                                                                                                                                                  [A
 39%|████████████████████████████████████████▉                                                               | 3937/10000 [04:01<06:54, 14.64it/s]
                                                                                                                                                  [A

[126020] loss: 0.083 



 39%|████████████████████████████████████████▉                                                               | 3937/10000 [04:01<06:54, 14.64it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 522.16it/s][A


[126040] loss: 0.051 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1052.52it/s][A
 39%|████████████████████████████████████████▉                                                               | 3939/10000 [04:01<06:50, 14.75it/s]
                                                                                                                                                  [A
 39%|████████████████████████████████████████▉                                                               | 3939/10000 [04:01<06:50, 14.75it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[126060] loss: 0.071 


                                                                                                                                                  
 39%|████████████████████████████████████████▉                                                               | 3939/10000 [04:01<06:50, 14.75it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 535.69it/s][A


[126080] loss: 0.048 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 904.53it/s][A

                                                                                                                                                  [A
 39%|████████████████████████████████████████▉                                                               | 3939/10000 [04:01<06:50, 14.75it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 654.87it/s][A


[126100] loss: 0.101 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 931.24it/s][A
 39%|████████████████████████████████████████▉                                                               | 3941/10000 [04:01<06:46, 14.92it/s]
                                                                                                                                                  [A
 39%|████████████████████████████████████████▉                                                               | 3941/10000 [04:01<06:46, 14.92it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[126120] loss: 0.046 


                                                                                                                                                  
 39%|████████████████████████████████████████▉                                                               | 3941/10000 [04:01<06:46, 14.92it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 524.05it/s][A


[126140] loss: 0.079 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 909.43it/s][A

                                                                                                                                                  [A
 39%|████████████████████████████████████████▉                                                               | 3941/10000 [04:01<06:46, 14.92it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[126160] loss: 0.060 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 554.20it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 917.39it/s][A
 39%|█████████████████████████████████████████                                                               | 3943/10000 [04:01<06:49, 14.78it/s]
                                                                                                                                                  [A
 39%|█████████████████████████████████████████                                                               | 3943/10000 [04:01<06:49, 14.78it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[126180] loss: 0.096 


                                                                                                                                                  
 39%|█████████████████████████████████████████                                                               | 3943/10000 [04:01<06:49, 14.78it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 425.40it/s][A

[126200] loss: 0.111 




Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1033.33it/s][A

                                                                                                                                                  [A
 39%|█████████████████████████████████████████                                                               | 3943/10000 [04:01<06:49, 14.78it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[126220] loss: 0.070 


                                                                                                                                                  
 39%|█████████████████████████████████████████                                                               | 3943/10000 [04:02<06:49, 14.78it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 604.31it/s][A


[126240] loss: 0.079 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 406.66it/s][A
 39%|█████████████████████████████████████████                                                               | 3945/10000 [04:02<07:02, 14.33it/s]
                                                                                                                                                  [A
 39%|█████████████████████████████████████████                                                               | 3945/10000 [04:02<07:02, 14.33it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 720.46it/s][A


[126260] loss: 0.062 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1856.71it/s][A

                                                                                                                                                  [A
 39%|█████████████████████████████████████████                                                               | 3945/10000 [04:02<07:02, 14.33it/s]
                                                                                                                                                  [A
 39%|█████████████████████████████████████████                                                               | 3945/10000 [04:02<07:02, 14.33it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 630.86it/s][A


[126280] loss: 0.088 
[126300] loss: 0.042 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1409.38it/s][A
 39%|█████████████████████████████████████████                                                               | 3947/10000 [04:02<06:38, 15.18it/s]
                                                                                                                                                  [A
 39%|█████████████████████████████████████████                                                               | 3947/10000 [04:02<06:38, 15.18it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 769.89it/s][A


[126320] loss: 0.071 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1868.29it/s][A

                                                                                                                                                  [A
 39%|█████████████████████████████████████████                                                               | 3947/10000 [04:02<06:38, 15.18it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[126340] loss: 0.070 


                                                                                                                                                  
 39%|█████████████████████████████████████████                                                               | 3947/10000 [04:02<06:38, 15.18it/s]
                                                                                                                                                  [A
 53%|███████████████████████████████████████████████████████▎                                                | 5318/10000 [05:27<04:37, 16.89it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[170220] loss: 0.030 


                                                                                                                                                  
 53%|███████████████████████████████████████████████████████▎                                                | 5318/10000 [05:27<04:37, 16.89it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 533.02it/s][A


[170240] loss: 0.045 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1332.37it/s][A
 53%|███████████████████████████████████████████████████████▎                                                | 5320/10000 [05:27<04:48, 16.25it/s]
                                                                                                                                                  [A
 53%|███████████████████████████████████████████████████████▎                                                | 5320/10000 [05:27<04:48, 16.25it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[170260] loss: 0.078 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 726.04it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1183.16it/s][A

                                                                                                                                                  [A
 53%|███████████████████████████████████████████████████████▎                                                | 5320/10000 [05:27<04:48, 16.25it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[170280] loss: 0.078 


                                                                                                                                                  
 53%|███████████████████████████████████████████████████████▎                                                | 5320/10000 [05:27<04:48, 16.25it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 583.21it/s][A


[170300] loss: 0.076 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 262.64it/s][A
 53%|███████████████████████████████████████████████████████▎                                                | 5322/10000 [05:27<04:45, 16.38it/s]
                                                                                                                                                  [A
 53%|███████████████████████████████████████████████████████▎                                                | 5322/10000 [05:27<04:45, 16.38it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[170320] loss: 0.097 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 681.75it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1874.13it/s][A

                                                                                                                                                  [A
 53%|███████████████████████████████████████████████████████▎                                                | 5322/10000 [05:27<04:45, 16.38it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[170340] loss: 0.072 


                                                                                                                                                  
 53%|███████████████████████████████████████████████████████▎                                                | 5322/10000 [05:27<04:45, 16.38it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[170360] loss: 0.051 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 596.20it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1969.16it/s][A
 53%|███████████████████████████████████████████████████████▎                                                | 5324/10000 [05:27<04:42, 16.57it/s]
                                                                                                                                                  [A
 53%|███████████████████████████████████████████████████████▎                                                | 5324/10000 [05:27<04:42, 16.57it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[170380] loss: 0.082 


                                                                                                                                                  
 53%|███████████████████████████████████████████████████████▎                                                | 5324/10000 [05:28<04:42, 16.57it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 540.55it/s][A


[170400] loss: 0.009 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1312.77it/s][A

                                                                                                                                                  [A
 53%|███████████████████████████████████████████████████████▎                                                | 5324/10000 [05:28<04:42, 16.57it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[170420] loss: 0.074 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 601.91it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 998.64it/s][A
 53%|███████████████████████████████████████████████████████▍                                                | 5326/10000 [05:28<04:48, 16.21it/s]
                                                                                                                                                  [A
[A                                                                                                                                               

[170440] loss: 0.061 

 53%|███████████████████████████████████████████████████████▍                                                | 5326/10000 [05:28<04:48, 16.21it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A




                                                                                                                                                  
 53%|███████████████████████████████████████████████████████▍                                                | 5326/10000 [05:28<04:48, 16.21it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 472.12it/s][A


[170460] loss: 0.053 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 997.69it/s][A

                                                                                                                                                  [A
 53%|███████████████████████████████████████████████████████▍                                                | 5326/10000 [05:28<04:48, 16.21it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[170480] loss: 0.076 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 529.15it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 750.73it/s][A
 53%|███████████████████████████████████████████████████████▍                                                | 5328/10000 [05:28<05:05, 15.32it/s]
                                                                                                                                                  [A
 53%|███████████████████████████████████████████████████████▍                                                | 5328/10000 [05:28<05:05, 15.32it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[170500] loss: 0.070 


                                                                                                                                                  
 53%|███████████████████████████████████████████████████████▍                                                | 5328/10000 [05:28<05:05, 15.32it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 479.61it/s][A


[170520] loss: 0.131 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 948.94it/s][A

                                                                                                                                                  [A
 53%|███████████████████████████████████████████████████████▍                                                | 5328/10000 [05:28<05:05, 15.32it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[170540] loss: 0.073 


                                                                                                                                                  
 53%|███████████████████████████████████████████████████████▍                                                | 5328/10000 [05:28<05:05, 15.32it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 492.30it/s][A


[170560] loss: 0.006 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 787.51it/s][A
 53%|███████████████████████████████████████████████████████▍                                                | 5330/10000 [05:28<05:21, 14.55it/s]
                                                                                                                                                  [A
 53%|███████████████████████████████████████████████████████▍                                                | 5330/10000 [05:28<05:21, 14.55it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 558.76it/s][A


[170580] loss: 0.096 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 439.33it/s][A

                                                                                                                                                  [A
 53%|███████████████████████████████████████████████████████▍                                                | 5330/10000 [05:28<05:21, 14.55it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[170600] loss: 0.071 


                                                                                                                                                  
 53%|███████████████████████████████████████████████████████▍                                                | 5330/10000 [05:28<05:21, 14.55it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 487.83it/s][A


[170620] loss: 0.101 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 743.14it/s][A
 53%|███████████████████████████████████████████████████████▍                                                | 5332/10000 [05:28<05:25, 14.34it/s]
                                                                                                                                                  [A
 53%|███████████████████████████████████████████████████████▍                                                | 5332/10000 [05:28<05:25, 14.34it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[170640] loss: 0.070 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 549.80it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 596.80it/s][A

                                                                                                                                                  [A
 53%|███████████████████████████████████████████████████████▍                                                | 5332/10000 [05:28<05:25, 14.34it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[170660] loss: 0.088 


                                                                                                                                                  
 53%|███████████████████████████████████████████████████████▍                                                | 5332/10000 [05:28<05:25, 14.34it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 493.79it/s][A


[170680] loss: 0.055 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 395.06it/s][A
 53%|███████████████████████████████████████████████████████▍                                                | 5334/10000 [05:28<05:28, 14.18it/s]
                                                                                                                                                  [A
 53%|███████████████████████████████████████████████████████▍                                                | 5334/10000 [05:28<05:28, 14.18it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[170700] loss: 0.051 


                                                                                                                                                  
 53%|███████████████████████████████████████████████████████▍                                                | 5334/10000 [05:28<05:28, 14.18it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 535.98it/s][A


[170720] loss: 0.062 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 497.60it/s][A

                                                                                                                                                  [A
 53%|███████████████████████████████████████████████████████▍                                                | 5334/10000 [05:28<05:28, 14.18it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 549.90it/s][A


[170740] loss: 0.076 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 478.91it/s][A
 53%|███████████████████████████████████████████████████████▍                                                | 5336/10000 [05:28<05:26, 14.30it/s]
                                                                                                                                                  [A
 53%|███████████████████████████████████████████████████████▍                                                | 5336/10000 [05:28<05:26, 14.30it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[170760] loss: 0.073 


                                                                                                                                                  
 53%|███████████████████████████████████████████████████████▍                                                | 5336/10000 [05:28<05:26, 14.30it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 508.15it/s][A


[170780] loss: 0.062 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 520.00it/s][A

                                                                                                                                                  [A
 53%|███████████████████████████████████████████████████████▍                                                | 5336/10000 [05:28<05:26, 14.30it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[170800] loss: 0.057 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 561.31it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 779.47it/s][A
 53%|███████████████████████████████████████████████████████▌                                                | 5338/10000 [05:28<05:26, 14.29it/s]
                                                                                                                                                  [A
 53%|███████████████████████████████████████████████████████▌                                                | 5338/10000 [05:28<05:26, 14.29it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[170820] loss: 0.041 


                                                                                                                                                  
 53%|███████████████████████████████████████████████████████▌                                                | 5338/10000 [05:29<05:26, 14.29it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 462.99it/s][A


[170840] loss: 0.099 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 427.16it/s][A

                                                                                                                                                  [A
 53%|███████████████████████████████████████████████████████▌                                                | 5338/10000 [05:29<05:26, 14.29it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[170860] loss: 0.054 


                                                                                                                                                  
 53%|███████████████████████████████████████████████████████▌                                                | 5338/10000 [05:29<05:26, 14.29it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 476.78it/s][A


[170880] loss: 0.156 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1205.26it/s][A
 53%|███████████████████████████████████████████████████████▌                                                | 5340/10000 [05:29<05:38, 13.76it/s]
                                                                                                                                                  [A
 53%|███████████████████████████████████████████████████████▌                                                | 5340/10000 [05:29<05:38, 13.76it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 679.44it/s][A


[170900] loss: 0.065 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 469.90it/s][A

                                                                                                                                                  [A
 53%|███████████████████████████████████████████████████████▌                                                | 5340/10000 [05:29<05:38, 13.76it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[170920] loss: 0.054 


                                                                                                                                                  
 53%|███████████████████████████████████████████████████████▌                                                | 5340/10000 [05:29<05:38, 13.76it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 545.82it/s][A


[170940] loss: 0.069 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1291.75it/s][A
 53%|███████████████████████████████████████████████████████▌                                                | 5342/10000 [05:29<05:25, 14.30it/s]
                                                                                                                                                  [A
 53%|███████████████████████████████████████████████████████▌                                                | 5342/10000 [05:29<05:25, 14.30it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 711.87it/s][A


[170960] loss: 0.046 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 868.75it/s][A

                                                                                                                                                  [A
 53%|███████████████████████████████████████████████████████▌                                                | 5342/10000 [05:29<05:25, 14.30it/s]
                                                                                                                                                  [A
 53%|███████████████████████████████████████████████████████▌                                                | 5342/10000 [05:29<05:25, 14.30it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[170980] loss: 0.042 
[171000] loss: 0.068 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 605.94it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1328.99it/s][A
 53%|███████████████████████████████████████████████████████▌                                                | 5344/10000 [05:29<05:09, 15.03it/s]
                                                                                                                                                  [A
 53%|███████████████████████████████████████████████████████▌                                                | 5344/10000 [05:29<05:09, 15.03it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[171020] loss: 0.044 


                                                                                                                                                  
 53%|███████████████████████████████████████████████████████▌                                                | 5344/10000 [05:29<05:09, 15.03it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 597.99it/s][A


[171040] loss: 0.055 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1147.24it/s][A

                                                                                                                                                  [A
 53%|███████████████████████████████████████████████████████▌                                                | 5344/10000 [05:29<05:09, 15.03it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[171060] loss: 0.068 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 670.72it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1086.61it/s][A
 53%|███████████████████████████████████████████████████████▌                                                | 5346/10000 [05:29<05:01, 15.44it/s]
                                                                                                                                                  [A
 53%|███████████████████████████████████████████████████████▌                                                | 5346/10000 [05:29<05:01, 15.44it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[171080] loss: 0.063 


                                                                                                                                                  
 53%|███████████████████████████████████████████████████████▌                                                | 5346/10000 [05:29<05:01, 15.44it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 615.58it/s][A


[171100] loss: 0.075 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1082.68it/s][A

                                                                                                                                                  [A
 53%|███████████████████████████████████████████████████████▌                                                | 5346/10000 [05:29<05:01, 15.44it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[171120] loss: 0.062 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 694.86it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 794.98it/s][A
 53%|███████████████████████████████████████████████████████▌                                                | 5348/10000 [05:29<04:53, 15.84it/s]
                                                                                                                                                  [A
 53%|███████████████████████████████████████████████████████▌                                                | 5348/10000 [05:29<04:53, 15.84it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[171140] loss: 0.079 


                                                                                                                                                  
 53%|███████████████████████████████████████████████████████▌                                                | 5348/10000 [05:29<04:53, 15.84it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[171160] loss: 0.049 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 605.01it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1332.79it/s][A

                                                                                                                                                  [A
 53%|███████████████████████████████████████████████████████▌                                                | 5348/10000 [05:29<04:53, 15.84it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[171180] loss: 0.035 


                                                                                                                                                  
 53%|███████████████████████████████████████████████████████▌                                                | 5348/10000 [05:29<04:53, 15.84it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 563.75it/s][A


[171200] loss: 0.042 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 720.42it/s][A
 54%|███████████████████████████████████████████████████████▋                                                | 5350/10000 [05:29<04:55, 15.72it/s]
                                                                                                                                                  [A
 54%|███████████████████████████████████████████████████████▋                                                | 5350/10000 [05:29<04:55, 15.72it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[171220] loss: 0.082 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 676.33it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 910.42it/s][A

                                                                                                                                                  [A
 54%|███████████████████████████████████████████████████████▋                                                | 5350/10000 [05:29<04:55, 15.72it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[171240] loss: 0.083 


                                                                                                                                                  
 54%|███████████████████████████████████████████████████████▋                                                | 5350/10000 [05:29<04:55, 15.72it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 662.60it/s][A


[171260] loss: 0.068 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1288.18it/s][A
 54%|███████████████████████████████████████████████████████▋                                                | 5352/10000 [05:29<04:48, 16.09it/s]
                                                                                                                                                  [A
 54%|███████████████████████████████████████████████████████▋                                                | 5352/10000 [05:29<04:48, 16.09it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 844.35it/s][A

[171280] loss: 0.075 




Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 850.60it/s][A

                                                                                                                                                  [A
 54%|███████████████████████████████████████████████████████▋                                                | 5352/10000 [05:29<04:48, 16.09it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[171300] loss: 0.051 


                                                                                                                                                  
 54%|███████████████████████████████████████████████████████▋                                                | 5352/10000 [05:29<04:48, 16.09it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 622.11it/s][A


[171320] loss: 0.060 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 583.51it/s][A
 54%|███████████████████████████████████████████████████████▋                                                | 5354/10000 [05:29<04:37, 16.71it/s]
                                                                                                                                                  [A
 54%|███████████████████████████████████████████████████████▋                                                | 5354/10000 [05:29<04:37, 16.71it/s]
                                                                                                                                                  [A
 54%|███████████████████████████████████████████████████████▋                                                | 5354/10000 [05:30<04:37, 16.71it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[171340] loss: 0.086 
[171360] loss: 0.106 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1358.70it/s][A

                                                                                                                                                  [A
[A                                                                                                                                               

[171380] loss: 0.051 


 54%|███████████████████████████████████████████████████████▋                                                | 5354/10000 [05:30<04:37, 16.71it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 741.90it/s][A

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 968.66it/s][A
 54%|███████████████████████████████████████████████████████▋                                                | 5356/10000 [05:30<04:26, 17.45it/s]
                                                                                                                                                  [A
 54%|███████████████████████████████████████████████████████▋                                                | 5356/10000 [05:30<04:26, 17.45it/s]
                                                                                                            

[171400] loss: 0.061 
[171420] loss: 0.065 


 54%|███████████████████████████████████████████████████████▋                                                | 5356/10000 [05:30<04:26, 17.45it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 619.25it/s][A

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 951.74it/s][A

                                                                                                                                                  [A
 54%|███████████████████████████████████████████████████████▋                                                | 5356/10000 [05:30<04:26, 17.45it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 721.96it/s][A


[171440] loss: 0.063 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 620.09it/s][A
 54%|███████████████████████████████████████████████████████▋                                                | 5358/10000 [05:30<04:28, 17.32it/s]
                                                                                                                                                  [A
 54%|███████████████████████████████████████████████████████▋                                                | 5358/10000 [05:30<04:28, 17.32it/s]
                                                                                                                                                  [A
 54%|███████████████████████████████████████████████████████▋                                                | 5358/10000 [05:30<04:28, 17.32it/s]
Training Epoch:   0%|                                                                                       

[171460] loss: 0.030 
[171480] loss: 0.045 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 474.23it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 916.79it/s][A

                                                                                                                                                  [A
 54%|███████████████████████████████████████████████████████▋                                                | 5358/10000 [05:30<04:28, 17.32it/s]
                                                                                                                                                  [A
 54%|███████████████████████████████████████████████████████▋                                                | 5358/10000 [05:30<04:28, 17.32it/s]
Training Epoch: 100%|██████████████████████████████████████████████████████████████████████████████████████

[171500] loss: 0.051 
[171520] loss: 0.105 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 533.56it/s][A
 54%|███████████████████████████████████████████████████████▋                                                | 5360/10000 [05:30<04:56, 15.64it/s]
                                                                                                                                                  [A
 54%|███████████████████████████████████████████████████████▋                                                | 5360/10000 [05:30<04:56, 15.64it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 607.45it/s][A


[171540] loss: 0.027 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 483.77it/s][A

                                                                                                                                                  [A
 54%|███████████████████████████████████████████████████████▋                                                | 5360/10000 [05:30<04:56, 15.64it/s]
                                                                                                                                                  [A
 54%|███████████████████████████████████████████████████████▋                                                | 5360/10000 [05:30<04:56, 15.64it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 524.72it/s][A


[171560] loss: 0.064 
[171580] loss: 0.115 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 777.59it/s][A
 54%|███████████████████████████████████████████████████████▊                                                | 5362/10000 [05:30<05:01, 15.40it/s]
                                                                                                                                                  [A
 54%|███████████████████████████████████████████████████████▊                                                | 5362/10000 [05:30<05:01, 15.40it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 606.12it/s][A


[171600] loss: 0.063 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 972.25it/s][A

                                                                                                                                                  [A
 54%|███████████████████████████████████████████████████████▊                                                | 5362/10000 [05:30<05:01, 15.40it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[171620] loss: 0.052 


                                                                                                                                                  
 54%|███████████████████████████████████████████████████████▊                                                | 5362/10000 [05:30<05:01, 15.40it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 526.14it/s][A


[171640] loss: 0.038 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 584.00it/s][A
 54%|███████████████████████████████████████████████████████▊                                                | 5364/10000 [05:30<05:01, 15.38it/s]
                                                                                                                                                  [A
 54%|███████████████████████████████████████████████████████▊                                                | 5364/10000 [05:30<05:01, 15.38it/s]
                                                                                                                                                  [A
 54%|███████████████████████████████████████████████████████▊                                                | 5364/10000 [05:30<05:01, 15.38it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[171660] loss: 0.059 
[171680] loss: 0.159 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 307.55it/s][A

                                                                                                                                                  [A
 54%|███████████████████████████████████████████████████████▊                                                | 5364/10000 [05:30<05:01, 15.38it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 636.29it/s][A


[171700] loss: 0.043 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 509.33it/s][A
 54%|███████████████████████████████████████████████████████▊                                                | 5366/10000 [05:30<05:01, 15.36it/s]
                                                                                                                                                  [A
 54%|███████████████████████████████████████████████████████▊                                                | 5366/10000 [05:30<05:01, 15.36it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[171720] loss: 0.044 


                                                                                                                                                  
 54%|███████████████████████████████████████████████████████▊                                                | 5366/10000 [05:30<05:01, 15.36it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 543.46it/s][A


[171740] loss: 0.093 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1235.44it/s][A

                                                                                                                                                  [A
 54%|███████████████████████████████████████████████████████▊                                                | 5366/10000 [05:30<05:01, 15.36it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 584.91it/s][A


[171760] loss: 0.057 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 590.58it/s][A
 54%|███████████████████████████████████████████████████████▊                                                | 5368/10000 [05:30<05:03, 15.25it/s]
                                                                                                                                                  [A
 54%|███████████████████████████████████████████████████████▊                                                | 5368/10000 [05:30<05:03, 15.25it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[171780] loss: 0.067 


                                                                                                                                                  
 54%|███████████████████████████████████████████████████████▊                                                | 5368/10000 [05:30<05:03, 15.25it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 463.98it/s][A


[171800] loss: 0.097 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 939.37it/s][A

                                                                                                                                                  [A
 54%|███████████████████████████████████████████████████████▊                                                | 5368/10000 [05:30<05:03, 15.25it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[171820] loss: 0.052 


                                                                                                                                                  
 54%|███████████████████████████████████████████████████████▊                                                | 5368/10000 [05:31<05:03, 15.25it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 539.90it/s][A


[171840] loss: 0.037 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 341.89it/s][A
 54%|███████████████████████████████████████████████████████▊                                                | 5370/10000 [05:31<05:15, 14.69it/s]
                                                                                                                                                  [A
 54%|███████████████████████████████████████████████████████▊                                                | 5370/10000 [05:31<05:15, 14.69it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 605.86it/s][A


[171860] loss: 0.054 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 972.03it/s][A

                                                                                                                                                  [A
 54%|███████████████████████████████████████████████████████▊                                                | 5370/10000 [05:31<05:15, 14.69it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[171880] loss: 0.099 


                                                                                                                                                  
 54%|███████████████████████████████████████████████████████▊                                                | 5370/10000 [05:31<05:15, 14.69it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 561.05it/s][A


[171900] loss: 0.052 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 802.89it/s][A
 54%|███████████████████████████████████████████████████████▊                                                | 5372/10000 [05:31<05:09, 14.96it/s]
                                                                                                                                                  [A
 54%|███████████████████████████████████████████████████████▊                                                | 5372/10000 [05:31<05:09, 14.96it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 612.02it/s][A


[171920] loss: 0.068 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 457.14it/s][A

                                                                                                                                                  [A
 54%|███████████████████████████████████████████████████████▊                                                | 5372/10000 [05:31<05:09, 14.96it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[171940] loss: 0.048 


                                                                                                                                                  
 54%|███████████████████████████████████████████████████████▊                                                | 5372/10000 [05:31<05:09, 14.96it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 517.97it/s][A


[171960] loss: 0.057 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 480.67it/s][A
 54%|███████████████████████████████████████████████████████▉                                                | 5374/10000 [05:31<05:08, 14.98it/s]
                                                                                                                                                  [A
 54%|███████████████████████████████████████████████████████▉                                                | 5374/10000 [05:31<05:08, 14.98it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[171980] loss: 0.047 


                                                                                                                                                  
 54%|███████████████████████████████████████████████████████▉                                                | 5374/10000 [05:31<05:08, 14.98it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 524.69it/s][A


[172000] loss: 0.046 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1226.40it/s][A

                                                                                                                                                  [A
 54%|███████████████████████████████████████████████████████▉                                                | 5374/10000 [05:31<05:08, 14.98it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 639.90it/s][A


[172020] loss: 0.055 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 703.15it/s][A
 54%|███████████████████████████████████████████████████████▉                                                | 5376/10000 [05:31<05:04, 15.18it/s]
                                                                                                                                                  [A
 54%|███████████████████████████████████████████████████████▉                                                | 5376/10000 [05:31<05:04, 15.18it/s]
                                                                                                                                                  [A
 54%|███████████████████████████████████████████████████████▉                                                | 5376/10000 [05:31<05:04, 15.18it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[172040] loss: 0.015 
[172060] loss: 0.059 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1552.30it/s][A

                                                                                                                                                  [A
 54%|███████████████████████████████████████████████████████▉                                                | 5376/10000 [05:31<05:04, 15.18it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[172080] loss: 0.080 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 682.02it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2026.23it/s][A
 54%|███████████████████████████████████████████████████████▉                                                | 5378/10000 [05:31<04:46, 16.13it/s]
                                                                                                                                                  [A
 54%|███████████████████████████████████████████████████████▉                                                | 5378/10000 [05:31<04:46, 16.13it/s]
                                                                                                                                                  [A
                                                                                                            

[172100] loss: 0.042 


 54%|███████████████████████████████████████████████████████▉                                                | 5378/10000 [05:31<04:46, 16.13it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 949.11it/s][A


[172120] loss: 0.075 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2434.30it/s][A

                                                                                                                                                  [A
 54%|███████████████████████████████████████████████████████▉                                                | 5378/10000 [05:31<04:46, 16.13it/s]
                                                                                                                                                  [A
                                                                                                                                                  

[172140] loss: 0.054 


 54%|███████████████████████████████████████████████████████▉                                                | 5378/10000 [05:31<04:46, 16.13it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 1047.19it/s][A


[172160] loss: 0.059 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2438.55it/s][A

                                                                                                                                                  [A
 54%|███████████████████████████████████████████████████████▉                                                | 5378/10000 [05:31<04:46, 16.13it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 1005.69it/s][A


[172180] loss: 0.051 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 601.33it/s][A
 54%|███████████████████████████████████████████████████████▉                                                | 5381/10000 [05:31<04:02, 19.06it/s]
                                                                                                                                                  [A
 54%|███████████████████████████████████████████████████████▉                                                | 5381/10000 [05:31<04:02, 19.06it/s]
                                                                                                                                                  [A
 54%|███████████████████████████████████████████████████████▉                                                | 5381/10000 [05:31<04:02, 19.06it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[172200] loss: 0.049 
[172220] loss: 0.065 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1554.60it/s][A

                                                                                                                                                  [A
 54%|███████████████████████████████████████████████████████▉                                                | 5381/10000 [05:31<04:02, 19.06it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[172240] loss: 0.093 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 810.97it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1272.54it/s][A

                                                                                                                                                  [A
 54%|███████████████████████████████████████████████████████▉                                                | 5381/10000 [05:31<04:02, 19.06it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[172260] loss: 0.038 


                                                                                                                                                  
 54%|███████████████████████████████████████████████████████▉                                                | 5381/10000 [05:31<04:02, 19.06it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[172280] loss: 0.055 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 665.61it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2119.41it/s][A
 54%|███████████████████████████████████████████████████████▉                                                | 5384/10000 [05:31<03:55, 19.60it/s]
                                                                                                                                                  [A
 54%|███████████████████████████████████████████████████████▉                                                | 5384/10000 [05:31<03:55, 19.60it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[172300] loss: 0.052 


                                                                                                                                                  
 54%|███████████████████████████████████████████████████████▉                                                | 5384/10000 [05:31<03:55, 19.60it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 689.89it/s][A


[172320] loss: 0.027 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1239.45it/s][A

                                                                                                                                                  [A
 54%|███████████████████████████████████████████████████████▉                                                | 5384/10000 [05:31<03:55, 19.60it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 838.45it/s][A


[172340] loss: 0.053 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 859.31it/s][A
 54%|████████████████████████████████████████████████████████                                                | 5386/10000 [05:31<03:55, 19.63it/s]
                                                                                                                                                  [A
 54%|████████████████████████████████████████████████████████                                                | 5386/10000 [05:31<03:55, 19.63it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[172360] loss: 0.064 


                                                                                                                                                  
 54%|████████████████████████████████████████████████████████                                                | 5386/10000 [05:31<03:55, 19.63it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 689.98it/s][A


[172380] loss: 0.060 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1247.56it/s][A

                                                                                                                                                  [A
 54%|████████████████████████████████████████████████████████                                                | 5386/10000 [05:31<03:55, 19.63it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[172400] loss: 0.087 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 752.69it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 868.03it/s][A
 54%|████████████████████████████████████████████████████████                                                | 5388/10000 [05:31<03:57, 19.46it/s]
                                                                                                                                                  [A
 54%|████████████████████████████████████████████████████████                                                | 5388/10000 [05:31<03:57, 19.46it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[172420] loss: 0.038 


                                                                                                                                                  
 54%|████████████████████████████████████████████████████████                                                | 5388/10000 [05:32<03:57, 19.46it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[172440] loss: 0.042 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 600.58it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 708.86it/s][A

                                                                                                                                                  [A
 54%|████████████████████████████████████████████████████████                                                | 5388/10000 [05:32<03:57, 19.46it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[172460] loss: 0.070 


                                                                                                                                                  
 54%|████████████████████████████████████████████████████████                                                | 5388/10000 [05:32<03:57, 19.46it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 594.94it/s][A


[172480] loss: 0.036 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1235.44it/s][A
 54%|████████████████████████████████████████████████████████                                                | 5390/10000 [05:32<04:11, 18.30it/s]
                                                                                                                                                  [A
 54%|████████████████████████████████████████████████████████                                                | 5390/10000 [05:32<04:11, 18.30it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 746.02it/s][A

[172500] loss: 0.069 




Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 944.24it/s][A

                                                                                                                                                  [A
 54%|████████████████████████████████████████████████████████                                                | 5390/10000 [05:32<04:11, 18.30it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[172520] loss: 0.044 


                                                                                                                                                  
 54%|████████████████████████████████████████████████████████                                                | 5390/10000 [05:32<04:11, 18.30it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 663.17it/s][A


[172540] loss: 0.083 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1413.18it/s][A
 54%|████████████████████████████████████████████████████████                                                | 5392/10000 [05:32<04:11, 18.35it/s]
                                                                                                                                                  [A
 54%|████████████████████████████████████████████████████████                                                | 5392/10000 [05:32<04:11, 18.35it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 776.52it/s][A


[172560] loss: 0.054 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 472.12it/s][A

                                                                                                                                                  [A
 54%|████████████████████████████████████████████████████████                                                | 5392/10000 [05:32<04:11, 18.35it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[172580] loss: 0.037 


                                                                                                                                                  
 54%|████████████████████████████████████████████████████████                                                | 5392/10000 [05:32<04:11, 18.35it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 675.47it/s][A


[172600] loss: 0.104 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1698.10it/s][A
 54%|████████████████████████████████████████████████████████                                                | 5394/10000 [05:32<04:08, 18.50it/s]
                                                                                                                                                  [A
 54%|████████████████████████████████████████████████████████                                                | 5394/10000 [05:32<04:08, 18.50it/s]
                                                                                                                                                  [A
 54%|████████████████████████████████████████████████████████                                                | 5394/10000 [05:32<04:08, 18.50it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[172620] loss: 0.056 
[172640] loss: 0.028 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1733.90it/s][A

                                                                                                                                                  [A
 54%|████████████████████████████████████████████████████████                                                | 5394/10000 [05:32<04:08, 18.50it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[172660] loss: 0.100 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 976.22it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1428.58it/s][A

                                                                                                                                                  [A
 54%|████████████████████████████████████████████████████████                                                | 5394/10000 [05:32<04:08, 18.50it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[172680] loss: 0.041 


                                                                                                                                                  
 54%|████████████████████████████████████████████████████████                                                | 5394/10000 [05:32<04:08, 18.50it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 672.59it/s][A


[172700] loss: 0.025 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1056.23it/s][A
 54%|████████████████████████████████████████████████████████▏                                               | 5397/10000 [05:32<03:59, 19.25it/s]
                                                                                                                                                  [A
 54%|████████████████████████████████████████████████████████▏                                               | 5397/10000 [05:32<03:59, 19.25it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[172720] loss: 0.050 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 764.74it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 558.20it/s][A

                                                                                                                                                  [A
 54%|████████████████████████████████████████████████████████▏                                               | 5397/10000 [05:32<03:59, 19.25it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[172740] loss: 0.085 


                                                                                                                                                  
 54%|████████████████████████████████████████████████████████▏                                               | 5397/10000 [05:32<03:59, 19.25it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 508.09it/s][A


[172760] loss: 0.051 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 360.83it/s][A
 54%|████████████████████████████████████████████████████████▏                                               | 5399/10000 [05:32<04:12, 18.24it/s]
                                                                                                                                                  [A
 54%|████████████████████████████████████████████████████████▏                                               | 5399/10000 [05:32<04:12, 18.24it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[172780] loss: 0.044 


                                                                                                                                                  
 54%|████████████████████████████████████████████████████████▏                                               | 5399/10000 [05:32<04:12, 18.24it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 577.21it/s][A


[172800] loss: 0.022 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 338.22it/s][A

                                                                                                                                                  [A
 54%|████████████████████████████████████████████████████████▏                                               | 5399/10000 [05:32<04:12, 18.24it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 619.28it/s][A


[172820] loss: 0.043 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 522.65it/s][A
 54%|████████████████████████████████████████████████████████▏                                               | 5401/10000 [05:32<04:22, 17.53it/s]
                                                                                                                                                  [A
 54%|████████████████████████████████████████████████████████▏                                               | 5401/10000 [05:32<04:22, 17.53it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[172840] loss: 0.070 


                                                                                                                                                  
 54%|████████████████████████████████████████████████████████▏                                               | 5401/10000 [05:32<04:22, 17.53it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 569.04it/s][A


[172860] loss: 0.055 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 835.85it/s][A

                                                                                                                                                  [A
 54%|████████████████████████████████████████████████████████▏                                               | 5401/10000 [05:32<04:22, 17.53it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[172880] loss: 0.040 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 617.87it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 747.38it/s][A
 54%|████████████████████████████████████████████████████████▏                                               | 5403/10000 [05:32<04:30, 17.00it/s]
                                                                                                                                                  [A
 54%|████████████████████████████████████████████████████████▏                                               | 5403/10000 [05:32<04:30, 17.00it/s]
                                                                                                                                                  [A
                                                                                                            

[172900] loss: 0.046 


 54%|████████████████████████████████████████████████████████▏                                               | 5403/10000 [05:32<04:30, 17.00it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 520.18it/s][A


[172920] loss: 0.068 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 506.44it/s][A

                                                                                                                                                  [A
 54%|████████████████████████████████████████████████████████▏                                               | 5403/10000 [05:32<04:30, 17.00it/s]
                                                                                                                                                  [A

[172940] loss: 0.054 



 54%|████████████████████████████████████████████████████████▏                                               | 5403/10000 [05:32<04:30, 17.00it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 566.88it/s][A


[172960] loss: 0.054 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 394.50it/s][A
 54%|████████████████████████████████████████████████████████▏                                               | 5405/10000 [05:32<04:43, 16.19it/s]
                                                                                                                                                  [A
 54%|████████████████████████████████████████████████████████▏                                               | 5405/10000 [05:33<04:43, 16.19it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 586.99it/s][A


[172980] loss: 0.069 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1675.71it/s][A

                                                                                                                                                  [A
 54%|████████████████████████████████████████████████████████▏                                               | 5405/10000 [05:33<04:43, 16.19it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[173000] loss: 0.058 


                                                                                                                                                  
 54%|████████████████████████████████████████████████████████▏                                               | 5405/10000 [05:33<04:43, 16.19it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 462.87it/s][A


[173020] loss: 0.059 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 802.28it/s][A
 54%|████████████████████████████████████████████████████████▏                                               | 5407/10000 [05:33<04:54, 15.57it/s]
                                                                                                                                                  [A
 54%|████████████████████████████████████████████████████████▏                                               | 5407/10000 [05:33<04:54, 15.57it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[173040] loss: 0.077 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 579.60it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 621.38it/s][A

                                                                                                                                                  [A
 54%|████████████████████████████████████████████████████████▏                                               | 5407/10000 [05:33<04:54, 15.57it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[173060] loss: 0.079 


                                                                                                                                                  
 54%|████████████████████████████████████████████████████████▏                                               | 5407/10000 [05:33<04:54, 15.57it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 476.22it/s][A


[173080] loss: 0.062 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 716.98it/s][A
 54%|████████████████████████████████████████████████████████▎                                               | 5409/10000 [05:33<05:03, 15.15it/s]
                                                                                                                                                  [A
 54%|████████████████████████████████████████████████████████▎                                               | 5409/10000 [05:33<05:03, 15.15it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[173100] loss: 0.049 


                                                                                                                                                  
 54%|████████████████████████████████████████████████████████▎                                               | 5409/10000 [05:33<05:03, 15.15it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 531.53it/s][A


[173120] loss: 0.089 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 223.92it/s][A

                                                                                                                                                  [A
 54%|████████████████████████████████████████████████████████▎                                               | 5409/10000 [05:33<05:03, 15.15it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 601.87it/s][A


[173140] loss: 0.076 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 820.48it/s][A
 54%|████████████████████████████████████████████████████████▎                                               | 5411/10000 [05:33<05:04, 15.09it/s]
                                                                                                                                                  [A
 54%|████████████████████████████████████████████████████████▎                                               | 5411/10000 [05:33<05:04, 15.09it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[173160] loss: 0.060 


                                                                                                                                                  
 54%|████████████████████████████████████████████████████████▎                                               | 5411/10000 [05:33<05:04, 15.09it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 480.52it/s][A


[173180] loss: 0.046 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 819.36it/s][A

                                                                                                                                                  [A
 54%|████████████████████████████████████████████████████████▎                                               | 5411/10000 [05:33<05:04, 15.09it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[173200] loss: 0.039 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 607.05it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 373.96it/s][A
 54%|████████████████████████████████████████████████████████▎                                               | 5413/10000 [05:33<05:08, 14.87it/s]
                                                                                                                                                  [A
 54%|████████████████████████████████████████████████████████▎                                               | 5413/10000 [05:33<05:08, 14.87it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[173220] loss: 0.093 


                                                                                                                                                  
 54%|████████████████████████████████████████████████████████▎                                               | 5413/10000 [05:33<05:08, 14.87it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 517.59it/s][A


[173240] loss: 0.056 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 628.55it/s][A

                                                                                                                                                  [A
 54%|████████████████████████████████████████████████████████▎                                               | 5413/10000 [05:33<05:08, 14.87it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[173260] loss: 0.055 


                                                                                                                                                  
 54%|████████████████████████████████████████████████████████▎                                               | 5413/10000 [05:33<05:08, 14.87it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 530.63it/s][A


[173280] loss: 0.053 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 351.34it/s][A
 54%|████████████████████████████████████████████████████████▎                                               | 5415/10000 [05:33<05:13, 14.64it/s]
                                                                                                                                                  [A
 54%|████████████████████████████████████████████████████████▎                                               | 5415/10000 [05:33<05:13, 14.64it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 716.88it/s][A


[173300] loss: 0.043 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 929.59it/s][A

                                                                                                                                                  [A
 54%|████████████████████████████████████████████████████████▎                                               | 5415/10000 [05:33<05:13, 14.64it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[173320] loss: 0.027 


                                                                                                                                                  
 54%|████████████████████████████████████████████████████████▎                                               | 5415/10000 [05:33<05:13, 14.64it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 639.47it/s][A


[173340] loss: 0.057 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 563.15it/s][A
 54%|████████████████████████████████████████████████████████▎                                               | 5417/10000 [05:33<04:58, 15.34it/s]
                                                                                                                                                  [A
 54%|████████████████████████████████████████████████████████▎                                               | 5417/10000 [05:33<04:58, 15.34it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[173360] loss: 0.046 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 648.37it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1004.14it/s][A

                                                                                                                                                  [A
 54%|████████████████████████████████████████████████████████▎                                               | 5417/10000 [05:33<04:58, 15.34it/s]


[173380] loss: 0.061 


                                                                                                                                                  [A
 54%|████████████████████████████████████████████████████████▎                                               | 5417/10000 [05:33<04:58, 15.34it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 665.07it/s][A


[173400] loss: 0.067 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 981.12it/s][A
 54%|████████████████████████████████████████████████████████▎                                               | 5419/10000 [05:33<04:49, 15.81it/s]
                                                                                                                                                  [A
 54%|████████████████████████████████████████████████████████▎                                               | 5419/10000 [05:33<04:49, 15.81it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[173420] loss: 0.051 


                                                                                                                                                  
 54%|████████████████████████████████████████████████████████▎                                               | 5419/10000 [05:33<04:49, 15.81it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 609.78it/s][A


[173440] loss: 0.042 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 546.70it/s][A

                                                                                                                                                  [A
 54%|████████████████████████████████████████████████████████▎                                               | 5419/10000 [05:33<04:49, 15.81it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 736.57it/s][A


[173460] loss: 0.071 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 511.88it/s][A
 54%|████████████████████████████████████████████████████████▍                                               | 5421/10000 [05:34<04:42, 16.23it/s]
                                                                                                                                                  [A
 54%|████████████████████████████████████████████████████████▍                                               | 5421/10000 [05:34<04:42, 16.23it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[173480] loss: 0.069 


                                                                                                                                                  
 54%|████████████████████████████████████████████████████████▍                                               | 5421/10000 [05:34<04:42, 16.23it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 594.12it/s][A


[173500] loss: 0.100 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1005.59it/s][A

                                                                                                                                                  [A
 54%|████████████████████████████████████████████████████████▍                                               | 5421/10000 [05:34<04:42, 16.23it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[173520] loss: 0.064 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 604.18it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 816.97it/s][A
 54%|████████████████████████████████████████████████████████▍                                               | 5423/10000 [05:34<04:43, 16.16it/s]
                                                                                                                                                  [A
 54%|████████████████████████████████████████████████████████▍                                               | 5423/10000 [05:34<04:43, 16.16it/s]


[173540] loss: 0.069 


                                                                                                                                                  [A
 54%|████████████████████████████████████████████████████████▍                                               | 5423/10000 [05:34<04:43, 16.16it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[173560] loss: 0.052 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 654.61it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1969.16it/s][A

                                                                                                                                                  [A
 54%|████████████████████████████████████████████████████████▍                                               | 5423/10000 [05:34<04:43, 16.16it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[173580] loss: 0.065 


                                                                                                                                                  
 54%|████████████████████████████████████████████████████████▍                                               | 5423/10000 [05:34<04:43, 16.16it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 669.79it/s][A


[173600] loss: 0.070 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1409.85it/s][A
 54%|████████████████████████████████████████████████████████▍                                               | 5425/10000 [05:34<04:36, 16.57it/s]
                                                                                                                                                  [A
 54%|████████████████████████████████████████████████████████▍                                               | 5425/10000 [05:34<04:36, 16.57it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 787.59it/s][A


[173620] loss: 0.070 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 717.71it/s][A

                                                                                                                                                  [A
 54%|████████████████████████████████████████████████████████▍                                               | 5425/10000 [05:34<04:36, 16.57it/s]
                                                                                                                                                  [A
 54%|████████████████████████████████████████████████████████▍                                               | 5425/10000 [05:34<04:36, 16.57it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[173640] loss: 0.075 
[173660] loss: 0.042 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 652.10it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1422.28it/s][A
 54%|████████████████████████████████████████████████████████▍                                               | 5427/10000 [05:34<04:26, 17.13it/s]
                                                                                                                                                  [A
 54%|████████████████████████████████████████████████████████▍                                               | 5427/10000 [05:34<04:26, 17.13it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 773.98it/s][A


[173680] loss: 0.056 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 727.04it/s][A

                                                                                                                                                  [A
 54%|████████████████████████████████████████████████████████▍                                               | 5427/10000 [05:34<04:26, 17.13it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[173700] loss: 0.058 


                                                                                                                                                  
 54%|████████████████████████████████████████████████████████▍                                               | 5427/10000 [05:34<04:26, 17.13it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 707.65it/s][A


[173720] loss: 0.081 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1413.65it/s][A
 54%|████████████████████████████████████████████████████████▍                                               | 5429/10000 [05:34<04:18, 17.68it/s]
                                                                                                                                                  [A
 54%|████████████████████████████████████████████████████████▍                                               | 5429/10000 [05:34<04:18, 17.68it/s]
                                                                                                                                                  [A
 54%|████████████████████████████████████████████████████████▍                                               | 5429/10000 [05:34<04:18, 17.68it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[173740] loss: 0.041 
[173760] loss: 0.066 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 696.73it/s][A

                                                                                                                                                  [A
 54%|████████████████████████████████████████████████████████▍                                               | 5429/10000 [05:34<04:18, 17.68it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 779.18it/s][A


[173780] loss: 0.069 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 687.70it/s][A
 54%|████████████████████████████████████████████████████████▍                                               | 5431/10000 [05:34<04:15, 17.87it/s]
                                                                                                                                                  [A
 54%|████████████████████████████████████████████████████████▍                                               | 5431/10000 [05:34<04:15, 17.87it/s]
                                                                                                                                                  [A

[173800] loss: 0.033 



 54%|████████████████████████████████████████████████████████▍                                               | 5431/10000 [05:34<04:15, 17.87it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 575.57it/s][A


[173820] loss: 0.061 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1321.04it/s][A

                                                                                                                                                  [A
 54%|████████████████████████████████████████████████████████▍                                               | 5431/10000 [05:34<04:15, 17.87it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[173840] loss: 0.042 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 711.96it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1379.71it/s][A
 54%|████████████████████████████████████████████████████████▌                                               | 5433/10000 [05:34<04:20, 17.56it/s]
                                                                                                                                                  [A
 54%|████████████████████████████████████████████████████████▌                                               | 5433/10000 [05:34<04:20, 17.56it/s]
                                                                                                                                                  [A
 54%|████████████████████████████████████████████████████████▌                                              

[173860] loss: 0.026 
[173880] loss: 0.077 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 794.38it/s][A

                                                                                                                                                  [A
 54%|████████████████████████████████████████████████████████▌                                               | 5433/10000 [05:34<04:20, 17.56it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[173900] loss: 0.032 


IOPub message rate exceeded.                                                                                                                      
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_msg_rate_limit`.

Current values:
NotebookApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
NotebookApp.rate_limit_window=3.0 (secs)




[187580] loss: 0.028 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1395.31it/s][A

                                                                                                                                                  [A
 59%|████████████████████████████████████████████████████████████▉                                           | 5861/10000 [06:01<03:54, 17.67it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 812.82it/s][A


[187600] loss: 0.040 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2053.01it/s][A
 59%|████████████████████████████████████████████████████████████▉                                           | 5863/10000 [06:01<03:49, 18.05it/s]
                                                                                                                                                  [A
 59%|████████████████████████████████████████████████████████████▉                                           | 5863/10000 [06:01<03:49, 18.05it/s]
                                                                                                                                                  [A
                                                                                                                                                  

[187620] loss: 0.033 


 59%|████████████████████████████████████████████████████████████▉                                           | 5863/10000 [06:01<03:49, 18.05it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 738.46it/s][A


[187640] loss: 0.057 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1416.52it/s][A

                                                                                                                                                  [A
 59%|████████████████████████████████████████████████████████████▉                                           | 5863/10000 [06:01<03:49, 18.05it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[187660] loss: 0.042 


                                                                                                                                                  
 59%|████████████████████████████████████████████████████████████▉                                           | 5863/10000 [06:01<03:49, 18.05it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 714.56it/s][A


[187680] loss: 0.035 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 648.87it/s][A
 59%|████████████████████████████████████████████████████████████▉                                           | 5865/10000 [06:01<03:43, 18.46it/s]
                                                                                                                                                  [A
 59%|████████████████████████████████████████████████████████████▉                                           | 5865/10000 [06:01<03:43, 18.46it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[187700] loss: 0.051 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 868.90it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1731.04it/s][A

                                                                                                                                                  [A
 59%|████████████████████████████████████████████████████████████▉                                           | 5865/10000 [06:01<03:43, 18.46it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[187720] loss: 0.050 


                                                                                                                                                  
 59%|████████████████████████████████████████████████████████████▉                                           | 5865/10000 [06:01<03:43, 18.46it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 726.23it/s][A


[187740] loss: 0.065 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2045.00it/s][A

                                                                                                                                                  [A
 59%|████████████████████████████████████████████████████████████▉                                           | 5865/10000 [06:01<03:43, 18.46it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[187760] loss: 0.060 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 668.73it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 729.57it/s][A
 59%|█████████████████████████████████████████████████████████████                                           | 5868/10000 [06:02<03:37, 18.98it/s]
                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████                                           | 5868/10000 [06:02<03:37, 18.98it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[187780] loss: 0.049 


                                                                                                                                                  
 59%|█████████████████████████████████████████████████████████████                                           | 5868/10000 [06:02<03:37, 18.98it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 520.38it/s][A


[187800] loss: 0.078 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 613.92it/s][A

                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████                                           | 5868/10000 [06:02<03:37, 18.98it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[187820] loss: 0.069 


                                                                                                                                                  
[A                                                                                                                                               

[187840] loss: 0.043 


 59%|█████████████████████████████████████████████████████████████                                           | 5868/10000 [06:02<03:37, 18.98it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 494.26it/s][A

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 756.41it/s][A
 59%|█████████████████████████████████████████████████████████████                                           | 5870/10000 [06:02<03:59, 17.26it/s]
                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████                                           | 5870/10000 [06:02<03:59, 17.26it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[187860] loss: 0.070 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 652.51it/s][A

                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████                                           | 5870/10000 [06:02<03:59, 17.26it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[187880] loss: 0.038 


                                                                                                                                                  
 59%|█████████████████████████████████████████████████████████████                                           | 5870/10000 [06:02<03:59, 17.26it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 503.45it/s][A


[187900] loss: 0.056 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 664.18it/s][A
 59%|█████████████████████████████████████████████████████████████                                           | 5872/10000 [06:02<04:10, 16.49it/s]
                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████                                           | 5872/10000 [06:02<04:10, 16.49it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[187920] loss: 0.059 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 546.06it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 949.58it/s][A

                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████                                           | 5872/10000 [06:02<04:10, 16.49it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[187940] loss: 0.057 


                                                                                                                                                  
 59%|█████████████████████████████████████████████████████████████                                           | 5872/10000 [06:02<04:10, 16.49it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 557.10it/s][A


[187960] loss: 0.064 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 959.79it/s][A
 59%|█████████████████████████████████████████████████████████████                                           | 5874/10000 [06:02<04:17, 16.05it/s]
                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████                                           | 5874/10000 [06:02<04:17, 16.05it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[187980] loss: 0.064 


                                                                                                                                                  
 59%|█████████████████████████████████████████████████████████████                                           | 5874/10000 [06:02<04:17, 16.05it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 558.50it/s][A


[188000] loss: 0.013 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 805.20it/s][A

                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████                                           | 5874/10000 [06:02<04:17, 16.05it/s]

[188020] loss: 0.077 



Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 632.50it/s][A

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 868.75it/s][A
 59%|█████████████████████████████████████████████████████████████                                           | 5876/10000 [06:02<04:17, 16.02it/s]
                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████                                           | 5876/10000 [06:02<04:17, 16.02it/s]


[188040] loss: 0.052 


                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████                                           | 5876/10000 [06:02<04:17, 16.02it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[188060] loss: 0.033 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 551.26it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 800.90it/s][A

                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████                                           | 5876/10000 [06:02<04:17, 16.02it/s]


[188080] loss: 0.068 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 610.43it/s][A

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 933.94it/s][A
 59%|█████████████████████████████████████████████████████████████▏                                          | 5878/10000 [06:02<04:19, 15.91it/s]
                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▏                                          | 5878/10000 [06:02<04:19, 15.91it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[188100] loss: 0.053 


                                                                                                                                                  
 59%|█████████████████████████████████████████████████████████████▏                                          | 5878/10000 [06:02<04:19, 15.91it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 486.04it/s][A


[188120] loss: 0.077 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 575.67it/s][A

                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▏                                          | 5878/10000 [06:02<04:19, 15.91it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[188140] loss: 0.089 


                                                                                                                                                  
 59%|█████████████████████████████████████████████████████████████▏                                          | 5878/10000 [06:02<04:19, 15.91it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 463.54it/s][A


[188160] loss: 0.101 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 977.69it/s][A
 59%|█████████████████████████████████████████████████████████████▏                                          | 5880/10000 [06:02<04:34, 15.00it/s]
                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▏                                          | 5880/10000 [06:02<04:34, 15.00it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 587.57it/s][A


[188180] loss: 0.098 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 941.69it/s][A

                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▏                                          | 5880/10000 [06:02<04:34, 15.00it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[188200] loss: 0.069 


                                                                                                                                                  
 59%|█████████████████████████████████████████████████████████████▏                                          | 5880/10000 [06:02<04:34, 15.00it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 551.48it/s][A


[188220] loss: 0.065 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 442.11it/s][A
 59%|█████████████████████████████████████████████████████████████▏                                          | 5882/10000 [06:02<04:32, 15.13it/s]
                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▏                                          | 5882/10000 [06:02<04:32, 15.13it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 610.98it/s][A


[188240] loss: 0.059 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 990.62it/s][A

                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▏                                          | 5882/10000 [06:03<04:32, 15.13it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[188260] loss: 0.038 


                                                                                                                                                  
 59%|█████████████████████████████████████████████████████████████▏                                          | 5882/10000 [06:03<04:32, 15.13it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 541.51it/s][A


[188280] loss: 0.033 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 591.16it/s][A
 59%|█████████████████████████████████████████████████████████████▏                                          | 5884/10000 [06:03<04:31, 15.17it/s]
                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▏                                          | 5884/10000 [06:03<04:31, 15.17it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[188300] loss: 0.058 


                                                                                                                                                  
 59%|█████████████████████████████████████████████████████████████▏                                          | 5884/10000 [06:03<04:31, 15.17it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 492.80it/s][A


[188320] loss: 0.053 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1006.31it/s][A

                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▏                                          | 5884/10000 [06:03<04:31, 15.17it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 604.28it/s][A


[188340] loss: 0.032 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1125.99it/s][A
 59%|█████████████████████████████████████████████████████████████▏                                          | 5886/10000 [06:03<04:33, 15.05it/s]
                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▏                                          | 5886/10000 [06:03<04:33, 15.05it/s]
                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▏                                          | 5886/10000 [06:03<04:33, 15.05it/s]


[188360] loss: 0.083 
[188380] loss: 0.064 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 670.50it/s][A

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 649.47it/s][A

                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▏                                          | 5886/10000 [06:03<04:33, 15.05it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[188400] loss: 0.059 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 742.59it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 804.59it/s][A
 59%|█████████████████████████████████████████████████████████████▏                                          | 5888/10000 [06:03<04:18, 15.92it/s]
                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▏                                          | 5888/10000 [06:03<04:18, 15.92it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[188420] loss: 0.036 


                                                                                                                                                  
 59%|█████████████████████████████████████████████████████████████▏                                          | 5888/10000 [06:03<04:18, 15.92it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 727.96it/s][A


[188440] loss: 0.053 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 810.02it/s][A

                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▏                                          | 5888/10000 [06:03<04:18, 15.92it/s]
                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▏                                          | 5888/10000 [06:03<04:18, 15.92it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 694.71it/s][A


[188460] loss: 0.052 
[188480] loss: 0.036 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 405.99it/s][A
 59%|█████████████████████████████████████████████████████████████▎                                          | 5890/10000 [06:03<04:06, 16.66it/s]
                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▎                                          | 5890/10000 [06:03<04:06, 16.66it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 799.21it/s][A


[188500] loss: 0.070 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1408.43it/s][A

                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▎                                          | 5890/10000 [06:03<04:06, 16.66it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[188520] loss: 0.053 


                                                                                                                                                  
 59%|█████████████████████████████████████████████████████████████▎                                          | 5890/10000 [06:03<04:06, 16.66it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 720.96it/s][A


[188540] loss: 0.077 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1442.33it/s][A

                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▎                                          | 5890/10000 [06:03<04:06, 16.66it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[188560] loss: 0.050 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 767.73it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 879.68it/s][A
 59%|█████████████████████████████████████████████████████████████▎                                          | 5893/10000 [06:03<03:49, 17.92it/s]
                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▎                                          | 5893/10000 [06:03<03:49, 17.92it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[188580] loss: 0.063 


                                                                                                                                                  
 59%|█████████████████████████████████████████████████████████████▎                                          | 5893/10000 [06:03<03:49, 17.92it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 669.58it/s][A


[188600] loss: 0.059 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1399.50it/s][A

                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▎                                          | 5893/10000 [06:03<03:49, 17.92it/s]

[188620] loss: 0.029 



                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▎                                          | 5893/10000 [06:03<03:49, 17.92it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 647.16it/s][A


[188640] loss: 0.029 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1181.49it/s][A
 59%|█████████████████████████████████████████████████████████████▎                                          | 5895/10000 [06:03<03:51, 17.71it/s]
                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▎                                          | 5895/10000 [06:03<03:51, 17.71it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 782.69it/s][A


[188660] loss: 0.042 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 689.74it/s][A

                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▎                                          | 5895/10000 [06:03<03:51, 17.71it/s]
                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▎                                          | 5895/10000 [06:03<03:51, 17.71it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[188680] loss: 0.059 
[188700] loss: 0.040 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 687.59it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1402.78it/s][A
 59%|█████████████████████████████████████████████████████████████▎                                          | 5897/10000 [06:03<03:46, 18.10it/s]
                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▎                                          | 5897/10000 [06:03<03:46, 18.10it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 783.87it/s][A


[188720] loss: 0.045 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 830.39it/s][A

                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▎                                          | 5897/10000 [06:03<03:46, 18.10it/s]
                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▎                                          | 5897/10000 [06:03<03:46, 18.10it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[188740] loss: 0.061 
[188760] loss: 0.062 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 702.27it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1469.11it/s][A
 59%|█████████████████████████████████████████████████████████████▎                                          | 5899/10000 [06:03<03:41, 18.52it/s]
                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▎                                          | 5899/10000 [06:03<03:41, 18.52it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[188780] loss: 0.055 


                                                                                                                                                  
 59%|█████████████████████████████████████████████████████████████▎                                          | 5899/10000 [06:03<03:41, 18.52it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 727.50it/s][A


[188800] loss: 0.113 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 419.14it/s][A

                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▎                                          | 5899/10000 [06:03<03:41, 18.52it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 810.81it/s][A


[188820] loss: 0.072 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1813.36it/s][A
 59%|█████████████████████████████████████████████████████████████▎                                          | 5901/10000 [06:04<03:37, 18.86it/s]
                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▎                                          | 5901/10000 [06:04<03:37, 18.86it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[188840] loss: 0.085 


                                                                                                                                                  
 59%|█████████████████████████████████████████████████████████████▎                                          | 5901/10000 [06:04<03:37, 18.86it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 668.94it/s][A


[188860] loss: 0.066 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1563.87it/s][A

                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▎                                          | 5901/10000 [06:04<03:37, 18.86it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 877.99it/s][A


[188880] loss: 0.093 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 684.11it/s][A

                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▎                                          | 5901/10000 [06:04<03:37, 18.86it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[188900] loss: 0.058 


                                                                                                                                                  
 59%|█████████████████████████████████████████████████████████████▎                                          | 5901/10000 [06:04<03:37, 18.86it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[188920] loss: 0.038 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 702.98it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1506.57it/s][A
 59%|█████████████████████████████████████████████████████████████▍                                          | 5904/10000 [06:04<03:34, 19.12it/s]
                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▍                                          | 5904/10000 [06:04<03:34, 19.12it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[188940] loss: 0.043 


                                                                                                                                                  
 59%|█████████████████████████████████████████████████████████████▍                                          | 5904/10000 [06:04<03:34, 19.12it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 707.33it/s][A


[188960] loss: 0.117 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 450.71it/s][A

                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▍                                          | 5904/10000 [06:04<03:34, 19.12it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[188980] loss: 0.056 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 767.95it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1361.79it/s][A
 59%|█████████████████████████████████████████████████████████████▍                                          | 5906/10000 [06:04<03:33, 19.15it/s]
                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▍                                          | 5906/10000 [06:04<03:33, 19.15it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[189000] loss: 0.087 


                                                                                                                                                  
 59%|█████████████████████████████████████████████████████████████▍                                          | 5906/10000 [06:04<03:33, 19.15it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[189020] loss: 0.076 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 642.56it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 838.53it/s][A

                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▍                                          | 5906/10000 [06:04<03:33, 19.15it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[189040] loss: 0.052 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 590.95it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 506.13it/s][A
 59%|█████████████████████████████████████████████████████████████▍                                          | 5908/10000 [06:04<03:43, 18.29it/s]
                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▍                                          | 5908/10000 [06:04<03:43, 18.29it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[189060] loss: 0.053 


                                                                                                                                                  
 59%|█████████████████████████████████████████████████████████████▍                                          | 5908/10000 [06:04<03:43, 18.29it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[189080] loss: 0.060 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 534.01it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 683.56it/s][A

                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▍                                          | 5908/10000 [06:04<03:43, 18.29it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[189100] loss: 0.039 


                                                                                                                                                  
 59%|█████████████████████████████████████████████████████████████▍                                          | 5908/10000 [06:04<03:43, 18.29it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 555.11it/s][A


[189120] loss: 0.061 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 207.78it/s][A
 59%|█████████████████████████████████████████████████████████████▍                                          | 5910/10000 [06:04<04:01, 16.93it/s]
                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▍                                          | 5910/10000 [06:04<04:01, 16.93it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 620.53it/s][A


[189140] loss: 0.059 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 606.03it/s][A

                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▍                                          | 5910/10000 [06:04<04:01, 16.93it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[189160] loss: 0.081 


                                                                                                                                                  
 59%|█████████████████████████████████████████████████████████████▍                                          | 5910/10000 [06:04<04:01, 16.93it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 541.89it/s][A


[189180] loss: 0.042 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 800.29it/s][A
 59%|█████████████████████████████████████████████████████████████▍                                          | 5912/10000 [06:04<04:08, 16.48it/s]
                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▍                                          | 5912/10000 [06:04<04:08, 16.48it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 644.95it/s][A


[189200] loss: 0.067 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 533.76it/s][A

                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▍                                          | 5912/10000 [06:04<04:08, 16.48it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[189220] loss: 0.043 


                                                                                                                                                  
 59%|█████████████████████████████████████████████████████████████▍                                          | 5912/10000 [06:04<04:08, 16.48it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 495.73it/s][A


[189240] loss: 0.025 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 758.19it/s][A
 59%|█████████████████████████████████████████████████████████████▌                                          | 5914/10000 [06:04<04:15, 16.00it/s]
                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▌                                          | 5914/10000 [06:04<04:15, 16.00it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[189260] loss: 0.063 


                                                                                                                                                  
 59%|█████████████████████████████████████████████████████████████▌                                          | 5914/10000 [06:04<04:15, 16.00it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 526.03it/s][A


[189280] loss: 0.082 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 317.94it/s][A

                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▌                                          | 5914/10000 [06:04<04:15, 16.00it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 581.40it/s][A


[189300] loss: 0.089 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 450.47it/s][A
 59%|█████████████████████████████████████████████████████████████▌                                          | 5916/10000 [06:04<04:20, 15.66it/s]
                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▌                                          | 5916/10000 [06:04<04:20, 15.66it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[189320] loss: 0.084 


                                                                                                                                                  
 59%|█████████████████████████████████████████████████████████████▌                                          | 5916/10000 [06:04<04:20, 15.66it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 517.99it/s][A


[189340] loss: 0.071 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 802.74it/s][A

                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▌                                          | 5916/10000 [06:05<04:20, 15.66it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[189360] loss: 0.071 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 614.64it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 782.67it/s][A
 59%|█████████████████████████████████████████████████████████████▌                                          | 5918/10000 [06:05<04:25, 15.39it/s]
                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▌                                          | 5918/10000 [06:05<04:25, 15.39it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[189380] loss: 0.031 


                                                                                                                                                  
 59%|█████████████████████████████████████████████████████████████▌                                          | 5918/10000 [06:05<04:25, 15.39it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 518.97it/s][A


[189400] loss: 0.111 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 585.22it/s][A

                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▌                                          | 5918/10000 [06:05<04:25, 15.39it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[189420] loss: 0.050 


                                                                                                                                                  
 59%|█████████████████████████████████████████████████████████████▌                                          | 5918/10000 [06:05<04:25, 15.39it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 536.38it/s][A


[189440] loss: 0.029 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 261.20it/s][A
 59%|█████████████████████████████████████████████████████████████▌                                          | 5920/10000 [06:05<04:33, 14.94it/s]
                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▌                                          | 5920/10000 [06:05<04:33, 14.94it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 649.32it/s][A


[189460] loss: 0.065 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 688.27it/s][A

                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▌                                          | 5920/10000 [06:05<04:33, 14.94it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[189480] loss: 0.033 


                                                                                                                                                  
 59%|█████████████████████████████████████████████████████████████▌                                          | 5920/10000 [06:05<04:33, 14.94it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 542.10it/s][A


[189500] loss: 0.081 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 703.74it/s][A
 59%|█████████████████████████████████████████████████████████████▌                                          | 5922/10000 [06:05<04:28, 15.16it/s]
                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▌                                          | 5922/10000 [06:05<04:28, 15.16it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 593.62it/s][A


[189520] loss: 0.071 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 652.20it/s][A

                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▌                                          | 5922/10000 [06:05<04:28, 15.16it/s]
                                                                                                                                                  [A

[189540] loss: 0.061 



 59%|█████████████████████████████████████████████████████████████▌                                          | 5922/10000 [06:05<04:28, 15.16it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 521.71it/s][A


[189560] loss: 0.061 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 638.89it/s][A
 59%|█████████████████████████████████████████████████████████████▌                                          | 5924/10000 [06:05<04:28, 15.17it/s]
                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▌                                          | 5924/10000 [06:05<04:28, 15.17it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[189580] loss: 0.062 


                                                                                                                                                  
 59%|█████████████████████████████████████████████████████████████▌                                          | 5924/10000 [06:05<04:28, 15.17it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 472.60it/s][A


[189600] loss: 0.076 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 822.09it/s][A

                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▌                                          | 5924/10000 [06:05<04:28, 15.17it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 819.83it/s][A


[189620] loss: 0.096 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 817.13it/s][A
 59%|█████████████████████████████████████████████████████████████▋                                          | 5926/10000 [06:05<04:23, 15.45it/s]
                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▋                                          | 5926/10000 [06:05<04:23, 15.45it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[189640] loss: 0.056 


                                                                                                                                                  
 59%|█████████████████████████████████████████████████████████████▋                                          | 5926/10000 [06:05<04:23, 15.45it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 651.84it/s][A


[189660] loss: 0.041 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1406.54it/s][A

                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▋                                          | 5926/10000 [06:05<04:23, 15.45it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[189680] loss: 0.049 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 718.72it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 855.11it/s][A
 59%|█████████████████████████████████████████████████████████████▋                                          | 5928/10000 [06:05<04:13, 16.07it/s]
                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▋                                          | 5928/10000 [06:05<04:13, 16.07it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[189700] loss: 0.040 


                                                                                                                                                  
 59%|█████████████████████████████████████████████████████████████▋                                          | 5928/10000 [06:05<04:13, 16.07it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 599.83it/s][A


[189720] loss: 0.060 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 652.20it/s][A

                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▋                                          | 5928/10000 [06:05<04:13, 16.07it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[189740] loss: 0.071 


                                                                                                                                                  
 59%|█████████████████████████████████████████████████████████████▋                                          | 5928/10000 [06:05<04:13, 16.07it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 651.40it/s][A


[189760] loss: 0.093 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 435.41it/s][A
 59%|█████████████████████████████████████████████████████████████▋                                          | 5930/10000 [06:05<04:13, 16.07it/s]
                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▋                                          | 5930/10000 [06:05<04:13, 16.07it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 737.30it/s][A


[189780] loss: 0.041 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 680.67it/s][A

                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▋                                          | 5930/10000 [06:05<04:13, 16.07it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[189800] loss: 0.053 


                                                                                                                                                  
 59%|█████████████████████████████████████████████████████████████▋                                          | 5930/10000 [06:05<04:13, 16.07it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 653.69it/s][A


[189820] loss: 0.036 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1419.87it/s][A
 59%|█████████████████████████████████████████████████████████████▋                                          | 5932/10000 [06:05<04:03, 16.74it/s]
                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▋                                          | 5932/10000 [06:05<04:03, 16.74it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 773.60it/s][A


[189840] loss: 0.069 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2037.06it/s][A

                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▋                                          | 5932/10000 [06:06<04:03, 16.74it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[189860] loss: 0.074 


                                                                                                                                                  
 59%|█████████████████████████████████████████████████████████████▋                                          | 5932/10000 [06:06<04:03, 16.74it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 681.74it/s][A


[189880] loss: 0.052 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1401.84it/s][A
 59%|█████████████████████████████████████████████████████████████▋                                          | 5934/10000 [06:06<03:54, 17.32it/s]
                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▋                                          | 5934/10000 [06:06<03:54, 17.32it/s]
                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▋                                          | 5934/10000 [06:06<03:54, 17.32it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[189900] loss: 0.080 
[189920] loss: 0.029 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 410.32it/s][A

                                                                                                                                                  [A
[A                                                                                                                                               

[189940] loss: 0.062 

 59%|█████████████████████████████████████████████████████████████▋                                          | 5934/10000 [06:06<03:54, 17.32it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 807.93it/s][A






Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 675.41it/s][A
 59%|█████████████████████████████████████████████████████████████▋                                          | 5936/10000 [06:06<03:47, 17.89it/s]
                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▋                                          | 5936/10000 [06:06<03:47, 17.89it/s]
                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▋                                          | 5936/10000 [06:06<03:47, 17.89it/s]
Training Epoch:   0%|                                                                                       

[189960] loss: 0.084 
[189980] loss: 0.052 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 655.73it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1541.46it/s][A

                                                                                                                                                  [A
[A                                                                                                                                               

[190000] loss: 0.049 


 59%|█████████████████████████████████████████████████████████████▋                                          | 5936/10000 [06:06<03:47, 17.89it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 795.07it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2024.28it/s][A
 59%|█████████████████████████████████████████████████████████████▊                                          | 5938/10000 [06:06<03:42, 18.28it/s]
                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▊                                          | 5938/10000 [06:06<03:42, 18.28it/s]
Training Epoch:   0%|                                                                                       

[190020] loss: 0.054 


                                                                                                                                                  
 59%|█████████████████████████████████████████████████████████████▊                                          | 5938/10000 [06:06<03:42, 18.28it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 688.91it/s][A


[190040] loss: 0.073 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1407.01it/s][A

                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▊                                          | 5938/10000 [06:06<03:42, 18.28it/s]
                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▊                                          | 5938/10000 [06:06<03:42, 18.28it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 686.16it/s][A


[190060] loss: 0.054 
[190080] loss: 0.053 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 530.59it/s][A
 59%|█████████████████████████████████████████████████████████████▊                                          | 5940/10000 [06:06<03:43, 18.17it/s]
                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▊                                          | 5940/10000 [06:06<03:43, 18.17it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 732.52it/s][A


[190100] loss: 0.076 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 719.31it/s][A

                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▊                                          | 5940/10000 [06:06<03:43, 18.17it/s]
                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▊                                          | 5940/10000 [06:06<03:43, 18.17it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 734.88it/s][A


[190120] loss: 0.085 
[190140] loss: 0.057 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1143.49it/s][A
 59%|█████████████████████████████████████████████████████████████▊                                          | 5942/10000 [06:06<03:39, 18.48it/s]
                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▊                                          | 5942/10000 [06:06<03:39, 18.48it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 820.90it/s][A


[190160] loss: 0.063 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1423.25it/s][A

                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▊                                          | 5942/10000 [06:06<03:39, 18.48it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[190180] loss: 0.062 


                                                                                                                                                  
 59%|█████████████████████████████████████████████████████████████▊                                          | 5942/10000 [06:06<03:39, 18.48it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 687.89it/s][A


[190200] loss: 0.068 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1321.46it/s][A
 59%|█████████████████████████████████████████████████████████████▊                                          | 5944/10000 [06:06<03:36, 18.74it/s]
                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▊                                          | 5944/10000 [06:06<03:36, 18.74it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[190220] loss: 0.057 


                                                                                                                                                  
 59%|█████████████████████████████████████████████████████████████▊                                          | 5944/10000 [06:06<03:36, 18.74it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 752.83it/s][A


[190240] loss: 0.039 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 348.77it/s][A

                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▊                                          | 5944/10000 [06:06<03:36, 18.74it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 550.29it/s][A


[190260] loss: 0.035 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1041.80it/s][A
 59%|█████████████████████████████████████████████████████████████▊                                          | 5946/10000 [06:06<03:42, 18.24it/s]
                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▊                                          | 5946/10000 [06:06<03:42, 18.24it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[190280] loss: 0.029 


                                                                                                                                                  
 59%|█████████████████████████████████████████████████████████████▊                                          | 5946/10000 [06:06<03:42, 18.24it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[190300] loss: 0.104 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 497.75it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 628.74it/s][A

                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▊                                          | 5946/10000 [06:06<03:42, 18.24it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[190320] loss: 0.041 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 590.97it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 992.97it/s][A
 59%|█████████████████████████████████████████████████████████████▊                                          | 5948/10000 [06:06<03:56, 17.11it/s]
                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▊                                          | 5948/10000 [06:06<03:56, 17.11it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[190340] loss: 0.065 


                                                                                                                                                  
 59%|█████████████████████████████████████████████████████████████▊                                          | 5948/10000 [06:06<03:56, 17.11it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 498.33it/s][A


[190360] loss: 0.087 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 676.72it/s][A

                                                                                                                                                  [A
 59%|█████████████████████████████████████████████████████████████▊                                          | 5948/10000 [06:06<03:56, 17.11it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[190380] loss: 0.043 


                                                                                                                                                  
 59%|█████████████████████████████████████████████████████████████▊                                          | 5948/10000 [06:06<03:56, 17.11it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 519.82it/s][A


[190400] loss: 0.077 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 251.17it/s][A
 60%|█████████████████████████████████████████████████████████████▉                                          | 5950/10000 [06:06<04:14, 15.92it/s]
                                                                                                                                                  [A
 60%|█████████████████████████████████████████████████████████████▉                                          | 5950/10000 [06:07<04:14, 15.92it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 604.81it/s][A


[190420] loss: 0.073 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 315.20it/s][A

                                                                                                                                                  [A
 60%|█████████████████████████████████████████████████████████████▉                                          | 5950/10000 [06:07<04:14, 15.92it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[190440] loss: 0.091 


                                                                                                                                                  
 60%|█████████████████████████████████████████████████████████████▉                                          | 5950/10000 [06:07<04:14, 15.92it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 480.35it/s][A


[190460] loss: 0.063 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1448.31it/s][A
 60%|█████████████████████████████████████████████████████████████▉                                          | 5952/10000 [06:07<04:21, 15.51it/s]
                                                                                                                                                  [A
 60%|█████████████████████████████████████████████████████████████▉                                          | 5952/10000 [06:07<04:21, 15.51it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 724.14it/s][A


[190480] loss: 0.051 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1942.71it/s][A

                                                                                                                                                  [A
 60%|█████████████████████████████████████████████████████████████▉                                          | 5952/10000 [06:07<04:21, 15.51it/s]
                                                                                                                                                  [A
 60%|█████████████████████████████████████████████████████████████▉                                          | 5952/10000 [06:07<04:21, 15.51it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[190500] loss: 0.042 
[190520] loss: 0.065 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 678.10it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1087.73it/s][A
 60%|█████████████████████████████████████████████████████████████▉                                          | 5954/10000 [06:07<04:05, 16.49it/s]
                                                                                                                                                  [A
 60%|█████████████████████████████████████████████████████████████▉                                          | 5954/10000 [06:07<04:05, 16.49it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[190540] loss: 0.064 


                                                                                                                                                  
 60%|█████████████████████████████████████████████████████████████▉                                          | 5954/10000 [06:07<04:05, 16.49it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 684.10it/s][A


[190560] loss: 0.069 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1027.26it/s][A

                                                                                                                                                  [A
 60%|█████████████████████████████████████████████████████████████▉                                          | 5954/10000 [06:07<04:05, 16.49it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[190580] loss: 0.097 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 784.61it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 998.88it/s][A

                                                                                                                                                  [A
 60%|█████████████████████████████████████████████████████████████▉                                          | 5954/10000 [06:07<04:05, 16.49it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[190600] loss: 0.048 


                                                                                                                                                  
 60%|█████████████████████████████████████████████████████████████▉                                          | 5954/10000 [06:07<04:05, 16.49it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 593.29it/s][A


[190620] loss: 0.038 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 809.71it/s][A
 60%|█████████████████████████████████████████████████████████████▉                                          | 5957/10000 [06:07<03:54, 17.23it/s]
                                                                                                                                                  [A
 60%|█████████████████████████████████████████████████████████████▉                                          | 5957/10000 [06:07<03:54, 17.23it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 631.34it/s][A


[190640] loss: 0.054 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 961.56it/s][A

                                                                                                                                                  [A
 60%|█████████████████████████████████████████████████████████████▉                                          | 5957/10000 [06:07<03:54, 17.23it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[190660] loss: 0.055 


                                                                                                                                                  
 60%|█████████████████████████████████████████████████████████████▉                                          | 5957/10000 [06:07<03:54, 17.23it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[190680] loss: 0.053 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 539.11it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 794.07it/s][A
 60%|█████████████████████████████████████████████████████████████▉                                          | 5959/10000 [06:07<03:59, 16.87it/s]
                                                                                                                                                  [A
 60%|█████████████████████████████████████████████████████████████▉                                          | 5959/10000 [06:07<03:59, 16.87it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[190700] loss: 0.079 


                                                                                                                                                  
 60%|█████████████████████████████████████████████████████████████▉                                          | 5959/10000 [06:07<03:59, 16.87it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 594.48it/s][A


[190720] loss: 0.047 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 831.21it/s][A

                                                                                                                                                  [A
 60%|█████████████████████████████████████████████████████████████▉                                          | 5959/10000 [06:07<03:59, 16.87it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[190740] loss: 0.074 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 596.28it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 833.69it/s][A
 60%|█████████████████████████████████████████████████████████████▉                                          | 5961/10000 [06:07<04:01, 16.74it/s]
                                                                                                                                                  [A
 60%|█████████████████████████████████████████████████████████████▉                                          | 5961/10000 [06:07<04:01, 16.74it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[190760] loss: 0.040 


                                                                                                                                                  
 60%|█████████████████████████████████████████████████████████████▉                                          | 5961/10000 [06:07<04:01, 16.74it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[190780] loss: 0.085 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 581.37it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 852.15it/s][A

                                                                                                                                                  [A
 60%|█████████████████████████████████████████████████████████████▉                                          | 5961/10000 [06:07<04:01, 16.74it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[190800] loss: 0.058 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 647.90it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1045.70it/s][A
 60%|██████████████████████████████████████████████████████████████                                          | 5963/10000 [06:07<04:00, 16.82it/s]
                                                                                                                                                  [A
 60%|██████████████████████████████████████████████████████████████                                          | 5963/10000 [06:07<04:00, 16.82it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[190820] loss: 0.040 


                                                                                                                                                  
 60%|██████████████████████████████████████████████████████████████                                          | 5963/10000 [06:07<04:00, 16.82it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[190840] loss: 0.072 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 558.96it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1014.34it/s][A

                                                                                                                                                  [A
 60%|██████████████████████████████████████████████████████████████                                          | 5963/10000 [06:07<04:00, 16.82it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[190860] loss: 0.068 


                                                                                                                                                  
 60%|██████████████████████████████████████████████████████████████                                          | 5963/10000 [06:07<04:00, 16.82it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 552.88it/s][A


[190880] loss: 0.057 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1267.16it/s][A
 60%|██████████████████████████████████████████████████████████████                                          | 5965/10000 [06:07<04:06, 16.39it/s]
                                                                                                                                                  [A
 60%|██████████████████████████████████████████████████████████████                                          | 5965/10000 [06:07<04:06, 16.39it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[190900] loss: 0.076 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 724.99it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1417.47it/s][A

                                                                                                                                                  [A
 60%|██████████████████████████████████████████████████████████████                                          | 5965/10000 [06:07<04:06, 16.39it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[190920] loss: 0.055 


                                                                                                                                                  
 60%|██████████████████████████████████████████████████████████████                                          | 5965/10000 [06:07<04:06, 16.39it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 660.67it/s][A


[190940] loss: 0.066 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1469.62it/s][A
 60%|██████████████████████████████████████████████████████████████                                          | 5967/10000 [06:07<03:58, 16.91it/s]
                                                                                                                                                  [A
 60%|██████████████████████████████████████████████████████████████                                          | 5967/10000 [06:07<03:58, 16.91it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 864.42it/s][A


[190960] loss: 0.045 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 897.37it/s][A

                                                                                                                                                  [A
 60%|██████████████████████████████████████████████████████████████                                          | 5967/10000 [06:08<03:58, 16.91it/s]
                                                                                                                                                  [A


[190980] loss: 0.054 


 60%|██████████████████████████████████████████████████████████████                                          | 5967/10000 [06:08<03:58, 16.91it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 658.42it/s][A


[191000] loss: 0.072 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2030.16it/s][A
 60%|██████████████████████████████████████████████████████████████                                          | 5969/10000 [06:08<03:49, 17.60it/s]
                                                                                                                                                  [A
 60%|██████████████████████████████████████████████████████████████                                          | 5969/10000 [06:08<03:49, 17.60it/s]
                                                                                                                                                  [A
 60%|██████████████████████████████████████████████████████████████                                          | 5969/10000 [06:08<03:49, 17.60it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[191020] loss: 0.026 
[191040] loss: 0.106 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1190.55it/s][A

                                                                                                                                                  [A
 60%|██████████████████████████████████████████████████████████████                                          | 5969/10000 [06:08<03:49, 17.60it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[191060] loss: 0.064 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 837.37it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1350.39it/s][A
 60%|██████████████████████████████████████████████████████████████                                          | 5971/10000 [06:08<03:42, 18.13it/s]
                                                                                                                                                  [A
 60%|██████████████████████████████████████████████████████████████                                          | 5971/10000 [06:08<03:42, 18.13it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[191080] loss: 0.040 


                                                                                                                                                  
 60%|██████████████████████████████████████████████████████████████                                          | 5971/10000 [06:08<03:42, 18.13it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[191100] loss: 0.048 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 637.29it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 838.19it/s][A

                                                                                                                                                  [A
 60%|██████████████████████████████████████████████████████████████                                          | 5971/10000 [06:08<03:42, 18.13it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 736.52it/s][A


[191120] loss: 0.070 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 853.19it/s][A
 60%|██████████████████████████████████████████████████████████████                                          | 5973/10000 [06:08<03:43, 18.01it/s]
                                                                                                                                                  [A
 60%|██████████████████████████████████████████████████████████████                                          | 5973/10000 [06:08<03:43, 18.01it/s]
                                                                                                                                                  [A
 60%|██████████████████████████████████████████████████████████████                                          | 5973/10000 [06:08<03:43, 18.01it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[191140] loss: 0.065 
[191160] loss: 0.071 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2144.33it/s][A

                                                                                                                                                  [A
 60%|██████████████████████████████████████████████████████████████                                          | 5973/10000 [06:08<03:43, 18.01it/s]
                                                                                                                                                  [A
 60%|██████████████████████████████████████████████████████████████                                          | 5973/10000 [06:08<03:43, 18.01it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 767.03it/s][A


[191180] loss: 0.047 
[191200] loss: 0.158 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1455.85it/s][A

                                                                                                                                                  [A
 60%|██████████████████████████████████████████████████████████████                                          | 5973/10000 [06:08<03:43, 18.01it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[191220] loss: 0.102 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 851.65it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1082.40it/s][A
 60%|██████████████████████████████████████████████████████████████▏                                         | 5976/10000 [06:08<03:32, 18.94it/s]
                                                                                                                                                  [A
 60%|██████████████████████████████████████████████████████████████▏                                         | 5976/10000 [06:08<03:32, 18.94it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[191240] loss: 0.048 


                                                                                                                                                  
 60%|██████████████████████████████████████████████████████████████▏                                         | 5976/10000 [06:08<03:32, 18.94it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 707.30it/s][A


[191260] loss: 0.067 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1546.57it/s][A

                                                                                                                                                  [A
                                                                                                                                                  IOPub message rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_msg_rate_limit`.

Current values:
NotebookApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
NotebookApp.rate_limit_window=3.0 (secs)

Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 500.54it/s][A


[212280] loss: 0.046 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 548.63it/s][A
 66%|████████████████████████████████████████████████████████████████████▉                                   | 6634/10000 [06:47<03:17, 17.03it/s]
                                                                                                                                                  [A
 66%|████████████████████████████████████████████████████████████████████▉                                   | 6634/10000 [06:47<03:17, 17.03it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[212300] loss: 0.050 


                                                                                                                                                  
 66%|████████████████████████████████████████████████████████████████████▉                                   | 6634/10000 [06:47<03:17, 17.03it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 584.52it/s][A


[212320] loss: 0.029 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 975.42it/s][A

                                                                                                                                                  [A
 66%|████████████████████████████████████████████████████████████████████▉                                   | 6634/10000 [06:47<03:17, 17.03it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[212340] loss: 0.060 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 609.87it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 978.15it/s][A
 66%|█████████████████████████████████████████████████████████████████████                                   | 6636/10000 [06:48<03:18, 16.93it/s]
                                                                                                                                                  [A
 66%|█████████████████████████████████████████████████████████████████████                                   | 6636/10000 [06:48<03:18, 16.93it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[212360] loss: 0.051 


                                                                                                                                                  
 66%|█████████████████████████████████████████████████████████████████████                                   | 6636/10000 [06:48<03:18, 16.93it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 622.47it/s][A


[212380] loss: 0.076 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 963.10it/s][A

                                                                                                                                                  [A
 66%|█████████████████████████████████████████████████████████████████████                                   | 6636/10000 [06:48<03:18, 16.93it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[212400] loss: 0.034 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 630.76it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 581.90it/s][A
 66%|█████████████████████████████████████████████████████████████████████                                   | 6638/10000 [06:48<03:18, 16.94it/s]
                                                                                                                                                  [A
 66%|█████████████████████████████████████████████████████████████████████                                   | 6638/10000 [06:48<03:18, 16.94it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[212420] loss: 0.070 


                                                                                                                                                  
 66%|█████████████████████████████████████████████████████████████████████                                   | 6638/10000 [06:48<03:18, 16.94it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[212440] loss: 0.034 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 528.37it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 626.11it/s][A

                                                                                                                                                  [A
 66%|█████████████████████████████████████████████████████████████████████                                   | 6638/10000 [06:48<03:18, 16.94it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[212460] loss: 0.044 


                                                                                                                                                  
 66%|█████████████████████████████████████████████████████████████████████                                   | 6638/10000 [06:48<03:18, 16.94it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 547.72it/s][A


[212480] loss: 0.051 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 335.89it/s][A
 66%|█████████████████████████████████████████████████████████████████████                                   | 6640/10000 [06:48<03:27, 16.23it/s]
                                                                                                                                                  [A
 66%|█████████████████████████████████████████████████████████████████████                                   | 6640/10000 [06:48<03:27, 16.23it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 604.98it/s][A


[212500] loss: 0.068 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 727.67it/s][A

                                                                                                                                                  [A
 66%|█████████████████████████████████████████████████████████████████████                                   | 6640/10000 [06:48<03:27, 16.23it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[212520] loss: 0.053 


                                                                                                                                                  
 66%|█████████████████████████████████████████████████████████████████████                                   | 6640/10000 [06:48<03:27, 16.23it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 504.99it/s][A


[212540] loss: 0.042 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 890.89it/s][A
 66%|█████████████████████████████████████████████████████████████████████                                   | 6642/10000 [06:48<03:31, 15.85it/s]
                                                                                                                                                  [A
 66%|█████████████████████████████████████████████████████████████████████                                   | 6642/10000 [06:48<03:31, 15.85it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[212560] loss: 0.061 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 531.50it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 989.92it/s][A

                                                                                                                                                  [A
 66%|█████████████████████████████████████████████████████████████████████                                   | 6642/10000 [06:48<03:31, 15.85it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[212580] loss: 0.049 


                                                                                                                                                  
 66%|█████████████████████████████████████████████████████████████████████                                   | 6642/10000 [06:48<03:31, 15.85it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 495.88it/s][A


[212600] loss: 0.057 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 548.85it/s][A
 66%|█████████████████████████████████████████████████████████████████████                                   | 6644/10000 [06:48<03:39, 15.29it/s]
                                                                                                                                                  [A
 66%|█████████████████████████████████████████████████████████████████████                                   | 6644/10000 [06:48<03:39, 15.29it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[212620] loss: 0.058 


                                                                                                                                                  
 66%|█████████████████████████████████████████████████████████████████████                                   | 6644/10000 [06:48<03:39, 15.29it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 503.55it/s][A


[212640] loss: 0.028 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 687.25it/s][A

                                                                                                                                                  [A
 66%|█████████████████████████████████████████████████████████████████████                                   | 6644/10000 [06:48<03:39, 15.29it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 539.41it/s][A


[212660] loss: 0.066 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 482.27it/s][A
 66%|█████████████████████████████████████████████████████████████████████                                   | 6646/10000 [06:48<03:43, 14.99it/s]
                                                                                                                                                  [A
 66%|█████████████████████████████████████████████████████████████████████                                   | 6646/10000 [06:48<03:43, 14.99it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[212680] loss: 0.031 


                                                                                                                                                  
 66%|█████████████████████████████████████████████████████████████████████                                   | 6646/10000 [06:48<03:43, 14.99it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 519.06it/s][A


[212700] loss: 0.088 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 838.19it/s][A

                                                                                                                                                  [A
 66%|█████████████████████████████████████████████████████████████████████                                   | 6646/10000 [06:48<03:43, 14.99it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[212720] loss: 0.041 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 571.18it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 981.81it/s][A
 66%|█████████████████████████████████████████████████████████████████████▏                                  | 6648/10000 [06:48<03:44, 14.90it/s]
                                                                                                                                                  [A
 66%|█████████████████████████████████████████████████████████████████████▏                                  | 6648/10000 [06:48<03:44, 14.90it/s]
                                                                                                                                                  [A

[212740] loss: 0.052 



 66%|█████████████████████████████████████████████████████████████████████▏                                  | 6648/10000 [06:48<03:44, 14.90it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 691.64it/s][A


[212760] loss: 0.042 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2183.40it/s][A

                                                                                                                                                  [A
 66%|█████████████████████████████████████████████████████████████████████▏                                  | 6648/10000 [06:48<03:44, 14.90it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[212780] loss: 0.052 


                                                                                                                                                  
 66%|█████████████████████████████████████████████████████████████████████▏                                  | 6648/10000 [06:48<03:44, 14.90it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 639.59it/s][A


[212800] loss: 0.069 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 407.45it/s][A
 66%|█████████████████████████████████████████████████████████████████████▏                                  | 6650/10000 [06:48<03:34, 15.60it/s]
                                                                                                                                                  [A
 66%|█████████████████████████████████████████████████████████████████████▏                                  | 6650/10000 [06:48<03:34, 15.60it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 847.28it/s][A


[212820] loss: 0.044 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 843.08it/s][A

                                                                                                                                                  [A
 66%|█████████████████████████████████████████████████████████████████████▏                                  | 6650/10000 [06:48<03:34, 15.60it/s]
                                                                                                                                                  [A
 66%|█████████████████████████████████████████████████████████████████████▏                                  | 6650/10000 [06:49<03:34, 15.60it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[212840] loss: 0.074 
[212860] loss: 0.038 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 615.52it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1204.57it/s][A
 67%|█████████████████████████████████████████████████████████████████████▏                                  | 6652/10000 [06:49<03:24, 16.34it/s]
                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▏                                  | 6652/10000 [06:49<03:24, 16.34it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 858.25it/s][A


[212880] loss: 0.027 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 831.87it/s][A

                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▏                                  | 6652/10000 [06:49<03:24, 16.34it/s]
                                                                                                                                                  [A

[212900] loss: 0.085 



 67%|█████████████████████████████████████████████████████████████████████▏                                  | 6652/10000 [06:49<03:24, 16.34it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 649.86it/s][A


[212920] loss: 0.052 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1399.03it/s][A
 67%|█████████████████████████████████████████████████████████████████████▏                                  | 6654/10000 [06:49<03:16, 17.06it/s]
                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▏                                  | 6654/10000 [06:49<03:16, 17.06it/s]
                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▏                                  | 6654/10000 [06:49<03:16, 17.06it/s]
Training Epoch:   0%|                                                                                       

[212940] loss: 0.058 
[212960] loss: 0.050 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 641.89it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1102.89it/s][A

                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▏                                  | 6654/10000 [06:49<03:16, 17.06it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 869.22it/s][A


[212980] loss: 0.087 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1386.55it/s][A
 67%|█████████████████████████████████████████████████████████████████████▏                                  | 6656/10000 [06:49<03:09, 17.62it/s]
                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▏                                  | 6656/10000 [06:49<03:09, 17.62it/s]
                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▏                                  | 6656/10000 [06:49<03:09, 17.62it/s]
Training Epoch:   0%|                                                                                       

[213000] loss: 0.104 
[213020] loss: 0.043 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 739.17it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1199.74it/s][A

                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▏                                  | 6656/10000 [06:49<03:09, 17.62it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[213040] loss: 0.044 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 904.30it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2234.58it/s][A

                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▏                                  | 6656/10000 [06:49<03:09, 17.62it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[213060] loss: 0.033 


                                                                                                                                                  
 67%|█████████████████████████████████████████████████████████████████████▏                                  | 6656/10000 [06:49<03:09, 17.62it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 656.82it/s][A


[213080] loss: 0.063 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1458.89it/s][A
 67%|█████████████████████████████████████████████████████████████████████▎                                  | 6659/10000 [06:49<03:00, 18.54it/s]
                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▎                                  | 6659/10000 [06:49<03:00, 18.54it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[213100] loss: 0.069 


                                                                                                                                                  
 67%|█████████████████████████████████████████████████████████████████████▎                                  | 6659/10000 [06:49<03:00, 18.54it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 610.82it/s][A


[213120] loss: 0.061 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 502.79it/s][A

                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▎                                  | 6659/10000 [06:49<03:00, 18.54it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 797.80it/s][A


[213140] loss: 0.070 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 607.87it/s][A
 67%|█████████████████████████████████████████████████████████████████████▎                                  | 6661/10000 [06:49<03:01, 18.41it/s]
                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▎                                  | 6661/10000 [06:49<03:01, 18.41it/s]
                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▎                                  | 6661/10000 [06:49<03:01, 18.41it/s]
Training Epoch:   0%|                                                                                       

[213160] loss: 0.060 
[213180] loss: 0.083 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 688.08it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1538.07it/s][A

                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▎                                  | 6661/10000 [06:49<03:01, 18.41it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 870.88it/s][A


[213200] loss: 0.092 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 668.95it/s][A

                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▎                                  | 6661/10000 [06:49<03:01, 18.41it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[213220] loss: 0.053 


                                                                                                                                                  
 67%|█████████████████████████████████████████████████████████████████████▎                                  | 6661/10000 [06:49<03:01, 18.41it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 757.48it/s][A


[213240] loss: 0.046 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1475.31it/s][A
 67%|█████████████████████████████████████████████████████████████████████▎                                  | 6664/10000 [06:49<02:54, 19.14it/s]
                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▎                                  | 6664/10000 [06:49<02:54, 19.14it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[213260] loss: 0.076 


                                                                                                                                                  
 67%|█████████████████████████████████████████████████████████████████████▎                                  | 6664/10000 [06:49<02:54, 19.14it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 724.35it/s][A


[213280] loss: 0.059 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 293.51it/s][A

                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▎                                  | 6664/10000 [06:49<02:54, 19.14it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 690.67it/s][A


[213300] loss: 0.039 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 751.94it/s][A
 67%|█████████████████████████████████████████████████████████████████████▎                                  | 6666/10000 [06:49<02:55, 19.01it/s]
                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▎                                  | 6666/10000 [06:49<02:55, 19.01it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[213320] loss: 0.062 


                                                                                                                                                  
 67%|█████████████████████████████████████████████████████████████████████▎                                  | 6666/10000 [06:49<02:55, 19.01it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 697.05it/s][A


[213340] loss: 0.089 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 773.86it/s][A

                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▎                                  | 6666/10000 [06:49<02:55, 19.01it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 795.92it/s][A


[213360] loss: 0.051 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 872.00it/s][A
 67%|█████████████████████████████████████████████████████████████████████▎                                  | 6668/10000 [06:49<02:53, 19.19it/s]
                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▎                                  | 6668/10000 [06:49<02:53, 19.19it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[213380] loss: 0.043 


                                                                                                                                                  
 67%|█████████████████████████████████████████████████████████████████████▎                                  | 6668/10000 [06:49<02:53, 19.19it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 566.23it/s][A


[213400] loss: 0.078 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 456.80it/s][A

                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▎                                  | 6668/10000 [06:49<02:53, 19.19it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[213420] loss: 0.076 


                                                                                                                                                  
 67%|█████████████████████████████████████████████████████████████████████▎                                  | 6668/10000 [06:49<02:53, 19.19it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[213440] loss: 0.072 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 443.85it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 699.98it/s][A
 67%|█████████████████████████████████████████████████████████████████████▎                                  | 6670/10000 [06:50<03:14, 17.15it/s]
                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▎                                  | 6670/10000 [06:50<03:14, 17.15it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 555.99it/s][A


[213460] loss: 0.025 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 665.55it/s][A

                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▎                                  | 6670/10000 [06:50<03:14, 17.15it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[213480] loss: 0.063 


                                                                                                                                                  
 67%|█████████████████████████████████████████████████████████████████████▎                                  | 6670/10000 [06:50<03:14, 17.15it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 557.77it/s][A


[213500] loss: 0.069 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 806.91it/s][A
 67%|█████████████████████████████████████████████████████████████████████▍                                  | 6672/10000 [06:50<03:20, 16.62it/s]
                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▍                                  | 6672/10000 [06:50<03:20, 16.62it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 596.07it/s][A


[213520] loss: 0.063 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 981.81it/s][A

                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▍                                  | 6672/10000 [06:50<03:20, 16.62it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[213540] loss: 0.032 


                                                                                                                                                  
 67%|█████████████████████████████████████████████████████████████████████▍                                  | 6672/10000 [06:50<03:20, 16.62it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 473.26it/s][A


[213560] loss: 0.060 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 574.40it/s][A
 67%|█████████████████████████████████████████████████████████████████████▍                                  | 6674/10000 [06:50<03:28, 15.95it/s]
                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▍                                  | 6674/10000 [06:50<03:28, 15.95it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[213580] loss: 0.064 


                                                                                                                                                  
 67%|█████████████████████████████████████████████████████████████████████▍                                  | 6674/10000 [06:50<03:28, 15.95it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 501.57it/s][A


[213600] loss: 0.009 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 395.58it/s][A

                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▍                                  | 6674/10000 [06:50<03:28, 15.95it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 545.64it/s][A


[213620] loss: 0.068 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 822.57it/s][A
 67%|█████████████████████████████████████████████████████████████████████▍                                  | 6676/10000 [06:50<03:37, 15.30it/s]
                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▍                                  | 6676/10000 [06:50<03:37, 15.30it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[213640] loss: 0.049 


                                                                                                                                                  
 67%|█████████████████████████████████████████████████████████████████████▍                                  | 6676/10000 [06:50<03:37, 15.30it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 489.52it/s][A


[213660] loss: 0.063 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 667.56it/s][A

                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▍                                  | 6676/10000 [06:50<03:37, 15.30it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[213680] loss: 0.049 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 625.93it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 840.71it/s][A
 67%|█████████████████████████████████████████████████████████████████████▍                                  | 6678/10000 [06:50<03:39, 15.12it/s]
                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▍                                  | 6678/10000 [06:50<03:39, 15.12it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[213700] loss: 0.059 


                                                                                                                                                  
 67%|█████████████████████████████████████████████████████████████████████▍                                  | 6678/10000 [06:50<03:39, 15.12it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 475.60it/s][A


[213720] loss: 0.053 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 495.84it/s][A

                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▍                                  | 6678/10000 [06:50<03:39, 15.12it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[213740] loss: 0.082 


                                                                                                                                                  
 67%|█████████████████████████████████████████████████████████████████████▍                                  | 6678/10000 [06:50<03:39, 15.12it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 436.07it/s][A


[213760] loss: 0.095 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 317.32it/s][A
 67%|█████████████████████████████████████████████████████████████████████▍                                  | 6680/10000 [06:50<03:55, 14.08it/s]
                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▍                                  | 6680/10000 [06:50<03:55, 14.08it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[213780] loss: 0.095 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 531.97it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 835.02it/s][A

                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▍                                  | 6680/10000 [06:50<03:55, 14.08it/s]
                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▍                                  | 6680/10000 [06:50<03:55, 14.08it/s]
Training Epoch: 100%|██████████████████████████████████████████████████████████████████████████████████████

[213800] loss: 0.059 
[213820] loss: 0.071 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 405.05it/s][A
 67%|█████████████████████████████████████████████████████████████████████▍                                  | 6682/10000 [06:50<03:56, 14.01it/s]
                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▍                                  | 6682/10000 [06:50<03:56, 14.01it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[213840] loss: 0.058 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 533.53it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 607.87it/s][A

                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▍                                  | 6682/10000 [06:50<03:56, 14.01it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[213860] loss: 0.031 


                                                                                                                                                  
 67%|█████████████████████████████████████████████████████████████████████▍                                  | 6682/10000 [06:50<03:56, 14.01it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 526.81it/s][A


[213880] loss: 0.033 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 633.77it/s][A
 67%|█████████████████████████████████████████████████████████████████████▌                                  | 6684/10000 [06:50<03:54, 14.16it/s]
                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▌                                  | 6684/10000 [06:51<03:54, 14.16it/s]
                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▌                                  | 6684/10000 [06:51<03:54, 14.16it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[213900] loss: 0.051 
[213920] loss: 0.245 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 306.67it/s][A

                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▌                                  | 6684/10000 [06:51<03:54, 14.16it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 593.68it/s][A


[213940] loss: 0.062 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 812.85it/s][A
 67%|█████████████████████████████████████████████████████████████████████▌                                  | 6686/10000 [06:51<03:51, 14.30it/s]
                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▌                                  | 6686/10000 [06:51<03:51, 14.30it/s]
                                                                                                                                                  [A
                                                                                                                                                  

[213960] loss: 0.059 


 67%|█████████████████████████████████████████████████████████████████████▌                                  | 6686/10000 [06:51<03:51, 14.30it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 668.20it/s][A


[213980] loss: 0.044 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1364.89it/s][A

                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▌                                  | 6686/10000 [06:51<03:51, 14.30it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[214000] loss: 0.058 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 801.08it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 860.90it/s][A
 67%|█████████████████████████████████████████████████████████████████████▌                                  | 6688/10000 [06:51<03:34, 15.48it/s]
                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▌                                  | 6688/10000 [06:51<03:34, 15.48it/s]
                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▌                                 

[214020] loss: 0.047 
[214040] loss: 0.066 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 860.72it/s][A

                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▌                                  | 6688/10000 [06:51<03:34, 15.48it/s]
                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▌                                  | 6688/10000 [06:51<03:34, 15.48it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 740.88it/s][A


[214060] loss: 0.060 
[214080] loss: 0.064 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 775.14it/s][A
 67%|█████████████████████████████████████████████████████████████████████▌                                  | 6690/10000 [06:51<03:25, 16.11it/s]
                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▌                                  | 6690/10000 [06:51<03:25, 16.11it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 711.96it/s][A


[214100] loss: 0.042 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1055.44it/s][A

                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▌                                  | 6690/10000 [06:51<03:25, 16.11it/s]
                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▌                                  | 6690/10000 [06:51<03:25, 16.11it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[214120] loss: 0.034 
[214140] loss: 0.103 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 717.53it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2125.85it/s][A
 67%|█████████████████████████████████████████████████████████████████████▌                                  | 6692/10000 [06:51<03:16, 16.82it/s]
                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▌                                  | 6692/10000 [06:51<03:16, 16.82it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 1017.74it/s][A


[214160] loss: 0.056 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1164.11it/s][A

                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▌                                  | 6692/10000 [06:51<03:16, 16.82it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[214180] loss: 0.040 


                                                                                                                                                  
 67%|█████████████████████████████████████████████████████████████████████▌                                  | 6692/10000 [06:51<03:16, 16.82it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 833.43it/s][A


[214200] loss: 0.047 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1327.73it/s][A

                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▌                                  | 6692/10000 [06:51<03:16, 16.82it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[214220] loss: 0.048 


                                                                                                                                                  
 67%|█████████████████████████████████████████████████████████████████████▌                                  | 6692/10000 [06:51<03:16, 16.82it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 642.78it/s][A


[214240] loss: 0.018 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 258.80it/s][A
 67%|█████████████████████████████████████████████████████████████████████▋                                  | 6695/10000 [06:51<03:03, 18.01it/s]
                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▋                                  | 6695/10000 [06:51<03:03, 18.01it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 702.31it/s][A


[214260] loss: 0.043 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 592.67it/s][A

                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▋                                  | 6695/10000 [06:51<03:03, 18.01it/s]
                                                                                                                                                  [A
                                                                                                                                                  

[214280] loss: 0.058 


 67%|█████████████████████████████████████████████████████████████████████▋                                  | 6695/10000 [06:51<03:03, 18.01it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 611.19it/s][A


[214300] loss: 0.051 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1443.82it/s][A
 67%|█████████████████████████████████████████████████████████████████████▋                                  | 6697/10000 [06:51<03:04, 17.86it/s]
                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▋                                  | 6697/10000 [06:51<03:04, 17.86it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[214320] loss: 0.105 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 666.07it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2095.06it/s][A

                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▋                                  | 6697/10000 [06:51<03:04, 17.86it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[214340] loss: 0.056 


                                                                                                                                                  
 67%|█████████████████████████████████████████████████████████████████████▋                                  | 6697/10000 [06:51<03:04, 17.86it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 633.36it/s][A


[214360] loss: 0.107 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1313.18it/s][A
 67%|█████████████████████████████████████████████████████████████████████▋                                  | 6699/10000 [06:51<03:06, 17.69it/s]
                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▋                                  | 6699/10000 [06:51<03:06, 17.69it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[214380] loss: 0.036 


                                                                                                                                                  
 67%|█████████████████████████████████████████████████████████████████████▋                                  | 6699/10000 [06:51<03:06, 17.69it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 675.33it/s][A


[214400] loss: 0.127 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1715.46it/s][A

                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▋                                  | 6699/10000 [06:51<03:06, 17.69it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 873.53it/s][A


[214420] loss: 0.055 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2014.56it/s][A

                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▋                                  | 6699/10000 [06:51<03:06, 17.69it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[214440] loss: 0.084 


                                                                                                                                                  
 67%|█████████████████████████████████████████████████████████████████████▋                                  | 6699/10000 [06:51<03:06, 17.69it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 664.34it/s][A


[214460] loss: 0.059 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1339.61it/s][A
 67%|█████████████████████████████████████████████████████████████████████▋                                  | 6702/10000 [06:51<02:59, 18.33it/s]
                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▋                                  | 6702/10000 [06:52<02:59, 18.33it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[214480] loss: 0.056 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 746.35it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1122.67it/s][A

                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▋                                  | 6702/10000 [06:52<02:59, 18.33it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[214500] loss: 0.050 


                                                                                                                                                  
 67%|█████████████████████████████████████████████████████████████████████▋                                  | 6702/10000 [06:52<02:59, 18.33it/s]


[214520] loss: 0.062 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 623.56it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1215.39it/s][A
 67%|█████████████████████████████████████████████████████████████████████▋                                  | 6704/10000 [06:52<03:02, 18.09it/s]
                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▋                                  | 6704/10000 [06:52<03:02, 18.09it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[214540] loss: 0.046 


                                                                                                                                                  
 67%|█████████████████████████████████████████████████████████████████████▋                                  | 6704/10000 [06:52<03:02, 18.09it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 668.79it/s][A


[214560] loss: 0.044 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1322.29it/s][A

                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▋                                  | 6704/10000 [06:52<03:02, 18.09it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 982.88it/s][A


[214580] loss: 0.118 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1350.82it/s][A

                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▋                                  | 6704/10000 [06:52<03:02, 18.09it/s]
                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▋                                  | 6704/10000 [06:52<03:02, 18.09it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[214600] loss: 0.045 
[214620] loss: 0.069 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 530.29it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 789.00it/s][A
 67%|█████████████████████████████████████████████████████████████████████▊                                  | 6707/10000 [06:52<03:02, 18.05it/s]
                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▊                                  | 6707/10000 [06:52<03:02, 18.05it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[214640] loss: 0.054 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 598.76it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 996.04it/s][A

                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▊                                  | 6707/10000 [06:52<03:02, 18.05it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[214660] loss: 0.053 


                                                                                                                                                  
 67%|█████████████████████████████████████████████████████████████████████▊                                  | 6707/10000 [06:52<03:02, 18.05it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[214680] loss: 0.056 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 524.34it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1227.48it/s][A
 67%|█████████████████████████████████████████████████████████████████████▊                                  | 6709/10000 [06:52<03:10, 17.27it/s]
                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▊                                  | 6709/10000 [06:52<03:10, 17.27it/s]
                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▊                                 

[214700] loss: 0.066 
[214720] loss: 0.037 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 824.84it/s][A

                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▊                                  | 6709/10000 [06:52<03:10, 17.27it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 569.78it/s][A


[214740] loss: 0.064 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 421.07it/s][A
 67%|█████████████████████████████████████████████████████████████████████▊                                  | 6711/10000 [06:52<03:17, 16.63it/s]
                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▊                                  | 6711/10000 [06:52<03:17, 16.63it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[214760] loss: 0.039 


                                                                                                                                                  
 67%|█████████████████████████████████████████████████████████████████████▊                                  | 6711/10000 [06:52<03:17, 16.63it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 516.15it/s][A


[214780] loss: 0.070 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 671.30it/s][A

                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▊                                  | 6711/10000 [06:52<03:17, 16.63it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 665.44it/s][A


[214800] loss: 0.062 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 455.26it/s][A
 67%|█████████████████████████████████████████████████████████████████████▊                                  | 6713/10000 [06:52<03:22, 16.23it/s]
                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▊                                  | 6713/10000 [06:52<03:22, 16.23it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[214820] loss: 0.037 


                                                                                                                                                  
 67%|█████████████████████████████████████████████████████████████████████▊                                  | 6713/10000 [06:52<03:22, 16.23it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 500.07it/s][A


[214840] loss: 0.094 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 668.31it/s][A

                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▊                                  | 6713/10000 [06:52<03:22, 16.23it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[214860] loss: 0.064 


                                                                                                                                                  
 67%|█████████████████████████████████████████████████████████████████████▊                                  | 6713/10000 [06:52<03:22, 16.23it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 538.34it/s][A


[214880] loss: 0.029 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 752.61it/s][A
 67%|█████████████████████████████████████████████████████████████████████▊                                  | 6715/10000 [06:52<03:30, 15.63it/s]
                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▊                                  | 6715/10000 [06:52<03:30, 15.63it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 590.39it/s][A


[214900] loss: 0.076 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 554.51it/s][A

                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▊                                  | 6715/10000 [06:52<03:30, 15.63it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[214920] loss: 0.029 


                                                                                                                                                  
 67%|█████████████████████████████████████████████████████████████████████▊                                  | 6715/10000 [06:52<03:30, 15.63it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 522.81it/s][A


[214940] loss: 0.056 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1058.63it/s][A
 67%|█████████████████████████████████████████████████████████████████████▊                                  | 6717/10000 [06:52<03:32, 15.43it/s]
                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▊                                  | 6717/10000 [06:52<03:32, 15.43it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[214960] loss: 0.041 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 423.75it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 384.41it/s][A

                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▊                                  | 6717/10000 [06:53<03:32, 15.43it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[214980] loss: 0.065 


                                                                                                                                                  
 67%|█████████████████████████████████████████████████████████████████████▊                                  | 6717/10000 [06:53<03:32, 15.43it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[215000] loss: 0.068 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 340.97it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 595.53it/s][A
 67%|█████████████████████████████████████████████████████████████████████▉                                  | 6719/10000 [06:53<04:04, 13.40it/s]
                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▉                                  | 6719/10000 [06:53<04:04, 13.40it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[215020] loss: 0.060 


                                                                                                                                                  
 67%|█████████████████████████████████████████████████████████████████████▉                                  | 6719/10000 [06:53<04:04, 13.40it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 381.63it/s][A


[215040] loss: 0.023 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 606.64it/s][A

                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▉                                  | 6719/10000 [06:53<04:04, 13.40it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[215060] loss: 0.091 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 410.39it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 667.35it/s][A
 67%|█████████████████████████████████████████████████████████████████████▉                                  | 6721/10000 [06:53<04:22, 12.47it/s]
                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▉                                  | 6721/10000 [06:53<04:22, 12.47it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[215080] loss: 0.050 


                                                                                                                                                  
 67%|█████████████████████████████████████████████████████████████████████▉                                  | 6721/10000 [06:53<04:22, 12.47it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 382.06it/s][A


[215100] loss: 0.066 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 776.72it/s][A

                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▉                                  | 6721/10000 [06:53<04:22, 12.47it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[215120] loss: 0.051 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 491.99it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 810.34it/s][A
 67%|█████████████████████████████████████████████████████████████████████▉                                  | 6723/10000 [06:53<04:30, 12.13it/s]
                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▉                                  | 6723/10000 [06:53<04:30, 12.13it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[215140] loss: 0.076 


                                                                                                                                                  
 67%|█████████████████████████████████████████████████████████████████████▉                                  | 6723/10000 [06:53<04:30, 12.13it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 400.51it/s][A


[215160] loss: 0.039 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 819.68it/s][A

                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▉                                  | 6723/10000 [06:53<04:30, 12.13it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[215180] loss: 0.039 


                                                                                                                                                  
 67%|█████████████████████████████████████████████████████████████████████▉                                  | 6723/10000 [06:53<04:30, 12.13it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 420.73it/s][A


[215200] loss: 0.041 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 864.09it/s][A
 67%|█████████████████████████████████████████████████████████████████████▉                                  | 6725/10000 [06:53<04:37, 11.80it/s]
                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▉                                  | 6725/10000 [06:53<04:37, 11.80it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 466.59it/s][A


[215220] loss: 0.052 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1013.36it/s][A

                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▉                                  | 6725/10000 [06:53<04:37, 11.80it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[215240] loss: 0.059 


                                                                                                                                                  
 67%|█████████████████████████████████████████████████████████████████████▉                                  | 6725/10000 [06:53<04:37, 11.80it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 395.44it/s][A


[215260] loss: 0.139 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1059.97it/s][A
 67%|█████████████████████████████████████████████████████████████████████▉                                  | 6727/10000 [06:53<04:39, 11.70it/s]
                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▉                                  | 6727/10000 [06:53<04:39, 11.70it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[215280] loss: 0.077 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 456.91it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 719.43it/s][A

                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▉                                  | 6727/10000 [06:53<04:39, 11.70it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[215300] loss: 0.078 


                                                                                                                                                  
 67%|█████████████████████████████████████████████████████████████████████▉                                  | 6727/10000 [06:53<04:39, 11.70it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 386.68it/s][A


[215320] loss: 0.041 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1062.93it/s][A
 67%|█████████████████████████████████████████████████████████████████████▉                                  | 6729/10000 [06:54<04:43, 11.55it/s]
                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▉                                  | 6729/10000 [06:54<04:43, 11.55it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[215340] loss: 0.043 


                                                                                                                                                  
 67%|█████████████████████████████████████████████████████████████████████▉                                  | 6729/10000 [06:54<04:43, 11.55it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 404.04it/s][A


[215360] loss: 0.109 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 790.48it/s][A

                                                                                                                                                  [A
 67%|█████████████████████████████████████████████████████████████████████▉                                  | 6729/10000 [06:54<04:43, 11.55it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 483.65it/s][A


[215380] loss: 0.096 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1288.97it/s][A
 67%|██████████████████████████████████████████████████████████████████████                                  | 6731/10000 [06:54<04:41, 11.61it/s]
                                                                                                                                                  [A
 67%|██████████████████████████████████████████████████████████████████████                                  | 6731/10000 [06:54<04:41, 11.61it/s]
                                                                                                                                                  [A
                                                                                                                                                  

[215400] loss: 0.088 


 67%|██████████████████████████████████████████████████████████████████████                                  | 6731/10000 [06:54<04:41, 11.61it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 428.23it/s][A


[215420] loss: 0.093 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1262.96it/s][A

                                                                                                                                                  [A
 67%|██████████████████████████████████████████████████████████████████████                                  | 6731/10000 [06:54<04:41, 11.61it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 493.24it/s][A


[215440] loss: 0.054 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 826.63it/s][A
 67%|██████████████████████████████████████████████████████████████████████                                  | 6733/10000 [06:54<04:36, 11.82it/s]
                                                                                                                                                  [A
 67%|██████████████████████████████████████████████████████████████████████                                  | 6733/10000 [06:54<04:36, 11.82it/s]
                                                                                                                                                  [A

[215460] loss: 0.057 



 67%|██████████████████████████████████████████████████████████████████████                                  | 6733/10000 [06:54<04:36, 11.82it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 405.17it/s][A


[215480] loss: 0.032 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1271.77it/s][A

                                                                                                                                                  [A
 67%|██████████████████████████████████████████████████████████████████████                                  | 6733/10000 [06:54<04:36, 11.82it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[215500] loss: 0.079 


                                                                                                                                                  
 67%|██████████████████████████████████████████████████████████████████████                                  | 6733/10000 [06:54<04:36, 11.82it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 390.40it/s][A


[215520] loss: 0.033 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 725.41it/s][A
 67%|██████████████████████████████████████████████████████████████████████                                  | 6735/10000 [06:54<04:43, 11.50it/s]
                                                                                                                                                  [A
 67%|██████████████████████████████████████████████████████████████████████                                  | 6735/10000 [06:54<04:43, 11.50it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[215540] loss: 0.053 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 405.26it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 546.85it/s][A

                                                                                                                                                  [A
 67%|██████████████████████████████████████████████████████████████████████                                  | 6735/10000 [06:54<04:43, 11.50it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[215560] loss: 0.032 


                                                                                                                                                  
 67%|██████████████████████████████████████████████████████████████████████                                  | 6735/10000 [06:54<04:43, 11.50it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[215580] loss: 0.047 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 345.84it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 680.12it/s][A
 67%|██████████████████████████████████████████████████████████████████████                                  | 6737/10000 [06:54<04:56, 11.02it/s]
                                                                                                                                                  [A
 67%|██████████████████████████████████████████████████████████████████████                                  | 6737/10000 [06:54<04:56, 11.02it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[215600] loss: 0.056 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 413.94it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 637.53it/s][A

                                                                                                                                                  [A
 67%|██████████████████████████████████████████████████████████████████████                                  | 6737/10000 [06:54<04:56, 11.02it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[215620] loss: 0.042 


                                                                                                                                                  
 67%|██████████████████████████████████████████████████████████████████████                                  | 6737/10000 [06:54<04:56, 11.02it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[215640] loss: 0.099 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 329.29it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 715.63it/s][A
 67%|██████████████████████████████████████████████████████████████████████                                  | 6739/10000 [06:54<05:06, 10.64it/s]
                                                                                                                                                  [A
 67%|██████████████████████████████████████████████████████████████████████                                  | 6739/10000 [06:54<05:06, 10.64it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[215660] loss: 0.086 


                                                                                                                                                  
 67%|██████████████████████████████████████████████████████████████████████                                  | 6739/10000 [06:55<05:06, 10.64it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 568.44it/s][A


[215680] loss: 0.098 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 728.43it/s][A

                                                                                                                                                  [A
 67%|██████████████████████████████████████████████████████████████████████                                  | 6739/10000 [06:55<05:06, 10.64it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[215700] loss: 0.049 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 587.45it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 796.79it/s][A
 67%|██████████████████████████████████████████████████████████████████████                                  | 6741/10000 [06:55<04:37, 11.75it/s]
                                                                                                                                                  [A
 67%|██████████████████████████████████████████████████████████████████████                                  | 6741/10000 [06:55<04:37, 11.75it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[215720] loss: 0.024 


                                                                                                                                                  
 67%|██████████████████████████████████████████████████████████████████████                                  | 6741/10000 [06:55<04:37, 11.75it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 496.89it/s][A


[215740] loss: 0.051 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 933.52it/s][A

                                                                                                                                                  [A
 67%|██████████████████████████████████████████████████████████████████████                                  | 6741/10000 [06:55<04:37, 11.75it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 617.23it/s][A


[215760] loss: 0.071 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 813.01it/s][A
 67%|██████████████████████████████████████████████████████████████████████▏                                 | 6743/10000 [06:55<04:18, 12.61it/s]
                                                                                                                                                  [A
 67%|██████████████████████████████████████████████████████████████████████▏                                 | 6743/10000 [06:55<04:18, 12.61it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[215780] loss: 0.056 


                                                                                                                                                  
 67%|██████████████████████████████████████████████████████████████████████▏                                 | 6743/10000 [06:55<04:18, 12.61it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 528.47it/s][A


[215800] loss: 0.064 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 771.30it/s][A

                                                                                                                                                  [A
 67%|██████████████████████████████████████████████████████████████████████▏                                 | 6743/10000 [06:55<04:18, 12.61it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[215820] loss: 0.070 


                                                                                                                                                  
 67%|██████████████████████████████████████████████████████████████████████▏                                 | 6743/10000 [06:55<04:18, 12.61it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 508.49it/s][A


[215840] loss: 0.081 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 773.57it/s][A
 67%|██████████████████████████████████████████████████████████████████████▏                                 | 6745/10000 [06:55<04:11, 12.93it/s]
                                                                                                                                                  [A
 67%|██████████████████████████████████████████████████████████████████████▏                                 | 6745/10000 [06:55<04:11, 12.93it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 574.95it/s][A


[215860] loss: 0.094 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 515.08it/s][A

                                                                                                                                                  [A
 67%|██████████████████████████████████████████████████████████████████████▏                                 | 6745/10000 [06:55<04:11, 12.93it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[215880] loss: 0.047 


                                                                                                                                                  
 67%|██████████████████████████████████████████████████████████████████████▏                                 | 6745/10000 [06:55<04:11, 12.93it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 454.04it/s][A


[215900] loss: 0.076 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 771.72it/s][A
 67%|██████████████████████████████████████████████████████████████████████▏                                 | 6747/10000 [06:55<04:07, 13.15it/s]
                                                                                                                                                  [A
 67%|██████████████████████████████████████████████████████████████████████▏                                 | 6747/10000 [06:55<04:07, 13.15it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[215920] loss: 0.035 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 585.35it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 993.91it/s][A

                                                                                                                                                  [A
 67%|██████████████████████████████████████████████████████████████████████▏                                 | 6747/10000 [06:55<04:07, 13.15it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[215940] loss: 0.073 


                                                                                                                                                  
 67%|██████████████████████████████████████████████████████████████████████▏                                 | 6747/10000 [06:55<04:07, 13.15it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 585.39it/s][A


[215960] loss: 0.070 



Evaluating dev set:   0%|                                                                                                   | 0/1 [00:00<?, ?it/s]IOPub message rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_msg_rate_limit`.

Current values:
NotebookApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
NotebookApp.rate_limit_window=3.0 (secs)


Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 424.22it/s][A
 72%|██████████████████████████████████████████████████████████████████████████▋                             | 7185/10000 [07:22<02:45, 16.99it/s]
                                                                                                                                                  [A
 72%|██████████████████████████████████████████████████████████████████████████▋

[229940] loss: 0.088 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 838.36it/s][A

                                                                                                                                                  [A
[A                                                                                                                                               

[229960] loss: 0.057 


 72%|██████████████████████████████████████████████████████████████████████████▋                             | 7185/10000 [07:22<02:45, 16.99it/s]
                                                                                                                                                  [A
 72%|██████████████████████████████████████████████████████████████████████████▋                             | 7185/10000 [07:23<02:45, 16.99it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 606.18it/s][A


[229980] loss: 0.089 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 944.03it/s][A
 72%|██████████████████████████████████████████████████████████████████████████▋                             | 7187/10000 [07:23<02:44, 17.06it/s]
                                                                                                                                                  [A
 72%|██████████████████████████████████████████████████████████████████████████▋                             | 7187/10000 [07:23<02:44, 17.06it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 849.12it/s][A


[230000] loss: 0.048 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 788.70it/s][A

                                                                                                                                                  [A
 72%|██████████████████████████████████████████████████████████████████████████▋                             | 7187/10000 [07:23<02:44, 17.06it/s]
                                                                                                                                                  [A
 72%|██████████████████████████████████████████████████████████████████████████▋                             | 7187/10000 [07:23<02:44, 17.06it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 657.38it/s][A


[230020] loss: 0.049 
[230040] loss: 0.038 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1119.97it/s][A
 72%|██████████████████████████████████████████████████████████████████████████▊                             | 7189/10000 [07:23<02:40, 17.54it/s]
                                                                                                                                                  [A
 72%|██████████████████████████████████████████████████████████████████████████▊                             | 7189/10000 [07:23<02:40, 17.54it/s]
                                                                                                                                                  [A

[230060] loss: 0.037 



 72%|██████████████████████████████████████████████████████████████████████████▊                             | 7189/10000 [07:23<02:40, 17.54it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 657.80it/s][A


[230080] loss: 0.117 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1300.96it/s][A

                                                                                                                                                  [A
 72%|██████████████████████████████████████████████████████████████████████████▊                             | 7189/10000 [07:23<02:40, 17.54it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 854.59it/s][A


[230100] loss: 0.080 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1453.33it/s][A
 72%|██████████████████████████████████████████████████████████████████████████▊                             | 7191/10000 [07:23<02:34, 18.19it/s]
                                                                                                                                                  [A
 72%|██████████████████████████████████████████████████████████████████████████▊                             | 7191/10000 [07:23<02:34, 18.19it/s]
                                                                                                                                                  [A

[230120] loss: 0.050 



 72%|██████████████████████████████████████████████████████████████████████████▊                             | 7191/10000 [07:23<02:34, 18.19it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 529.62it/s][A


[230140] loss: 0.047 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 784.42it/s][A

                                                                                                                                                  [A
 72%|██████████████████████████████████████████████████████████████████████████▊                             | 7191/10000 [07:23<02:34, 18.19it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[230160] loss: 0.077 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 658.98it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1989.71it/s][A
 72%|██████████████████████████████████████████████████████████████████████████▊                             | 7193/10000 [07:23<02:40, 17.45it/s]
                                                                                                                                                  [A
 72%|██████████████████████████████████████████████████████████████████████████▊                             | 7193/10000 [07:23<02:40, 17.45it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[230180] loss: 0.043 


                                                                                                                                                  
 72%|██████████████████████████████████████████████████████████████████████████▊                             | 7193/10000 [07:23<02:40, 17.45it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 677.34it/s][A


[230200] loss: 0.052 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 622.85it/s][A

                                                                                                                                                  [A
 72%|██████████████████████████████████████████████████████████████████████████▊                             | 7193/10000 [07:23<02:40, 17.45it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[230220] loss: 0.042 


                                                                                                                                                  
 72%|██████████████████████████████████████████████████████████████████████████▊                             | 7193/10000 [07:23<02:40, 17.45it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 681.01it/s][A


[230240] loss: 0.144 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 638.11it/s][A
 72%|██████████████████████████████████████████████████████████████████████████▊                             | 7195/10000 [07:23<02:40, 17.47it/s]
                                                                                                                                                  [A
 72%|██████████████████████████████████████████████████████████████████████████▊                             | 7195/10000 [07:23<02:40, 17.47it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 787.30it/s][A


[230260] loss: 0.061 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 991.80it/s][A

                                                                                                                                                  [A
 72%|██████████████████████████████████████████████████████████████████████████▊                             | 7195/10000 [07:23<02:40, 17.47it/s]
                                                                                                                                                  [A


[230280] loss: 0.060 


 72%|██████████████████████████████████████████████████████████████████████████▊                             | 7195/10000 [07:23<02:40, 17.47it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 585.41it/s][A


[230300] loss: 0.074 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1473.75it/s][A
 72%|██████████████████████████████████████████████████████████████████████████▊                             | 7197/10000 [07:23<02:40, 17.52it/s]
                                                                                                                                                  [A
 72%|██████████████████████████████████████████████████████████████████████████▊                             | 7197/10000 [07:23<02:40, 17.52it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 923.37it/s][A


[230320] loss: 0.078 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2125.85it/s][A

                                                                                                                                                  [A
 72%|██████████████████████████████████████████████████████████████████████████▊                             | 7197/10000 [07:23<02:40, 17.52it/s]
                                                                                                                                                  [A
 72%|██████████████████████████████████████████████████████████████████████████▊                             | 7197/10000 [07:23<02:40, 17.52it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[230340] loss: 0.052 
[230360] loss: 0.066 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 817.31it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1968.23it/s][A

                                                                                                                                                  [A
 72%|██████████████████████████████████████████████████████████████████████████▊                             | 7197/10000 [07:23<02:40, 17.52it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[230380] loss: 0.069 


                                                                                                                                                  
 72%|██████████████████████████████████████████████████████████████████████████▊                             | 7197/10000 [07:23<02:40, 17.52it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 816.52it/s][A


[230400] loss: 0.013 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 652.10it/s][A
 72%|██████████████████████████████████████████████████████████████████████████▉                             | 7200/10000 [07:23<02:26, 19.07it/s]
                                                                                                                                                  [A
 72%|██████████████████████████████████████████████████████████████████████████▉                             | 7200/10000 [07:23<02:26, 19.07it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 961.48it/s][A


[230420] loss: 0.070 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1162.18it/s][A

                                                                                                                                                  [A
 72%|██████████████████████████████████████████████████████████████████████████▉                             | 7200/10000 [07:23<02:26, 19.07it/s]
                                                                                                                                                  [A
 72%|██████████████████████████████████████████████████████████████████████████▉                             | 7200/10000 [07:23<02:26, 19.07it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[230440] loss: 0.051 
[230460] loss: 0.051 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 638.68it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1519.12it/s][A

                                                                                                                                                  [A
 72%|██████████████████████████████████████████████████████████████████████████▉                             | 7200/10000 [07:23<02:26, 19.07it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 791.55it/s][A


[230480] loss: 0.069 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 700.45it/s][A
 72%|██████████████████████████████████████████████████████████████████████████▉                             | 7203/10000 [07:23<02:23, 19.43it/s]
                                                                                                                                                  [A
 72%|██████████████████████████████████████████████████████████████████████████▉                             | 7203/10000 [07:23<02:23, 19.43it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[230500] loss: 0.068 


                                                                                                                                                  
 72%|██████████████████████████████████████████████████████████████████████████▉                             | 7203/10000 [07:23<02:23, 19.43it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[230520] loss: 0.045 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 587.23it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1284.63it/s][A

                                                                                                                                                  [A
 72%|██████████████████████████████████████████████████████████████████████████▉                             | 7203/10000 [07:23<02:23, 19.43it/s]
                                                                                                                                                  [A

[230540] loss: 0.050 



 72%|██████████████████████████████████████████████████████████████████████████▉                             | 7203/10000 [07:23<02:23, 19.43it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 705.21it/s][A


[230560] loss: 0.100 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 401.95it/s][A
 72%|██████████████████████████████████████████████████████████████████████████▉                             | 7205/10000 [07:23<02:29, 18.72it/s]
                                                                                                                                                  [A
 72%|██████████████████████████████████████████████████████████████████████████▉                             | 7205/10000 [07:24<02:29, 18.72it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 802.70it/s][A


[230580] loss: 0.104 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 614.91it/s][A

                                                                                                                                                  [A
 72%|██████████████████████████████████████████████████████████████████████████▉                             | 7205/10000 [07:24<02:29, 18.72it/s]
                                                                                                                                                  [A
[A                                                                                                                                               

[230600] loss: 0.070 


 72%|██████████████████████████████████████████████████████████████████████████▉                             | 7205/10000 [07:24<02:29, 18.72it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 581.34it/s][A


[230620] loss: 0.076 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 677.05it/s][A
 72%|██████████████████████████████████████████████████████████████████████████▉                             | 7207/10000 [07:24<02:31, 18.42it/s]
                                                                                                                                                  [A
 72%|██████████████████████████████████████████████████████████████████████████▉                             | 7207/10000 [07:24<02:31, 18.42it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 779.75it/s][A


[230640] loss: 0.041 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1308.27it/s][A

                                                                                                                                                  [A
 72%|██████████████████████████████████████████████████████████████████████████▉                             | 7207/10000 [07:24<02:31, 18.42it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[230660] loss: 0.055 


                                                                                                                                                  
 72%|██████████████████████████████████████████████████████████████████████████▉                             | 7207/10000 [07:24<02:31, 18.42it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 702.36it/s][A


[230680] loss: 0.059 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1385.63it/s][A
 72%|██████████████████████████████████████████████████████████████████████████▉                             | 7209/10000 [07:24<02:29, 18.68it/s]
                                                                                                                                                  [A
 72%|██████████████████████████████████████████████████████████████████████████▉                             | 7209/10000 [07:24<02:29, 18.68it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[230700] loss: 0.056 


                                                                                                                                                  
 72%|██████████████████████████████████████████████████████████████████████████▉                             | 7209/10000 [07:24<02:29, 18.68it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 565.52it/s][A


[230720] loss: 0.075 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1013.61it/s][A

                                                                                                                                                  [A
 72%|██████████████████████████████████████████████████████████████████████████▉                             | 7209/10000 [07:24<02:29, 18.68it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 658.90it/s][A


[230740] loss: 0.042 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 989.92it/s][A
 72%|██████████████████████████████████████████████████████████████████████████▉                             | 7211/10000 [07:24<02:35, 17.93it/s]
                                                                                                                                                  [A
 72%|██████████████████████████████████████████████████████████████████████████▉                             | 7211/10000 [07:24<02:35, 17.93it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[230760] loss: 0.062 


                                                                                                                                                  
 72%|██████████████████████████████████████████████████████████████████████████▉                             | 7211/10000 [07:24<02:35, 17.93it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[230780] loss: 0.055 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 538.02it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 989.22it/s][A

                                                                                                                                                  [A
 72%|██████████████████████████████████████████████████████████████████████████▉                             | 7211/10000 [07:24<02:35, 17.93it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[230800] loss: 0.039 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 616.01it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1009.46it/s][A
 72%|███████████████████████████████████████████████████████████████████████████                             | 7213/10000 [07:24<02:42, 17.18it/s]
                                                                                                                                                  [A
 72%|███████████████████████████████████████████████████████████████████████████                             | 7213/10000 [07:24<02:42, 17.18it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[230820] loss: 0.101 


                                                                                                                                                  
 72%|███████████████████████████████████████████████████████████████████████████                             | 7213/10000 [07:24<02:42, 17.18it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 519.87it/s][A


[230840] loss: 0.052 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1229.64it/s][A

                                                                                                                                                  [A
 72%|███████████████████████████████████████████████████████████████████████████                             | 7213/10000 [07:24<02:42, 17.18it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[230860] loss: 0.072 


                                                                                                                                                  
 72%|███████████████████████████████████████████████████████████████████████████                             | 7213/10000 [07:24<02:42, 17.18it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 558.98it/s][A


[230880] loss: 0.077 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 827.12it/s][A
 72%|███████████████████████████████████████████████████████████████████████████                             | 7215/10000 [07:24<02:50, 16.33it/s]
                                                                                                                                                  [A
 72%|███████████████████████████████████████████████████████████████████████████                             | 7215/10000 [07:24<02:50, 16.33it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 600.94it/s][A


[230900] loss: 0.045 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 431.78it/s][A

                                                                                                                                                  [A
 72%|███████████████████████████████████████████████████████████████████████████                             | 7215/10000 [07:24<02:50, 16.33it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[230920] loss: 0.030 


                                                                                                                                                  
 72%|███████████████████████████████████████████████████████████████████████████                             | 7215/10000 [07:24<02:50, 16.33it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 536.27it/s][A


[230940] loss: 0.060 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 881.16it/s][A
 72%|███████████████████████████████████████████████████████████████████████████                             | 7217/10000 [07:24<02:54, 15.92it/s]
                                                                                                                                                  [A
 72%|███████████████████████████████████████████████████████████████████████████                             | 7217/10000 [07:24<02:54, 15.92it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[230960] loss: 0.067 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 573.97it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 691.33it/s][A

                                                                                                                                                  [A
 72%|███████████████████████████████████████████████████████████████████████████                             | 7217/10000 [07:24<02:54, 15.92it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[230980] loss: 0.040 


                                                                                                                                                  
 72%|███████████████████████████████████████████████████████████████████████████                             | 7217/10000 [07:24<02:54, 15.92it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 527.84it/s][A


[231000] loss: 0.086 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 719.06it/s][A
 72%|███████████████████████████████████████████████████████████████████████████                             | 7219/10000 [07:24<02:59, 15.50it/s]
                                                                                                                                                  [A
 72%|███████████████████████████████████████████████████████████████████████████                             | 7219/10000 [07:24<02:59, 15.50it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[231020] loss: 0.046 


                                                                                                                                                  
 72%|███████████████████████████████████████████████████████████████████████████                             | 7219/10000 [07:24<02:59, 15.50it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 508.92it/s][A


[231040] loss: 0.087 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 336.06it/s][A

                                                                                                                                                  [A
 72%|███████████████████████████████████████████████████████████████████████████                             | 7219/10000 [07:24<02:59, 15.50it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 563.67it/s][A


[231060] loss: 0.030 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 485.28it/s][A
 72%|███████████████████████████████████████████████████████████████████████████                             | 7221/10000 [07:24<03:03, 15.16it/s]
                                                                                                                                                  [A
 72%|███████████████████████████████████████████████████████████████████████████                             | 7221/10000 [07:25<03:03, 15.16it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[231080] loss: 0.068 


                                                                                                                                                  
 72%|███████████████████████████████████████████████████████████████████████████                             | 7221/10000 [07:25<03:03, 15.16it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 528.93it/s][A


[231100] loss: 0.056 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 831.54it/s][A

                                                                                                                                                  [A
 72%|███████████████████████████████████████████████████████████████████████████                             | 7221/10000 [07:25<03:03, 15.16it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[231120] loss: 0.053 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 559.12it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 980.21it/s][A
 72%|███████████████████████████████████████████████████████████████████████████                             | 7223/10000 [07:25<03:04, 15.02it/s]
                                                                                                                                                  [A
 72%|███████████████████████████████████████████████████████████████████████████                             | 7223/10000 [07:25<03:04, 15.02it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[231140] loss: 0.083 


                                                                                                                                                  
 72%|███████████████████████████████████████████████████████████████████████████                             | 7223/10000 [07:25<03:04, 15.02it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 526.05it/s][A


[231160] loss: 0.053 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1771.99it/s][A

                                                                                                                                                  [A
 72%|███████████████████████████████████████████████████████████████████████████                             | 7223/10000 [07:25<03:04, 15.02it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[231180] loss: 0.056 


                                                                                                                                                  
 72%|███████████████████████████████████████████████████████████████████████████                             | 7223/10000 [07:25<03:04, 15.02it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 569.54it/s][A


[231200] loss: 0.158 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 825.98it/s][A
 72%|███████████████████████████████████████████████████████████████████████████▏                            | 7225/10000 [07:25<03:04, 15.07it/s]
                                                                                                                                                  [A
 72%|███████████████████████████████████████████████████████████████████████████▏                            | 7225/10000 [07:25<03:04, 15.07it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 607.72it/s][A


[231220] loss: 0.038 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1737.49it/s][A

                                                                                                                                                  [A
 72%|███████████████████████████████████████████████████████████████████████████▏                            | 7225/10000 [07:25<03:04, 15.07it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[231240] loss: 0.045 


                                                                                                                                                  
 72%|███████████████████████████████████████████████████████████████████████████▏                            | 7225/10000 [07:25<03:04, 15.07it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[231260] loss: 0.063 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 559.43it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 840.21it/s][A
 72%|███████████████████████████████████████████████████████████████████████████▏                            | 7227/10000 [07:25<03:01, 15.29it/s]
                                                                                                                                                  [A
 72%|███████████████████████████████████████████████████████████████████████████▏                            | 7227/10000 [07:25<03:01, 15.29it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[231280] loss: 0.044 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 610.14it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 677.48it/s][A

                                                                                                                                                  [A
 72%|███████████████████████████████████████████████████████████████████████████▏                            | 7227/10000 [07:25<03:01, 15.29it/s]
                                                                                                                                                  [A
 72%|███████████████████████████████████████████████████████████████████████████▏                            | 7227/10000 [07:25<03:01, 15.29it/s]
Training Epoch:   0%|                                                                                      

[231300] loss: 0.060 
[231320] loss: 0.041 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 673.23it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 780.92it/s][A
 72%|███████████████████████████████████████████████████████████████████████████▏                            | 7229/10000 [07:25<02:55, 15.81it/s]
                                                                                                                                                  [A
 72%|███████████████████████████████████████████████████████████████████████████▏                            | 7229/10000 [07:25<02:55, 15.81it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[231340] loss: 0.048 


                                                                                                                                                  
 72%|███████████████████████████████████████████████████████████████████████████▏                            | 7229/10000 [07:25<02:55, 15.81it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 665.70it/s][A


[231360] loss: 0.032 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1525.76it/s][A

                                                                                                                                                  [A
 72%|███████████████████████████████████████████████████████████████████████████▏                            | 7229/10000 [07:25<02:55, 15.81it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 795.29it/s][A


[231380] loss: 0.089 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 865.52it/s][A
 72%|███████████████████████████████████████████████████████████████████████████▏                            | 7231/10000 [07:25<02:45, 16.72it/s]
                                                                                                                                                  [A
 72%|███████████████████████████████████████████████████████████████████████████▏                            | 7231/10000 [07:25<02:45, 16.72it/s]
                                                                                                                                                  [A
 72%|███████████████████████████████████████████████████████████████████████████▏                            | 7231/10000 [07:25<02:45, 16.72it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[231400] loss: 0.057 
[231420] loss: 0.078 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 678.36it/s][A

                                                                                                                                                  [A
 72%|███████████████████████████████████████████████████████████████████████████▏                            | 7231/10000 [07:25<02:45, 16.72it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 803.82it/s][A


[231440] loss: 0.056 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 546.49it/s][A
 72%|███████████████████████████████████████████████████████████████████████████▏                            | 7233/10000 [07:25<02:37, 17.54it/s]
                                                                                                                                                  [A
 72%|███████████████████████████████████████████████████████████████████████████▏                            | 7233/10000 [07:25<02:37, 17.54it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[231460] loss: 0.059 


                                                                                                                                                  
 72%|███████████████████████████████████████████████████████████████████████████▏                            | 7233/10000 [07:25<02:37, 17.54it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[231480] loss: 0.081 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 682.13it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1050.41it/s][A

                                                                                                                                                  [A
 72%|███████████████████████████████████████████████████████████████████████████▏                            | 7233/10000 [07:25<02:37, 17.54it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[231500] loss: 0.030 


                                                                                                                                                  
 72%|███████████████████████████████████████████████████████████████████████████▏                            | 7233/10000 [07:25<02:37, 17.54it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 716.84it/s][A


[231520] loss: 0.050 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 237.77it/s][A
 72%|███████████████████████████████████████████████████████████████████████████▏                            | 7235/10000 [07:25<02:35, 17.75it/s]
                                                                                                                                                  [A
 72%|███████████████████████████████████████████████████████████████████████████▏                            | 7235/10000 [07:25<02:35, 17.75it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 722.29it/s][A


[231540] loss: 0.051 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 725.78it/s][A

                                                                                                                                                  [A
 72%|███████████████████████████████████████████████████████████████████████████▏                            | 7235/10000 [07:25<02:35, 17.75it/s]
                                                                                                                                                  [A

[231560] loss: 0.060 



 72%|███████████████████████████████████████████████████████████████████████████▏                            | 7235/10000 [07:25<02:35, 17.75it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 551.78it/s][A


[231580] loss: 0.063 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 720.42it/s][A
 72%|███████████████████████████████████████████████████████████████████████████▎                            | 7237/10000 [07:25<02:39, 17.29it/s]
                                                                                                                                                  [A
 72%|███████████████████████████████████████████████████████████████████████████▎                            | 7237/10000 [07:25<02:39, 17.29it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[231600] loss: 0.065 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 694.99it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1810.23it/s][A

                                                                                                                                                  [A
 72%|███████████████████████████████████████████████████████████████████████████▎                            | 7237/10000 [07:26<02:39, 17.29it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[231620] loss: 0.067 


                                                                                                                                                  
 72%|███████████████████████████████████████████████████████████████████████████▎                            | 7237/10000 [07:26<02:39, 17.29it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[231640] loss: 0.028 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 635.91it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1945.41it/s][A
 72%|███████████████████████████████████████████████████████████████████████████▎                            | 7239/10000 [07:26<02:38, 17.39it/s]
                                                                                                                                                  [A
 72%|███████████████████████████████████████████████████████████████████████████▎                            | 7239/10000 [07:26<02:38, 17.39it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[231660] loss: 0.073 


                                                                                                                                                  
 72%|███████████████████████████████████████████████████████████████████████████▎                            | 7239/10000 [07:26<02:38, 17.39it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 610.43it/s][A


[231680] loss: 0.026 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1441.84it/s][A

                                                                                                                                                  [A
 72%|███████████████████████████████████████████████████████████████████████████▎                            | 7239/10000 [07:26<02:38, 17.39it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 717.71it/s][A


[231700] loss: 0.107 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 693.85it/s][A
 72%|███████████████████████████████████████████████████████████████████████████▎                            | 7241/10000 [07:26<02:38, 17.45it/s]
                                                                                                                                                  [A
 72%|███████████████████████████████████████████████████████████████████████████▎                            | 7241/10000 [07:26<02:38, 17.45it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[231720] loss: 0.041 


                                                                                                                                                  
 72%|███████████████████████████████████████████████████████████████████████████▎                            | 7241/10000 [07:26<02:38, 17.45it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 585.03it/s][A


[231740] loss: 0.054 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1425.18it/s][A

                                                                                                                                                  [A
 72%|███████████████████████████████████████████████████████████████████████████▎                            | 7241/10000 [07:26<02:38, 17.45it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 727.83it/s][A

[231760] loss: 0.058 




Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 810.49it/s][A
 72%|███████████████████████████████████████████████████████████████████████████▎                            | 7243/10000 [07:26<02:38, 17.41it/s]
                                                                                                                                                  [A
 72%|███████████████████████████████████████████████████████████████████████████▎                            | 7243/10000 [07:26<02:38, 17.41it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[231780] loss: 0.045 


                                                                                                                                                  
 72%|███████████████████████████████████████████████████████████████████████████▎                            | 7243/10000 [07:26<02:38, 17.41it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 590.74it/s][A


[231800] loss: 0.074 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1336.62it/s][A

                                                                                                                                                  [A
 72%|███████████████████████████████████████████████████████████████████████████▎                            | 7243/10000 [07:26<02:38, 17.41it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[231820] loss: 0.098 


                                                                                                                                                  
 72%|███████████████████████████████████████████████████████████████████████████▎                            | 7243/10000 [07:26<02:38, 17.41it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 582.22it/s][A


[231840] loss: 0.110 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1149.12it/s][A
 72%|███████████████████████████████████████████████████████████████████████████▎                            | 7245/10000 [07:26<02:43, 16.86it/s]
                                                                                                                                                  [A
 72%|███████████████████████████████████████████████████████████████████████████▎                            | 7245/10000 [07:26<02:43, 16.86it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[231860] loss: 0.047 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 715.68it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1002.22it/s][A

                                                                                                                                                  [A
 72%|███████████████████████████████████████████████████████████████████████████▎                            | 7245/10000 [07:26<02:43, 16.86it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[231880] loss: 0.052 


                                                                                                                                                  
 72%|███████████████████████████████████████████████████████████████████████████▎                            | 7245/10000 [07:26<02:43, 16.86it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 595.92it/s][A


[231900] loss: 0.049 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1310.72it/s][A
 72%|███████████████████████████████████████████████████████████████████████████▎                            | 7247/10000 [07:26<02:42, 16.96it/s]
                                                                                                                                                  [A
 72%|███████████████████████████████████████████████████████████████████████████▎                            | 7247/10000 [07:26<02:42, 16.96it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[231920] loss: 0.066 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 658.46it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 573.78it/s][A

                                                                                                                                                  [A
 72%|███████████████████████████████████████████████████████████████████████████▎                            | 7247/10000 [07:26<02:42, 16.96it/s]
                                                                                                                                                  [A
 72%|███████████████████████████████████████████████████████████████████████████▎                            | 7247/10000 [07:26<02:42, 16.96it/s]
Training Epoch:   0%|                                                                                      

[231940] loss: 0.043 
[231960] loss: 0.047 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 502.48it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 837.02it/s][A
 72%|███████████████████████████████████████████████████████████████████████████▍                            | 7249/10000 [07:26<02:49, 16.25it/s]
                                                                                                                                                  [A
 72%|███████████████████████████████████████████████████████████████████████████▍                            | 7249/10000 [07:26<02:49, 16.25it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[231980] loss: 0.058 


                                                                                                                                                  
 72%|███████████████████████████████████████████████████████████████████████████▍                            | 7249/10000 [07:26<02:49, 16.25it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 518.08it/s][A


[232000] loss: 0.071 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 988.06it/s][A

                                                                                                                                                  [A
 72%|███████████████████████████████████████████████████████████████████████████▍                            | 7249/10000 [07:26<02:49, 16.25it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 615.90it/s][A


[232020] loss: 0.045 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 517.50it/s][A
 73%|███████████████████████████████████████████████████████████████████████████▍                            | 7251/10000 [07:26<02:52, 15.89it/s]
                                                                                                                                                  [A
 73%|███████████████████████████████████████████████████████████████████████████▍                            | 7251/10000 [07:26<02:52, 15.89it/s]
                                                                                                                                                  [A
 73%|███████████████████████████████████████████████████████████████████████████▍                            | 7251/10000 [07:26<02:52, 15.89it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[232040] loss: 0.040 
[232060] loss: 0.091 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 544.15it/s][A

                                                                                                                                                  [A
 73%|███████████████████████████████████████████████████████████████████████████▍                            | 7251/10000 [07:26<02:52, 15.89it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[232080] loss: 0.066 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 528.33it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 774.43it/s][A
 73%|███████████████████████████████████████████████████████████████████████████▍                            | 7253/10000 [07:26<03:04, 14.89it/s]
                                                                                                                                                  [A
 73%|███████████████████████████████████████████████████████████████████████████▍                            | 7253/10000 [07:26<03:04, 14.89it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[232100] loss: 0.051 


                                                                                                                                                  
 73%|███████████████████████████████████████████████████████████████████████████▍                            | 7253/10000 [07:27<03:04, 14.89it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[232120] loss: 0.059 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 453.00it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1063.46it/s][A

                                                                                                                                                  [A
 73%|███████████████████████████████████████████████████████████████████████████▍                            | 7253/10000 [07:27<03:04, 14.89it/s]
                                                                                                                                                  [A
 73%|███████████████████████████████████████████████████████████████████████████▍                            | 7253/10000 [07:27<03:04, 14.89it/s]
Training Epoch: 100%|██████████████████████████████████████████████████████████████████████████████████████

[232140] loss: 0.070 
[232160] loss: 0.132 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 560.51it/s][A
 73%|███████████████████████████████████████████████████████████████████████████▍                            | 7255/10000 [07:27<03:14, 14.10it/s]
                                                                                                                                                  [A
 73%|███████████████████████████████████████████████████████████████████████████▍                            | 7255/10000 [07:27<03:14, 14.10it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[232180] loss: 0.035 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 545.39it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 876.74it/s][A

                                                                                                                                                  [A
 73%|███████████████████████████████████████████████████████████████████████████▍                            | 7255/10000 [07:27<03:14, 14.10it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[232200] loss: 0.064 


                                                                                                                                                  
 73%|███████████████████████████████████████████████████████████████████████████▍                            | 7255/10000 [07:27<03:14, 14.10it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 449.39it/s][A


[232220] loss: 0.062 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 545.78it/s][A
 73%|███████████████████████████████████████████████████████████████████████████▍                            | 7257/10000 [07:27<03:18, 13.85it/s]
                                                                                                                                                  [A
 73%|███████████████████████████████████████████████████████████████████████████▍                            | 7257/10000 [07:27<03:18, 13.85it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 602.46it/s][A


[232240] loss: 0.071 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 455.95it/s][A

                                                                                                                                                  [A
 73%|███████████████████████████████████████████████████████████████████████████▍                            | 7257/10000 [07:27<03:18, 13.85it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[232260] loss: 0.046 


                                                                                                                                                  
 73%|███████████████████████████████████████████████████████████████████████████▍                            | 7257/10000 [07:27<03:18, 13.85it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 473.62it/s][A


[232280] loss: 0.045 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 936.44it/s][A
 73%|███████████████████████████████████████████████████████████████████████████▍                            | 7259/10000 [07:27<03:17, 13.88it/s]
                                                                                                                                                  [A
 73%|███████████████████████████████████████████████████████████████████████████▍                            | 7259/10000 [07:27<03:17, 13.88it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[232300] loss: 0.067 


                                                                                                                                                  
 73%|███████████████████████████████████████████████████████████████████████████▍                            | 7259/10000 [07:27<03:17, 13.88it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 490.12it/s][A


[232320] loss: 0.038 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 504.91it/s][A

                                                                                                                                                  [A
 73%|███████████████████████████████████████████████████████████████████████████▍                            | 7259/10000 [07:27<03:17, 13.88it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 565.07it/s][A


[232340] loss: 0.081 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 927.12it/s][A
 73%|███████████████████████████████████████████████████████████████████████████▌                            | 7261/10000 [07:27<03:16, 13.96it/s]
                                                                                                                                                  [A
 73%|███████████████████████████████████████████████████████████████████████████▌                            | 7261/10000 [07:27<03:16, 13.96it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[232360] loss: 0.054 


                                                                                                                                                  
 73%|███████████████████████████████████████████████████████████████████████████▌                            | 7261/10000 [07:27<03:16, 13.96it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 495.37it/s][A


[232380] loss: 0.081 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 790.63it/s][A

                                                                                                                                                  [A
 73%|███████████████████████████████████████████████████████████████████████████▌                            | 7261/10000 [07:27<03:16, 13.96it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[232400] loss: 0.077 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 547.91it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1218.92it/s][A
 73%|███████████████████████████████████████████████████████████████████████████▌                            | 7263/10000 [07:27<03:16, 13.91it/s]
                                                                                                                                                  [A
 73%|███████████████████████████████████████████████████████████████████████████▌                            | 7263/10000 [07:27<03:16, 13.91it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[232420] loss: 0.032 


                                                                                                                                                  
 73%|███████████████████████████████████████████████████████████████████████████▌                            | 7263/10000 [07:27<03:16, 13.91it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 484.37it/s][A


[232440] loss: 0.070 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 800.75it/s][A

                                                                                                                                                  [A
 73%|███████████████████████████████████████████████████████████████████████████▌                            | 7263/10000 [07:27<03:16, 13.91it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[232460] loss: 0.045 


                                                                                                                                                  
 73%|███████████████████████████████████████████████████████████████████████████▌                            | 7263/10000 [07:27<03:16, 13.91it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 517.65it/s][A


[232480] loss: 0.087 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1418.43it/s][A
 73%|███████████████████████████████████████████████████████████████████████████▌                            | 7265/10000 [07:27<03:18, 13.75it/s]
                                                                                                                                                  [A
 73%|███████████████████████████████████████████████████████████████████████████▌                            | 7265/10000 [07:27<03:18, 13.75it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 793.92it/s][A


[232500] loss: 0.062 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 745.52it/s][A

                                                                                                                                                  [A
 73%|███████████████████████████████████████████████████████████████████████████▌                            | 7265/10000 [07:27<03:18, 13.75it/s]
                                                                                                                                                  [A
 73%|███████████████████████████████████████████████████████████████████████████▌                            | 7265/10000 [07:27<03:18, 13.75it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 659.54it/s][A


[232520] loss: 0.044 
[232540] loss: 0.053 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1391.15it/s][A
 73%|███████████████████████████████████████████████████████████████████████████▌                            | 7267/10000 [07:27<03:02, 14.99it/s]
                                                                                                                                                  [A
 73%|███████████████████████████████████████████████████████████████████████████▌                            | 7267/10000 [07:27<03:02, 14.99it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 766.84it/s][A


[232560] loss: 0.050 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 505.58it/s][A

                                                                                                                                                  [A
 73%|███████████████████████████████████████████████████████████████████████████▌                            | 7267/10000 [07:28<03:02, 14.99it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[232580] loss: 0.048 


                                                                                                                                                  
 73%|███████████████████████████████████████████████████████████████████████████▌                            | 7267/10000 [07:28<03:02, 14.99it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 705.89it/s][A


[232600] loss: 0.039 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 485.68it/s][A
 73%|███████████████████████████████████████████████████████████████████████████▌                            | 7269/10000 [07:28<02:53, 15.79it/s]
                                                                                                                                                  [A
 73%|███████████████████████████████████████████████████████████████████████████▌                            | 7269/10000 [07:28<02:53, 15.79it/s]
                                                                                                                                                  [A
 73%|███████████████████████████████████████████████████████████████████████████▌                            | 7269/10000 [07:28<02:53, 15.79it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[232620] loss: 0.083 
[232640] loss: 0.061 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2184.53it/s][A

                                                                                                                                                  [A
 73%|███████████████████████████████████████████████████████████████████████████▌                            | 7269/10000 [07:28<02:53, 15.79it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 817.02it/s][A


[232660] loss: 0.075 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1061.04it/s][A
 73%|███████████████████████████████████████████████████████████████████████████▌                            | 7271/10000 [07:28<02:42, 16.76it/s]
                                                                                                                                                  [A
 73%|███████████████████████████████████████████████████████████████████████████▌                            | 7271/10000 [07:28<02:42, 16.76it/s]
                                                                                                                                                  [A
 73%|███████████████████████████████████████████████████████████████████████████▌                            | 7271/10000 [07:28<02:42, 16.76it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[232680] loss: 0.039 
[232700] loss: 0.071 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1515.83it/s][A

                                                                                                                                                  [A
 73%|███████████████████████████████████████████████████████████████████████████▌                            | 7271/10000 [07:28<02:42, 16.76it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 796.52it/s][A


[232720] loss: 0.072 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 769.60it/s][A
 73%|███████████████████████████████████████████████████████████████████████████▋                            | 7273/10000 [07:28<02:36, 17.44it/s]
                                                                                                                                                  [A
 73%|███████████████████████████████████████████████████████████████████████████▋                            | 7273/10000 [07:28<02:36, 17.44it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[232740] loss: 0.084 


                                                                                                                                                  
 73%|███████████████████████████████████████████████████████████████████████████▋                            | 7273/10000 [07:28<02:36, 17.44it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 669.36it/s][A


[232760] loss: 0.051 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1431.99it/s][A

                                                                                                                                                  [A
 73%|███████████████████████████████████████████████████████████████████████████▋                            | 7273/10000 [07:28<02:36, 17.44it/s]
                                                                                                                                                  [A
 73%|███████████████████████████████████████████████████████████████████████████▋                            | 7273/10000 [07:28<02:36, 17.44it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 698.00it/s][A


[232780] loss: 0.058 
[232800] loss: 0.092 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 313.26it/s][A
 73%|███████████████████████████████████████████████████████████████████████████▋                            | 7275/10000 [07:28<02:35, 17.55it/s]
                                                                                                                                                  [A
 73%|███████████████████████████████████████████████████████████████████████████▋                            | 7275/10000 [07:28<02:35, 17.55it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 811.45it/s][A


[232820] loss: 0.064 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 707.90it/s][A

                                                                                                                                                  [A
 73%|███████████████████████████████████████████████████████████████████████████▋                            | 7275/10000 [07:28<02:35, 17.55it/s]
                                                                                                                                                  [A
 73%|███████████████████████████████████████████████████████████████████████████▋                            | 7275/10000 [07:28<02:35, 17.55it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[232840] loss: 0.044 
[232860] loss: 0.070 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 621.47it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1287.78it/s][A
 73%|███████████████████████████████████████████████████████████████████████████▋                            | 7277/10000 [07:28<02:32, 17.87it/s]
                                                                                                                                                  [A
 73%|███████████████████████████████████████████████████████████████████████████▋                            | 7277/10000 [07:28<02:32, 17.87it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 761.93it/s][A


[232880] loss: 0.058 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 927.74it/s][A

                                                                                                                                                  [A
 73%|███████████████████████████████████████████████████████████████████████████▋                            | 7277/10000 [07:28<02:32, 17.87it/s]
                                                                                                                                                  [A
 73%|███████████████████████████████████████████████████████████████████████████▋                            | 7277/10000 [07:28<02:32, 17.87it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 670.07it/s][A


[232900] loss: 0.046 
[232920] loss: 0.064 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 924.06it/s][A
 73%|███████████████████████████████████████████████████████████████████████████▋                            | 7279/10000 [07:28<02:30, 18.06it/s]
                                                                                                                                                  [A
 73%|███████████████████████████████████████████████████████████████████████████▋                            | 7279/10000 [07:28<02:30, 18.06it/s]
                                                                                                                                                  [A
 73%|███████████████████████████████████████████████████████████████████████████▋                            | 7279/10000 [07:28<02:30, 18.06it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[232940] loss: 0.040 
[232960] loss: 0.184 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 229.54it/s][A

                                                                                                                                                  [A
 73%|███████████████████████████████████████████████████████████████████████████▋                            | 7279/10000 [07:28<02:30, 18.06it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 745.98it/s][A


[232980] loss: 0.038 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 736.10it/s][A
 73%|███████████████████████████████████████████████████████████████████████████▋                            | 7281/10000 [07:28<02:28, 18.32it/s]
                                                                                                                                                  [A
 73%|███████████████████████████████████████████████████████████████████████████▋                            | 7281/10000 [07:28<02:28, 18.32it/s]
                                                                                                                                                  [A
 73%|███████████████████████████████████████████████████████████████████████████▋                            | 7281/10000 [07:28<02:28, 18.32it/s]
Training Epoch:   0%|                                                                                       

[233000] loss: 0.045 
[233020] loss: 0.090 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 661.41it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1293.74it/s][A

                                                                                                                                                  [A
 73%|███████████████████████████████████████████████████████████████████████████▋                            | 7281/10000 [07:28<02:28, 18.32it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 696.64it/s][A


[233040] loss: 0.072 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 598.50it/s][A
 73%|███████████████████████████████████████████████████████████████████████████▋                            | 7283/10000 [07:28<02:29, 18.15it/s]
                                                                                                                                                  [A
 73%|███████████████████████████████████████████████████████████████████████████▋                            | 7283/10000 [07:28<02:29, 18.15it/s]
                                                                                                                                                  [A
 73%|███████████████████████████████████████████████████████████████████████████▋                            | 7283/10000 [07:28<02:29, 18.15it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[233060] loss: 0.066 
[233080] loss: 0.054 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 549.50it/s][A

                                                                                                                                                  [A
 73%|███████████████████████████████████████████████████████████████████████████▋                            | 7283/10000 [07:28<02:29, 18.15it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[233100] loss: 0.077 


                                                                                                                                                  
 73%|███████████████████████████████████████████████████████████████████████████▋                            | 7283/10000 [07:28<02:29, 18.15it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 575.86it/s][A


[233120] loss: 0.012 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1326.89it/s][A
 73%|███████████████████████████████████████████████████████████████████████████▊                            | 7285/10000 [07:28<02:36, 17.35it/s]
                                                                                                                                                  [A
 73%|███████████████████████████████████████████████████████████████████████████▊                            | 7285/10000 [07:28<02:36, 17.35it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[233140] loss: 0.051 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 731.73it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 615.09it/s][A

                                                                                                                                                  [A
 73%|███████████████████████████████████████████████████████████████████████████▊                            | 7285/10000 [07:29<02:36, 17.35it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[233160] loss: 0.042 


                                                                                                                                                  
 73%|███████████████████████████████████████████████████████████████████████████▊                            | 7285/10000 [07:29<02:36, 17.35it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 485.66it/s][A


[233180] loss: 0.097 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 404.62it/s][A
 73%|███████████████████████████████████████████████████████████████████████████▊                            | 7287/10000 [07:29<02:43, 16.63it/s]
                                                                                                                                                  [A
 73%|███████████████████████████████████████████████████████████████████████████▊                            | 7287/10000 [07:29<02:43, 16.63it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[233200] loss: 0.076 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 535.41it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1551.15it/s][A

                                                                                                                                                  [A
 73%|███████████████████████████████████████████████████████████████████████████▊                            | 7287/10000 [07:29<02:43, 16.63it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[233220] loss: 0.049 


                                                                                                                                                  
 73%|███████████████████████████████████████████████████████████████████████████▊                            | 7287/10000 [07:29<02:43, 16.63it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 506.19it/s][A


[233240] loss: 0.054 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 463.77it/s][A
 73%|███████████████████████████████████████████████████████████████████████████▊                            | 7289/10000 [07:29<02:52, 15.75it/s]
                                                                                                                                                  [A
 73%|███████████████████████████████████████████████████████████████████████████▊                            | 7289/10000 [07:29<02:52, 15.75it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[233260] loss: 0.074 


                                                                                                                                                  
 73%|███████████████████████████████████████████████████████████████████████████▊                            | 7289/10000 [07:29<02:52, 15.75it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 533.53it/s][A


[233280] loss: 0.173 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 703.86it/s][A

                                                                                                                                                  [A
 73%|███████████████████████████████████████████████████████████████████████████▊                            | 7289/10000 [07:29<02:52, 15.75it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 646.25it/s][A


[233300] loss: 0.063 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 625.27it/s][A
 73%|███████████████████████████████████████████████████████████████████████████▊                            | 7291/10000 [07:29<02:51, 15.78it/s]
                                                                                                                                                  [A
 73%|███████████████████████████████████████████████████████████████████████████▊                            | 7291/10000 [07:29<02:51, 15.78it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[233320] loss: 0.056 


                                                                                                                                                  
 73%|███████████████████████████████████████████████████████████████████████████▊                            | 7291/10000 [07:29<02:51, 15.78it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 492.00it/s][A


[233340] loss: 0.078 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 912.80it/s][A

                                                                                                                                                  [A
 73%|███████████████████████████████████████████████████████████████████████████▊                            | 7291/10000 [07:29<02:51, 15.78it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 598.50it/s][A


[233360] loss: 0.034 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1703.62it/s][A
 73%|███████████████████████████████████████████████████████████████████████████▊                            | 7293/10000 [07:29<02:56, 15.38it/s]
                                                                                                                                                  [A
 73%|███████████████████████████████████████████████████████████████████████████▊                            | 7293/10000 [07:29<02:56, 15.38it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[233380] loss: 0.059 


                                                                                                                                                  
 73%|███████████████████████████████████████████████████████████████████████████▊                            | 7293/10000 [07:29<02:56, 15.38it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 496.10it/s][A


[233400] loss: 0.055 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 518.65it/s][A

                                                                                                                                                  [A
 73%|███████████████████████████████████████████████████████████████████████████▊                            | 7293/10000 [07:29<02:56, 15.38it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[233420] loss: 0.038 


                                                                                                                                                  
 73%|███████████████████████████████████████████████████████████████████████████▊                            | 7293/10000 [07:29<02:56, 15.38it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 543.51it/s][A


[233440] loss: 0.042 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 417.76it/s][A
 73%|███████████████████████████████████████████████████████████████████████████▊                            | 7295/10000 [07:29<03:00, 14.99it/s]
                                                                                                                                                  [A
 73%|███████████████████████████████████████████████████████████████████████████▊                            | 7295/10000 [07:29<03:00, 14.99it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 568.97it/s][A


[233460] loss: 0.051 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 899.10it/s][A

                                                                                                                                                  [A
 73%|███████████████████████████████████████████████████████████████████████████▊                            | 7295/10000 [07:29<03:00, 14.99it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[233480] loss: 0.083 


                                                                                                                                                  
 73%|███████████████████████████████████████████████████████████████████████████▊                            | 7295/10000 [07:29<03:00, 14.99it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 505.67it/s][A


[233500] loss: 0.071 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 772.86it/s][A
 73%|███████████████████████████████████████████████████████████████████████████▉                            | 7297/10000 [07:29<03:01, 14.91it/s]
                                                                                                                                                  [A
 73%|███████████████████████████████████████████████████████████████████████████▉                            | 7297/10000 [07:29<03:01, 14.91it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[233520] loss: 0.038 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 518.27it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 480.12it/s][A

                                                                                                                                                  [A
 73%|███████████████████████████████████████████████████████████████████████████▉                            | 7297/10000 [07:29<03:01, 14.91it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[233540] loss: 0.028 


                                                                                                                                                  
 73%|███████████████████████████████████████████████████████████████████████████▉                            | 7297/10000 [07:29<03:01, 14.91it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 509.56it/s][A


[233560] loss: 0.080 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 582.79it/s][A
 73%|███████████████████████████████████████████████████████████████████████████▉                            | 7299/10000 [07:29<03:04, 14.65it/s]
                                                                                                                                                  [A
 73%|███████████████████████████████████████████████████████████████████████████▉                            | 7299/10000 [07:29<03:04, 14.65it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[233580] loss: 0.064 


                                                                                                                                                  
 73%|███████████████████████████████████████████████████████████████████████████▉                            | 7299/10000 [07:29<03:04, 14.65it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 492.00it/s][A


[233600] loss: 0.054 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 460.71it/s][A

                                                                                                                                                  [A
[A                                                                                                                                               IOPub message rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_msg_rate_limit`.

Current values:
NotebookApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
NotebookApp.rate_limit_window=3.0 (secs)


                                                                                                                                                  [A
 78%|███████████████████████████████████████████████████████████████████████

[248360] loss: 0.056 


                                                                                                                                                  
 78%|████████████████████████████████████████████████████████████████████████████████▋                       | 7761/10000 [07:57<02:24, 15.49it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 624.38it/s][A


[248380] loss: 0.066 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 876.19it/s][A

                                                                                                                                                  [A
 78%|████████████████████████████████████████████████████████████████████████████████▋                       | 7761/10000 [07:57<02:24, 15.49it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 956.54it/s][A


[248400] loss: 0.077 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1883.39it/s][A
 78%|████████████████████████████████████████████████████████████████████████████████▋                       | 7763/10000 [07:57<02:15, 16.55it/s]
                                                                                                                                                  [A
 78%|████████████████████████████████████████████████████████████████████████████████▋                       | 7763/10000 [07:57<02:15, 16.55it/s]
                                                                                                                                                  [A
[A                                                                                                                                               

[248420] loss: 0.058 
[248440] loss: 0.064 


 78%|████████████████████████████████████████████████████████████████████████████████▋                       | 7763/10000 [07:58<02:15, 16.55it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 796.75it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1950.84it/s][A

                                                                                                                                                  [A
 78%|████████████████████████████████████████████████████████████████████████████████▋                       | 7763/10000 [07:58<02:15, 16.55it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[248460] loss: 0.037 


                                                                                                                                                  
 78%|████████████████████████████████████████████████████████████████████████████████▋                       | 7763/10000 [07:58<02:15, 16.55it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 797.42it/s][A


[248480] loss: 0.027 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2013.59it/s][A

                                                                                                                                                  [A
 78%|████████████████████████████████████████████████████████████████████████████████▋                       | 7763/10000 [07:58<02:15, 16.55it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 930.99it/s][A


[248500] loss: 0.071 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 643.99it/s][A
 78%|████████████████████████████████████████████████████████████████████████████████▊                       | 7766/10000 [07:58<02:02, 18.22it/s]
                                                                                                                                                  [A
 78%|████████████████████████████████████████████████████████████████████████████████▊                       | 7766/10000 [07:58<02:02, 18.22it/s]
                                                                                                                                                  [A
 78%|████████████████████████████████████████████████████████████████████████████████▊                       | 7766/10000 [07:58<02:02, 18.22it/s]
Training Epoch:   0%|                                                                                       

[248520] loss: 0.033 
[248540] loss: 0.073 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 852.28it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2212.19it/s][A

                                                                                                                                                  [A
 78%|████████████████████████████████████████████████████████████████████████████████▊                       | 7766/10000 [07:58<02:02, 18.22it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[248560] loss: 0.056 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 813.95it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1806.33it/s][A

                                                                                                                                                  [A
 78%|████████████████████████████████████████████████████████████████████████████████▊                       | 7766/10000 [07:58<02:02, 18.22it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[248580] loss: 0.052 


                                                                                                                                                  
 78%|████████████████████████████████████████████████████████████████████████████████▊                       | 7766/10000 [07:58<02:02, 18.22it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 657.12it/s][A


[248600] loss: 0.092 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1559.22it/s][A
 78%|████████████████████████████████████████████████████████████████████████████████▊                       | 7769/10000 [07:58<01:58, 18.87it/s]
                                                                                                                                                  [A
 78%|████████████████████████████████████████████████████████████████████████████████▊                       | 7769/10000 [07:58<01:58, 18.87it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[248620] loss: 0.045 


                                                                                                                                                  
 78%|████████████████████████████████████████████████████████████████████████████████▊                       | 7769/10000 [07:58<01:58, 18.87it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 735.92it/s][A


[248640] loss: 0.060 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 290.02it/s][A

                                                                                                                                                  [A
 78%|████████████████████████████████████████████████████████████████████████████████▊                       | 7769/10000 [07:58<01:58, 18.87it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 815.09it/s][A


[248660] loss: 0.057 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 859.14it/s][A
 78%|████████████████████████████████████████████████████████████████████████████████▊                       | 7771/10000 [07:58<01:57, 19.03it/s]
                                                                                                                                                  [A
[A                                                                                                                                               

[248680] loss: 0.033 


 78%|████████████████████████████████████████████████████████████████████████████████▊                       | 7771/10000 [07:58<01:57, 19.03it/s]
                                                                                                                                                  [A
 78%|████████████████████████████████████████████████████████████████████████████████▊                       | 7771/10000 [07:58<01:57, 19.03it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 698.80it/s][A


[248700] loss: 0.075 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1513.10it/s][A

                                                                                                                                                  [A
 78%|████████████████████████████████████████████████████████████████████████████████▊                       | 7771/10000 [07:58<01:57, 19.03it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[248720] loss: 0.060 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 832.29it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 830.06it/s][A
 78%|████████████████████████████████████████████████████████████████████████████████▊                       | 7773/10000 [07:58<01:55, 19.25it/s]
                                                                                                                                                  [A
 78%|████████████████████████████████████████████████████████████████████████████████▊                       | 7773/10000 [07:58<01:55, 19.25it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[248740] loss: 0.033 


                                                                                                                                                  
 78%|████████████████████████████████████████████████████████████████████████████████▊                       | 7773/10000 [07:58<01:55, 19.25it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[248760] loss: 0.072 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 752.60it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1519.12it/s][A

                                                                                                                                                  [A
 78%|████████████████████████████████████████████████████████████████████████████████▊                       | 7773/10000 [07:58<01:55, 19.25it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[248780] loss: 0.051 


                                                                                                                                                  
 78%|████████████████████████████████████████████████████████████████████████████████▊                       | 7773/10000 [07:58<01:55, 19.25it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 725.39it/s][A


[248800] loss: 0.026 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 347.47it/s][A
 78%|████████████████████████████████████████████████████████████████████████████████▊                       | 7775/10000 [07:58<01:55, 19.29it/s]
                                                                                                                                                  [A
 78%|████████████████████████████████████████████████████████████████████████████████▊                       | 7775/10000 [07:58<01:55, 19.29it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[248820] loss: 0.093 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 704.55it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1332.37it/s][A

                                                                                                                                                  [A
 78%|████████████████████████████████████████████████████████████████████████████████▊                       | 7775/10000 [07:58<01:55, 19.29it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[248840] loss: 0.079 


                                                                                                                                                  
 78%|████████████████████████████████████████████████████████████████████████████████▊                       | 7775/10000 [07:58<01:55, 19.29it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 674.33it/s][A


[248860] loss: 0.055 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1592.98it/s][A
 78%|████████████████████████████████████████████████████████████████████████████████▉                       | 7777/10000 [07:58<01:56, 19.03it/s]
                                                                                                                                                  [A
 78%|████████████████████████████████████████████████████████████████████████████████▉                       | 7777/10000 [07:58<01:56, 19.03it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 758.59it/s][A


[248880] loss: 0.050 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 827.77it/s][A

                                                                                                                                                  [A
 78%|████████████████████████████████████████████████████████████████████████████████▉                       | 7777/10000 [07:58<01:56, 19.03it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[248900] loss: 0.066 


                                                                                                                                                  
 78%|████████████████████████████████████████████████████████████████████████████████▉                       | 7777/10000 [07:58<01:56, 19.03it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 626.11it/s][A


[248920] loss: 0.046 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1347.78it/s][A
 78%|████████████████████████████████████████████████████████████████████████████████▉                       | 7779/10000 [07:58<01:58, 18.82it/s]
                                                                                                                                                  [A
 78%|████████████████████████████████████████████████████████████████████████████████▉                       | 7779/10000 [07:58<01:58, 18.82it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[248940] loss: 0.051 


                                                                                                                                                  
 78%|████████████████████████████████████████████████████████████████████████████████▉                       | 7779/10000 [07:58<01:58, 18.82it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 518.98it/s][A


[248960] loss: 0.094 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 469.63it/s][A

                                                                                                                                                  [A
 78%|████████████████████████████████████████████████████████████████████████████████▉                       | 7779/10000 [07:58<01:58, 18.82it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[248980] loss: 0.057 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 606.73it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 956.51it/s][A
 78%|████████████████████████████████████████████████████████████████████████████████▉                       | 7781/10000 [07:58<02:05, 17.62it/s]
                                                                                                                                                  [A
 78%|████████████████████████████████████████████████████████████████████████████████▉                       | 7781/10000 [07:58<02:05, 17.62it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[249000] loss: 0.051 


                                                                                                                                                  
 78%|████████████████████████████████████████████████████████████████████████████████▉                       | 7781/10000 [07:58<02:05, 17.62it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 541.93it/s][A


[249020] loss: 0.116 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 817.60it/s][A

                                                                                                                                                  [A
 78%|████████████████████████████████████████████████████████████████████████████████▉                       | 7781/10000 [07:59<02:05, 17.62it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 590.27it/s][A


[249040] loss: 0.066 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 584.73it/s][A
 78%|████████████████████████████████████████████████████████████████████████████████▉                       | 7783/10000 [07:59<02:11, 16.84it/s]
                                                                                                                                                  [A
 78%|████████████████████████████████████████████████████████████████████████████████▉                       | 7783/10000 [07:59<02:11, 16.84it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[249060] loss: 0.066 


                                                                                                                                                  
 78%|████████████████████████████████████████████████████████████████████████████████▉                       | 7783/10000 [07:59<02:11, 16.84it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 518.69it/s][A


[249080] loss: 0.040 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 698.12it/s][A

                                                                                                                                                  [A
 78%|████████████████████████████████████████████████████████████████████████████████▉                       | 7783/10000 [07:59<02:11, 16.84it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[249100] loss: 0.061 


                                                                                                                                                  
 78%|████████████████████████████████████████████████████████████████████████████████▉                       | 7783/10000 [07:59<02:11, 16.84it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 464.01it/s][A


[249120] loss: 0.040 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1065.08it/s][A
 78%|████████████████████████████████████████████████████████████████████████████████▉                       | 7785/10000 [07:59<02:21, 15.68it/s]
                                                                                                                                                  [A
 78%|████████████████████████████████████████████████████████████████████████████████▉                       | 7785/10000 [07:59<02:21, 15.68it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 663.89it/s][A


[249140] loss: 0.075 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 480.78it/s][A

                                                                                                                                                  [A
 78%|████████████████████████████████████████████████████████████████████████████████▉                       | 7785/10000 [07:59<02:21, 15.68it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[249160] loss: 0.067 


                                                                                                                                                  
 78%|████████████████████████████████████████████████████████████████████████████████▉                       | 7785/10000 [07:59<02:21, 15.68it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 603.68it/s][A


[249180] loss: 0.050 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1083.80it/s][A
 78%|████████████████████████████████████████████████████████████████████████████████▉                       | 7787/10000 [07:59<02:17, 16.13it/s]
                                                                                                                                                  [A
 78%|████████████████████████████████████████████████████████████████████████████████▉                       | 7787/10000 [07:59<02:17, 16.13it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[249200] loss: 0.074 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 653.08it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1066.71it/s][A

                                                                                                                                                  [A
 78%|████████████████████████████████████████████████████████████████████████████████▉                       | 7787/10000 [07:59<02:17, 16.13it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[249220] loss: 0.052 


                                                                                                                                                  
 78%|████████████████████████████████████████████████████████████████████████████████▉                       | 7787/10000 [07:59<02:17, 16.13it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 572.65it/s][A


[249240] loss: 0.058 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 872.54it/s][A
 78%|█████████████████████████████████████████████████████████████████████████████████                       | 7789/10000 [07:59<02:15, 16.36it/s]
                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████                       | 7789/10000 [07:59<02:15, 16.36it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[249260] loss: 0.055 


                                                                                                                                                  
 78%|█████████████████████████████████████████████████████████████████████████████████                       | 7789/10000 [07:59<02:15, 16.36it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 547.86it/s][A


[249280] loss: 0.114 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1053.05it/s][A

                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████                       | 7789/10000 [07:59<02:15, 16.36it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[249300] loss: 0.086 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 618.93it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1052.52it/s][A
 78%|█████████████████████████████████████████████████████████████████████████████████                       | 7791/10000 [07:59<02:15, 16.34it/s]
                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████                       | 7791/10000 [07:59<02:15, 16.34it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[249320] loss: 0.036 


                                                                                                                                                  
 78%|█████████████████████████████████████████████████████████████████████████████████                       | 7791/10000 [07:59<02:15, 16.34it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 577.71it/s][A


[249340] loss: 0.036 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 869.11it/s][A

                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████                       | 7791/10000 [07:59<02:15, 16.34it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[249360] loss: 0.055 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 574.78it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1061.04it/s][A
 78%|█████████████████████████████████████████████████████████████████████████████████                       | 7793/10000 [07:59<02:15, 16.30it/s]
                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████                       | 7793/10000 [07:59<02:15, 16.30it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[249380] loss: 0.030 


                                                                                                                                                  
 78%|█████████████████████████████████████████████████████████████████████████████████                       | 7793/10000 [07:59<02:15, 16.30it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[249400] loss: 0.052 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 519.74it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1022.25it/s][A

                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████                       | 7793/10000 [07:59<02:15, 16.30it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[249420] loss: 0.025 


                                                                                                                                                  
 78%|█████████████████████████████████████████████████████████████████████████████████                       | 7793/10000 [07:59<02:15, 16.30it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 509.12it/s][A


[249440] loss: 0.187 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 467.49it/s][A
 78%|█████████████████████████████████████████████████████████████████████████████████                       | 7795/10000 [07:59<02:21, 15.54it/s]
                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████                       | 7795/10000 [07:59<02:21, 15.54it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 650.78it/s][A


[249460] loss: 0.108 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 540.50it/s][A

                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████                       | 7795/10000 [07:59<02:21, 15.54it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[249480] loss: 0.062 


                                                                                                                                                  
 78%|█████████████████████████████████████████████████████████████████████████████████                       | 7795/10000 [07:59<02:21, 15.54it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 556.05it/s][A


[249500] loss: 0.071 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1423.73it/s][A
 78%|█████████████████████████████████████████████████████████████████████████████████                       | 7797/10000 [07:59<02:20, 15.65it/s]
                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████                       | 7797/10000 [07:59<02:20, 15.65it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[249520] loss: 0.059 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 840.46it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 862.14it/s][A

                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████                       | 7797/10000 [07:59<02:20, 15.65it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[249540] loss: 0.056 


                                                                                                                                                  
 78%|█████████████████████████████████████████████████████████████████████████████████                       | 7797/10000 [08:00<02:20, 15.65it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 683.88it/s][A


[249560] loss: 0.049 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1334.92it/s][A
 78%|█████████████████████████████████████████████████████████████████████████████████                       | 7799/10000 [08:00<02:12, 16.65it/s]
                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████                       | 7799/10000 [08:00<02:12, 16.65it/s]
                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████                       | 7799/10000 [08:00<02:12, 16.65it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[249580] loss: 0.062 
[249600] loss: 0.131 




Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1193.26it/s][A

                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████                       | 7799/10000 [08:00<02:12, 16.65it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[249620] loss: 0.071 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 773.34it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1778.00it/s][A
 78%|█████████████████████████████████████████████████████████████████████████████████▏                      | 7801/10000 [08:00<02:06, 17.34it/s]
                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████▏                      | 7801/10000 [08:00<02:06, 17.34it/s]


[249640] loss: 0.087 


                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████▏                      | 7801/10000 [08:00<02:06, 17.34it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 698.94it/s][A


[249660] loss: 0.069 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1422.28it/s][A

                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████▏                      | 7801/10000 [08:00<02:06, 17.34it/s]

[249680] loss: 0.062 



Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 764.18it/s][A

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 569.80it/s][A
 78%|█████████████████████████████████████████████████████████████████████████████████▏                      | 7803/10000 [08:00<02:03, 17.83it/s]
                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████▏                      | 7803/10000 [08:00<02:03, 17.83it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[249700] loss: 0.060 


                                                                                                                                                  
 78%|█████████████████████████████████████████████████████████████████████████████████▏                      | 7803/10000 [08:00<02:03, 17.83it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 740.75it/s][A


[249720] loss: 0.046 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2216.86it/s][A

                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████▏                      | 7803/10000 [08:00<02:03, 17.83it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[249740] loss: 0.051 


                                                                                                                                                  
 78%|█████████████████████████████████████████████████████████████████████████████████▏                      | 7803/10000 [08:00<02:03, 17.83it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 749.72it/s][A


[249760] loss: 0.105 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1580.97it/s][A
 78%|█████████████████████████████████████████████████████████████████████████████████▏                      | 7805/10000 [08:00<01:59, 18.40it/s]
                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████▏                      | 7805/10000 [08:00<01:59, 18.40it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[249780] loss: 0.063 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 876.38it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2372.34it/s][A

                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████▏                      | 7805/10000 [08:00<01:59, 18.40it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[249800] loss: 0.072 


                                                                                                                                                  
 78%|█████████████████████████████████████████████████████████████████████████████████▏                      | 7805/10000 [08:00<01:59, 18.40it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 730.02it/s][A


[249820] loss: 0.134 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1590.56it/s][A

                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████▏                      | 7805/10000 [08:00<01:59, 18.40it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 834.70it/s][A


[249840] loss: 0.044 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2351.07it/s][A
 78%|█████████████████████████████████████████████████████████████████████████████████▏                      | 7808/10000 [08:00<01:51, 19.69it/s]
                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████▏                      | 7808/10000 [08:00<01:51, 19.69it/s]
                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████▏                      | 7808/10000 [08:00<01:51, 19.69it/s]

[249860] loss: 0.064 
[249880] loss: 0.063 



Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 800.97it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1608.25it/s][A

                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████▏                      | 7808/10000 [08:00<01:51, 19.69it/s]
                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████▏                      | 7808/10000 [08:00<01:51, 19.69it/s]
Training Epoch: 100%|██████████████████████████████████████████████████████████████████████████████████

[249900] loss: 0.042 
[249920] loss: 0.041 




Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1493.17it/s][A

                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████▏                      | 7808/10000 [08:00<01:51, 19.69it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 792.52it/s][A


[249940] loss: 0.081 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 885.25it/s][A
 78%|█████████████████████████████████████████████████████████████████████████████████▏                      | 7811/10000 [08:00<01:48, 20.19it/s]
                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████▏                      | 7811/10000 [08:00<01:48, 20.19it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[249960] loss: 0.054 


                                                                                                                                                  
 78%|█████████████████████████████████████████████████████████████████████████████████▏                      | 7811/10000 [08:00<01:48, 20.19it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 655.43it/s][A


[249980] loss: 0.054 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1428.58it/s][A

                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████▏                      | 7811/10000 [08:00<01:48, 20.19it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 728.26it/s][A


[250000] loss: 0.086 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 573.62it/s][A

                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████▏                      | 7811/10000 [08:00<01:48, 20.19it/s]
                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████▏                      | 7811/10000 [08:00<01:48, 20.19it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 711.11it/s][A


[250020] loss: 0.057 
[250040] loss: 0.034 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 790.04it/s][A
 78%|█████████████████████████████████████████████████████████████████████████████████▎                      | 7814/10000 [08:00<01:51, 19.52it/s]
                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████▎                      | 7814/10000 [08:00<01:51, 19.52it/s]
                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████▎                      | 7814/10000 [08:00<01:51, 19.52it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[250060] loss: 0.050 
[250080] loss: 0.044 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 439.65it/s][A

                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████▎                      | 7814/10000 [08:00<01:51, 19.52it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[250100] loss: 0.059 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 801.65it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 926.71it/s][A

                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████▎                      | 7814/10000 [08:00<01:51, 19.52it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[250120] loss: 0.032 


                                                                                                                                                  
 78%|█████████████████████████████████████████████████████████████████████████████████▎                      | 7814/10000 [08:00<01:51, 19.52it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 567.81it/s][A


[250140] loss: 0.038 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 825.65it/s][A
 78%|█████████████████████████████████████████████████████████████████████████████████▎                      | 7817/10000 [08:00<01:54, 19.12it/s]
                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████▎                      | 7817/10000 [08:00<01:54, 19.12it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 666.39it/s][A


[250160] loss: 0.071 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1034.10it/s][A

                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████▎                      | 7817/10000 [08:01<01:54, 19.12it/s]
                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████▎                      | 7817/10000 [08:01<01:54, 19.12it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 630.23it/s][A


[250180] loss: 0.043 
[250200] loss: 0.061 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 835.85it/s][A
 78%|█████████████████████████████████████████████████████████████████████████████████▎                      | 7819/10000 [08:01<01:56, 18.75it/s]
                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████▎                      | 7819/10000 [08:01<01:56, 18.75it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[250220] loss: 0.063 


                                                                                                                                                  
 78%|█████████████████████████████████████████████████████████████████████████████████▎                      | 7819/10000 [08:01<01:56, 18.75it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 669.69it/s][A


[250240] loss: 0.065 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 390.49it/s][A

                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████▎                      | 7819/10000 [08:01<01:56, 18.75it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 708.14it/s][A


[250260] loss: 0.081 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 601.42it/s][A
 78%|█████████████████████████████████████████████████████████████████████████████████▎                      | 7821/10000 [08:01<01:56, 18.69it/s]
                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████▎                      | 7821/10000 [08:01<01:56, 18.69it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[250280] loss: 0.046 


                                                                                                                                                  
 78%|█████████████████████████████████████████████████████████████████████████████████▎                      | 7821/10000 [08:01<01:56, 18.69it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 531.58it/s][A


[250300] loss: 0.075 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 838.53it/s][A

                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████▎                      | 7821/10000 [08:01<01:56, 18.69it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[250320] loss: 0.059 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 578.40it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 583.51it/s][A
 78%|█████████████████████████████████████████████████████████████████████████████████▎                      | 7823/10000 [08:01<02:03, 17.61it/s]
                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████▎                      | 7823/10000 [08:01<02:03, 17.61it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[250340] loss: 0.028 


                                                                                                                                                  
 78%|█████████████████████████████████████████████████████████████████████████████████▎                      | 7823/10000 [08:01<02:03, 17.61it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 519.33it/s][A


[250360] loss: 0.097 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 751.40it/s][A

                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████▎                      | 7823/10000 [08:01<02:03, 17.61it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[250380] loss: 0.069 


                                                                                                                                                  
 78%|█████████████████████████████████████████████████████████████████████████████████▎                      | 7823/10000 [08:01<02:03, 17.61it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 567.35it/s][A


[250400] loss: 0.060 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 346.98it/s][A
 78%|█████████████████████████████████████████████████████████████████████████████████▍                      | 7825/10000 [08:01<02:09, 16.77it/s]
                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████▍                      | 7825/10000 [08:01<02:09, 16.77it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 603.44it/s][A


[250420] loss: 0.061 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 692.47it/s][A

                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████▍                      | 7825/10000 [08:01<02:09, 16.77it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[250440] loss: 0.037 


                                                                                                                                                  
 78%|█████████████████████████████████████████████████████████████████████████████████▍                      | 7825/10000 [08:01<02:09, 16.77it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 510.29it/s][A


[250460] loss: 0.049 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 846.99it/s][A
 78%|█████████████████████████████████████████████████████████████████████████████████▍                      | 7827/10000 [08:01<02:13, 16.22it/s]
                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████▍                      | 7827/10000 [08:01<02:13, 16.22it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 604.75it/s][A


[250480] loss: 0.021 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1022.00it/s][A

                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████▍                      | 7827/10000 [08:01<02:13, 16.22it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[250500] loss: 0.101 


                                                                                                                                                  
 78%|█████████████████████████████████████████████████████████████████████████████████▍                      | 7827/10000 [08:01<02:13, 16.22it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 531.82it/s][A


[250520] loss: 0.054 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 534.37it/s][A
 78%|█████████████████████████████████████████████████████████████████████████████████▍                      | 7829/10000 [08:01<02:15, 15.98it/s]
                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████▍                      | 7829/10000 [08:01<02:15, 15.98it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[250540] loss: 0.038 


                                                                                                                                                  
 78%|█████████████████████████████████████████████████████████████████████████████████▍                      | 7829/10000 [08:01<02:15, 15.98it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 525.91it/s][A


[250560] loss: 0.086 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 747.78it/s][A

                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████▍                      | 7829/10000 [08:01<02:15, 15.98it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 606.12it/s][A


[250580] loss: 0.055 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 609.90it/s][A
 78%|█████████████████████████████████████████████████████████████████████████████████▍                      | 7831/10000 [08:01<02:17, 15.78it/s]
                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████▍                      | 7831/10000 [08:01<02:17, 15.78it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[250600] loss: 0.071 


                                                                                                                                                  
 78%|█████████████████████████████████████████████████████████████████████████████████▍                      | 7831/10000 [08:01<02:17, 15.78it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 544.34it/s][A


[250620] loss: 0.058 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 829.90it/s][A

                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████▍                      | 7831/10000 [08:01<02:17, 15.78it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 619.49it/s][A


[250640] loss: 0.064 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 526.13it/s][A
 78%|█████████████████████████████████████████████████████████████████████████████████▍                      | 7833/10000 [08:01<02:17, 15.74it/s]
                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████▍                      | 7833/10000 [08:01<02:17, 15.74it/s]
                                                                                                                                                  [A

[250660] loss: 0.045 



 78%|█████████████████████████████████████████████████████████████████████████████████▍                      | 7833/10000 [08:02<02:17, 15.74it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 557.22it/s][A


[250680] loss: 0.040 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 776.44it/s][A

                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████▍                      | 7833/10000 [08:02<02:17, 15.74it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[250700] loss: 0.033 


                                                                                                                                                  
 78%|█████████████████████████████████████████████████████████████████████████████████▍                      | 7833/10000 [08:02<02:17, 15.74it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[250720] loss: 0.058 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 567.85it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1312.36it/s][A
 78%|█████████████████████████████████████████████████████████████████████████████████▍                      | 7835/10000 [08:02<02:18, 15.59it/s]
                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████▍                      | 7835/10000 [08:02<02:18, 15.59it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[250740] loss: 0.038 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 859.97it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1339.61it/s][A

                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████▍                      | 7835/10000 [08:02<02:18, 15.59it/s]
                                                                                                                                                  [A
                                                                                                                                                  

[250760] loss: 0.033 


 78%|█████████████████████████████████████████████████████████████████████████████████▍                      | 7835/10000 [08:02<02:18, 15.59it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 696.76it/s][A


[250780] loss: 0.071 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1117.88it/s][A

                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████▍                      | 7835/10000 [08:02<02:18, 15.59it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 805.22it/s][A


[250800] loss: 0.040 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 714.05it/s][A
 78%|█████████████████████████████████████████████████████████████████████████████████▌                      | 7838/10000 [08:02<02:05, 17.20it/s]
                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████▌                      | 7838/10000 [08:02<02:05, 17.20it/s]
                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████▌                      | 7838/10000 [08:02<02:05, 17.20it/s]
Training Epoch:   0%|                                                                                       

[250820] loss: 0.081 
[250840] loss: 0.041 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 695.75it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1478.95it/s][A

                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████▌                      | 7838/10000 [08:02<02:05, 17.20it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[250860] loss: 0.044 


                                                                                                                                                  
 78%|█████████████████████████████████████████████████████████████████████████████████▌                      | 7838/10000 [08:02<02:05, 17.20it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 690.77it/s][A


[250880] loss: 0.017 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 812.38it/s][A
 78%|█████████████████████████████████████████████████████████████████████████████████▌                      | 7840/10000 [08:02<02:02, 17.58it/s]
                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████▌                      | 7840/10000 [08:02<02:02, 17.58it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[250900] loss: 0.060 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 874.22it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2288.22it/s][A

                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████▌                      | 7840/10000 [08:02<02:02, 17.58it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[250920] loss: 0.043 


                                                                                                                                                  
 78%|█████████████████████████████████████████████████████████████████████████████████▌                      | 7840/10000 [08:02<02:02, 17.58it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 697.90it/s][A


[250940] loss: 0.043 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1865.79it/s][A

                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████▌                      | 7840/10000 [08:02<02:02, 17.58it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 803.59it/s][A


[250960] loss: 0.043 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2285.72it/s][A
 78%|█████████████████████████████████████████████████████████████████████████████████▌                      | 7843/10000 [08:02<01:54, 18.81it/s]
                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████▌                      | 7843/10000 [08:02<01:54, 18.81it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[250980] loss: 0.039 


                                                                                                                                                  
 78%|█████████████████████████████████████████████████████████████████████████████████▌                      | 7843/10000 [08:02<01:54, 18.81it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 732.15it/s][A


[251000] loss: 0.046 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2396.75it/s][A

                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████▌                      | 7843/10000 [08:02<01:54, 18.81it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[251020] loss: 0.046 


                                                                                                                                                  
 78%|█████████████████████████████████████████████████████████████████████████████████▌                      | 7843/10000 [08:02<01:54, 18.81it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 790.12it/s][A


[251040] loss: 0.072 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 550.36it/s][A

                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████▌                      | 7843/10000 [08:02<01:54, 18.81it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[251060] loss: 0.075 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 692.35it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2197.12it/s][A
 78%|█████████████████████████████████████████████████████████████████████████████████▌                      | 7846/10000 [08:02<01:52, 19.14it/s]
                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████▌                      | 7846/10000 [08:02<01:52, 19.14it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[251080] loss: 0.073 


                                                                                                                                                  
 78%|█████████████████████████████████████████████████████████████████████████████████▌                      | 7846/10000 [08:02<01:52, 19.14it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 701.20it/s][A


[251100] loss: 0.043 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1162.18it/s][A

                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████▌                      | 7846/10000 [08:02<01:52, 19.14it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[251120] loss: 0.069 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 793.03it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 594.60it/s][A
 78%|█████████████████████████████████████████████████████████████████████████████████▌                      | 7848/10000 [08:02<01:51, 19.25it/s]
                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████▌                      | 7848/10000 [08:02<01:51, 19.25it/s]


[251140] loss: 0.047 


                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████▌                      | 7848/10000 [08:02<01:51, 19.25it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 614.22it/s][A


[251160] loss: 0.068 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1963.63it/s][A

                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████▌                      | 7848/10000 [08:02<01:51, 19.25it/s]
                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████▌                      | 7848/10000 [08:02<01:51, 19.25it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 678.79it/s][A


[251180] loss: 0.025 
[251200] loss: 0.021 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 607.52it/s][A
 78%|█████████████████████████████████████████████████████████████████████████████████▋                      | 7850/10000 [08:02<01:55, 18.69it/s]
                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████▋                      | 7850/10000 [08:02<01:55, 18.69it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 757.32it/s][A


[251220] loss: 0.062 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 774.43it/s][A

                                                                                                                                                  [A
 78%|█████████████████████████████████████████████████████████████████████████████████▋                      | 7850/10000 [08:02<01:55, 18.69it/s]
                                                                                                                                                  [A


[251240] loss: 0.057 


 78%|█████████████████████████████████████████████████████████████████████████████████▋                      | 7850/10000 [08:02<01:55, 18.69it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 575.03it/s][A


[251260] loss: 0.066 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1100.58it/s][A
 79%|█████████████████████████████████████████████████████████████████████████████████▋                      | 7852/10000 [08:02<01:57, 18.29it/s]
                                                                                                                                                  [A
 79%|█████████████████████████████████████████████████████████████████████████████████▋                      | 7852/10000 [08:02<01:57, 18.29it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 759.75it/s][A


[251280] loss: 0.059 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 784.28it/s][A

                                                                                                                                                  [A
 79%|█████████████████████████████████████████████████████████████████████████████████▋                      | 7852/10000 [08:03<01:57, 18.29it/s]
                                                                                                                                                  [A
 79%|█████████████████████████████████████████████████████████████████████████████████▋                      | 7852/10000 [08:03<01:57, 18.29it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[251300] loss: 0.088 
[251320] loss: 0.058 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 526.89it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1822.03it/s][A
 79%|█████████████████████████████████████████████████████████████████████████████████▋                      | 7854/10000 [08:03<02:00, 17.79it/s]
                                                                                                                                                  [A
 79%|█████████████████████████████████████████████████████████████████████████████████▋                      | 7854/10000 [08:03<02:00, 17.79it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[251340] loss: 0.027 


                                                                                                                                                  
 79%|█████████████████████████████████████████████████████████████████████████████████▋                      | 7854/10000 [08:03<02:00, 17.79it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 633.35it/s][A


[251360] loss: 0.068 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1173.23it/s][A

                                                                                                                                                  [A
 79%|█████████████████████████████████████████████████████████████████████████████████▋                      | 7854/10000 [08:03<02:00, 17.79it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[251380] loss: 0.039 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 681.26it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 948.51it/s][A
 79%|█████████████████████████████████████████████████████████████████████████████████▋                      | 7856/10000 [08:03<02:01, 17.69it/s]
                                                                                                                                                  [A
 79%|█████████████████████████████████████████████████████████████████████████████████▋                      | 7856/10000 [08:03<02:01, 17.69it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[251400] loss: 0.057 


                                                                                                                                                  
 79%|█████████████████████████████████████████████████████████████████████████████████▋                      | 7856/10000 [08:03<02:01, 17.69it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 514.87it/s][A


[251420] loss: 0.067 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 886.18it/s][A

                                                                                                                                                  [A
 79%|█████████████████████████████████████████████████████████████████████████████████▋                      | 7856/10000 [08:03<02:01, 17.69it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[251440] loss: 0.039 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 594.56it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1008.49it/s][A
 79%|█████████████████████████████████████████████████████████████████████████████████▋                      | 7858/10000 [08:03<02:07, 16.82it/s]
                                                                                                                                                  [A
 79%|█████████████████████████████████████████████████████████████████████████████████▋                      | 7858/10000 [08:03<02:07, 16.82it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[251460] loss: 0.046 


                                                                                                                                                  
 79%|█████████████████████████████████████████████████████████████████████████████████▋                      | 7858/10000 [08:03<02:07, 16.82it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 519.27it/s][A


[251480] loss: 0.038 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 534.78it/s][A

                                                                                                                                                  [A
 79%|█████████████████████████████████████████████████████████████████████████████████▋                      | 7858/10000 [08:03<02:07, 16.82it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[251500] loss: 0.058 


                                                                                                                                                  
 79%|█████████████████████████████████████████████████████████████████████████████████▋                      | 7858/10000 [08:03<02:07, 16.82it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 469.91it/s][A


[251520] loss: 0.074 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 957.82it/s][A
 79%|█████████████████████████████████████████████████████████████████████████████████▋                      | 7860/10000 [08:03<02:15, 15.75it/s]
                                                                                                                                                  [A
 79%|█████████████████████████████████████████████████████████████████████████████████▋                      | 7860/10000 [08:03<02:15, 15.75it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 688.70it/s][A


[251540] loss: 0.049 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1802.45it/s][A

                                                                                                                                                  [A
 79%|█████████████████████████████████████████████████████████████████████████████████▋                      | 7860/10000 [08:03<02:15, 15.75it/s]
                                                                                                                                                  [A
 79%|█████████████████████████████████████████████████████████████████████████████████▋                      | 7860/10000 [08:03<02:15, 15.75it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[251560] loss: 0.084 
[251580] loss: 0.070 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 609.85it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 851.29it/s][A
 79%|█████████████████████████████████████████████████████████████████████████████████▊                      | 7862/10000 [08:03<02:10, 16.36it/s]
                                                                                                                                                  [A
 79%|█████████████████████████████████████████████████████████████████████████████████▊                      | 7862/10000 [08:03<02:10, 16.36it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[251600] loss: 0.031 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 685.25it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1035.12it/s][A

                                                                                                                                                  [A
 79%|█████████████████████████████████████████████████████████████████████████████████▊                      | 7862/10000 [08:03<02:10, 16.36it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[251620] loss: 0.051 


                                                                                                                                                  
 79%|█████████████████████████████████████████████████████████████████████████████████▊                      | 7862/10000 [08:03<02:10, 16.36it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 591.13it/s][A


[251640] loss: 0.055 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 810.34it/s][A
 79%|█████████████████████████████████████████████████████████████████████████████████▊                      | 7864/10000 [08:03<02:07, 16.73it/s]
                                                                                                                                                  [A
 79%|█████████████████████████████████████████████████████████████████████████████████▊                      | 7864/10000 [08:03<02:07, 16.73it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[251660] loss: 0.060 


                                                                                                                                                  
 79%|█████████████████████████████████████████████████████████████████████████████████▊                      | 7864/10000 [08:03<02:07, 16.73it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 542.95it/s][A


[251680] loss: 0.021 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 283.80it/s][A

                                                                                                                                                  [A
 79%|█████████████████████████████████████████████████████████████████████████████████▊                      | 7864/10000 [08:03<02:07, 16.73it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[251700] loss: 0.079 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 587.64it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 975.42it/s][A
 79%|█████████████████████████████████████████████████████████████████████████████████▊                      | 7866/10000 [08:03<02:11, 16.23it/s]
                                                                                                                                                  [A
 79%|█████████████████████████████████████████████████████████████████████████████████▊                      | 7866/10000 [08:03<02:11, 16.23it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[251720] loss: 0.061 


                                                                                                                                                  
 79%|█████████████████████████████████████████████████████████████████████████████████▊                      | 7866/10000 [08:03<02:11, 16.23it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 534.95it/s][A


[251740] loss: 0.035 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 538.63it/s][A

                                                                                                                                                  [A
 79%|█████████████████████████████████████████████████████████████████████████████████▊                      | 7866/10000 [08:03<02:11, 16.23it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 613.59it/s][A


[251760] loss: 0.037 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 956.95it/s][A
 79%|█████████████████████████████████████████████████████████████████████████████████▊                      | 7868/10000 [08:03<02:13, 15.96it/s]
                                                                                                                                                  [A
 79%|█████████████████████████████████████████████████████████████████████████████████▊                      | 7868/10000 [08:03<02:13, 15.96it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[251780] loss: 0.086 


                                                                                                                                                  
 79%|█████████████████████████████████████████████████████████████████████████████████▊                      | 7868/10000 [08:04<02:13, 15.96it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 529.62it/s][A


[251800] loss: 0.034 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 850.25it/s][A

                                                                                                                                                  [A
 79%|█████████████████████████████████████████████████████████████████████████████████▊                      | 7868/10000 [08:04<02:13, 15.96it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[251820] loss: 0.072 


                                                                                                                                                  
 79%|█████████████████████████████████████████████████████████████████████████████████▊                      | 7868/10000 [08:04<02:13, 15.96it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 552.94it/s][A


[251840] loss: 0.050 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 347.56it/s][A
 79%|█████████████████████████████████████████████████████████████████████████████████▊                      | 7870/10000 [08:04<02:17, 15.55it/s]
                                                                                                                                                  [A
 79%|█████████████████████████████████████████████████████████████████████████████████▊                      | 7870/10000 [08:04<02:17, 15.55it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 626.88it/s][A


[251860] loss: 0.076 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1474.79it/s][A

                                                                                                                                                  [A
 79%|█████████████████████████████████████████████████████████████████████████████████▊                      | 7870/10000 [08:04<02:17, 15.55it/s]
                                                                                                                                                  [A

[251880] loss: 0.043 



 79%|█████████████████████████████████████████████████████████████████████████████████▊                      | 7870/10000 [08:04<02:17, 15.55it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 541.87it/s][A


[251900] loss: 0.051 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 512.44it/s][A
 79%|█████████████████████████████████████████████████████████████████████████████████▊                      | 7872/10000 [08:04<02:17, 15.49it/s]
                                                                                                                                                  [A
 79%|█████████████████████████████████████████████████████████████████████████████████▊                      | 7872/10000 [08:04<02:17, 15.49it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 553.84it/s][A

[251920] loss: 0.044 




Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1248.30it/s][A

                                                                                                                                                  [A
 79%|█████████████████████████████████████████████████████████████████████████████████▊                      | 7872/10000 [08:04<02:17, 15.49it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[251940] loss: 0.028 


                                                                                                                                                  
 79%|█████████████████████████████████████████████████████████████████████████████████▊                      | 7872/10000 [08:04<02:17, 15.49it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 547.88it/s][A


[251960] loss: 0.058 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1089.15it/s][A
 79%|█████████████████████████████████████████████████████████████████████████████████▉                      | 7874/10000 [08:04<02:18, 15.35it/s]
                                                                                                                                                  [A
 79%|█████████████████████████████████████████████████████████████████████████████████▉                      | 7874/10000 [08:04<02:18, 15.35it/s]
                                                                                                                                                  [A
 79%|█████████████████████████████████████████████████████████████████████████████████▉                      | 7874/10000 [08:04<02:18, 15.35it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[251980] loss: 0.093 
[252000] loss: 0.116 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 604.37it/s][A

                                                                                                                                                  [A
 79%|█████████████████████████████████████████████████████████████████████████████████▉                      | 7874/10000 [08:04<02:18, 15.35it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 927.91it/s][A


[252020] loss: 0.075 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 673.13it/s][A

                                                                                                                                                  [A
 79%|█████████████████████████████████████████████████████████████████████████████████▉                      | 7874/10000 [08:04<02:18, 15.35it/s]
IOPub message rate exceeded.                                                                                                                      [A
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_msg_rate_limit`.

Current values:
NotebookApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
NotebookApp.rate_limit_window=3.0 (secs)

Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████

[265080] loss: 0.089 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1212.93it/s][A

                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▏                 | 8283/10000 [08:29<01:51, 15.39it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[265100] loss: 0.050 


                                                                                                                                                  
 83%|██████████████████████████████████████████████████████████████████████████████████████▏                 | 8283/10000 [08:29<01:51, 15.39it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 428.39it/s][A


[265120] loss: 0.052 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 514.51it/s][A
 83%|██████████████████████████████████████████████████████████████████████████████████████▏                 | 8285/10000 [08:29<01:56, 14.74it/s]
                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▏                 | 8285/10000 [08:29<01:56, 14.74it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 585.60it/s][A


[265140] loss: 0.097 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 428.34it/s][A

                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▏                 | 8285/10000 [08:29<01:56, 14.74it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[265160] loss: 0.047 


                                                                                                                                                  
 83%|██████████████████████████████████████████████████████████████████████████████████████▏                 | 8285/10000 [08:29<01:56, 14.74it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[265180] loss: 0.116 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 388.81it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 393.50it/s][A
 83%|██████████████████████████████████████████████████████████████████████████████████████▏                 | 8287/10000 [08:29<02:02, 13.95it/s]
                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▏                 | 8287/10000 [08:29<02:02, 13.95it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 547.75it/s][A


[265200] loss: 0.066 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 466.92it/s][A

                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▏                 | 8287/10000 [08:29<02:02, 13.95it/s]
                                                                                                                                                  [A
[A                                                                                                                                               

[265220] loss: 0.054 
[265240] loss: 0.080 


 83%|██████████████████████████████████████████████████████████████████████████████████████▏                 | 8287/10000 [08:29<02:02, 13.95it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 446.53it/s][A

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 423.11it/s][A
 83%|██████████████████████████████████████████████████████████████████████████████████████▏                 | 8289/10000 [08:29<02:05, 13.58it/s]
                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▏                 | 8289/10000 [08:29<02:05, 13.58it/s]
                                                                                                            

[265260] loss: 0.041 
[265280] loss: 0.115 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 643.10it/s][A

                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▏                 | 8289/10000 [08:30<02:05, 13.58it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[265300] loss: 0.031 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 540.45it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 567.03it/s][A
 83%|██████████████████████████████████████████████████████████████████████████████████████▏                 | 8291/10000 [08:30<02:07, 13.39it/s]
                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▏                 | 8291/10000 [08:30<02:07, 13.39it/s]
                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▏                

[265320] loss: 0.038 
[265340] loss: 0.042 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 461.64it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 626.30it/s][A

                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▏                 | 8291/10000 [08:30<02:07, 13.39it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 706.58it/s][A


[265360] loss: 0.048 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 575.75it/s][A
 83%|██████████████████████████████████████████████████████████████████████████████████████▏                 | 8293/10000 [08:30<02:03, 13.77it/s]
                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▏                 | 8293/10000 [08:30<02:03, 13.77it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[265380] loss: 0.046 


                                                                                                                                                  
 83%|██████████████████████████████████████████████████████████████████████████████████████▏                 | 8293/10000 [08:30<02:03, 13.77it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 586.51it/s][A


[265400] loss: 0.070 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 670.23it/s][A

                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▏                 | 8293/10000 [08:30<02:03, 13.77it/s]
                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▏                 | 8293/10000 [08:30<02:03, 13.77it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 465.79it/s][A


[265420] loss: 0.071 
[265440] loss: 0.016 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 905.51it/s][A
 83%|██████████████████████████████████████████████████████████████████████████████████████▎                 | 8295/10000 [08:30<02:04, 13.73it/s]
                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▎                 | 8295/10000 [08:30<02:04, 13.73it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 606.96it/s][A


[265460] loss: 0.066 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1646.76it/s][A

                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▎                 | 8295/10000 [08:30<02:04, 13.73it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[265480] loss: 0.049 


                                                                                                                                                  
 83%|██████████████████████████████████████████████████████████████████████████████████████▎                 | 8295/10000 [08:30<02:04, 13.73it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 438.35it/s][A


[265500] loss: 0.090 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1171.59it/s][A
 83%|██████████████████████████████████████████████████████████████████████████████████████▎                 | 8297/10000 [08:30<02:05, 13.57it/s]
                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▎                 | 8297/10000 [08:30<02:05, 13.57it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 556.68it/s][A


[265520] loss: 0.058 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 186.90it/s][A

                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▎                 | 8297/10000 [08:30<02:05, 13.57it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[265540] loss: 0.064 


                                                                                                                                                  
 83%|██████████████████████████████████████████████████████████████████████████████████████▎                 | 8297/10000 [08:30<02:05, 13.57it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 441.24it/s][A


[265560] loss: 0.046 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 833.53it/s][A
 83%|██████████████████████████████████████████████████████████████████████████████████████▎                 | 8299/10000 [08:30<02:10, 13.07it/s]
                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▎                 | 8299/10000 [08:30<02:10, 13.07it/s]
                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▎                 | 8299/10000 [08:30<02:10, 13.07it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[265580] loss: 0.052 
[265600] loss: 0.153 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 988.29it/s][A

                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▎                 | 8299/10000 [08:30<02:10, 13.07it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 726.32it/s][A


[265620] loss: 0.054 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 931.03it/s][A
 83%|██████████████████████████████████████████████████████████████████████████████████████▎                 | 8301/10000 [08:30<01:58, 14.29it/s]
                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▎                 | 8301/10000 [08:30<01:58, 14.29it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[265640] loss: 0.087 


                                                                                                                                                  
 83%|██████████████████████████████████████████████████████████████████████████████████████▎                 | 8301/10000 [08:30<01:58, 14.29it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 616.86it/s][A


[265660] loss: 0.059 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 552.03it/s][A

                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▎                 | 8301/10000 [08:30<01:58, 14.29it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 753.05it/s][A


[265680] loss: 0.066 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1136.36it/s][A
 83%|██████████████████████████████████████████████████████████████████████████████████████▎                 | 8303/10000 [08:30<01:51, 15.22it/s]
                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▎                 | 8303/10000 [08:30<01:51, 15.22it/s]
                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▎                 | 8303/10000 [08:30<01:51, 15.22it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[265700] loss: 0.025 
[265720] loss: 0.076 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 741.44it/s][A

                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▎                 | 8303/10000 [08:30<01:51, 15.22it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[265740] loss: 0.062 


                                                                                                                                                  
 83%|██████████████████████████████████████████████████████████████████████████████████████▎                 | 8303/10000 [08:31<01:51, 15.22it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 651.65it/s][A


[265760] loss: 0.046 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1372.03it/s][A
 83%|██████████████████████████████████████████████████████████████████████████████████████▎                 | 8305/10000 [08:31<01:47, 15.72it/s]
                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▎                 | 8305/10000 [08:31<01:47, 15.72it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 782.77it/s][A


[265780] loss: 0.031 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 724.03it/s][A

                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▎                 | 8305/10000 [08:31<01:47, 15.72it/s]
                                                                                                                                                  [A

[265800] loss: 0.047 



 83%|██████████████████████████████████████████████████████████████████████████████████████▎                 | 8305/10000 [08:31<01:47, 15.72it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 630.71it/s][A


[265820] loss: 0.066 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1353.00it/s][A
 83%|██████████████████████████████████████████████████████████████████████████████████████▍                 | 8307/10000 [08:31<01:43, 16.36it/s]
                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▍                 | 8307/10000 [08:31<01:43, 16.36it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[265840] loss: 0.090 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 536.69it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 683.11it/s][A

                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▍                 | 8307/10000 [08:31<01:43, 16.36it/s]
                                                                                                                                                  [A

[265860] loss: 0.033 



 83%|██████████████████████████████████████████████████████████████████████████████████████▍                 | 8307/10000 [08:31<01:43, 16.36it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 529.59it/s][A


[265880] loss: 0.066 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 508.28it/s][A
 83%|██████████████████████████████████████████████████████████████████████████████████████▍                 | 8309/10000 [08:31<01:48, 15.63it/s]
                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▍                 | 8309/10000 [08:31<01:48, 15.63it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[265900] loss: 0.046 


                                                                                                                                                  
 83%|██████████████████████████████████████████████████████████████████████████████████████▍                 | 8309/10000 [08:31<01:48, 15.63it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 477.81it/s][A


[265920] loss: 0.042 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 389.19it/s][A

                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▍                 | 8309/10000 [08:31<01:48, 15.63it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 578.13it/s][A


[265940] loss: 0.063 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 361.27it/s][A
 83%|██████████████████████████████████████████████████████████████████████████████████████▍                 | 8311/10000 [08:31<01:52, 15.01it/s]
                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▍                 | 8311/10000 [08:31<01:52, 15.01it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[265960] loss: 0.051 


                                                                                                                                                  
 83%|██████████████████████████████████████████████████████████████████████████████████████▍                 | 8311/10000 [08:31<01:52, 15.01it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 496.23it/s][A


[265980] loss: 0.069 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 499.74it/s][A

                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▍                 | 8311/10000 [08:31<01:52, 15.01it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[266000] loss: 0.049 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 536.28it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 698.35it/s][A
 83%|██████████████████████████████████████████████████████████████████████████████████████▍                 | 8313/10000 [08:31<01:55, 14.64it/s]
                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▍                 | 8313/10000 [08:31<01:55, 14.64it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[266020] loss: 0.036 


                                                                                                                                                  
 83%|██████████████████████████████████████████████████████████████████████████████████████▍                 | 8313/10000 [08:31<01:55, 14.64it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 495.21it/s][A


[266040] loss: 0.080 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 530.59it/s][A

                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▍                 | 8313/10000 [08:31<01:55, 14.64it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[266060] loss: 0.063 


                                                                                                                                                  
 83%|██████████████████████████████████████████████████████████████████████████████████████▍                 | 8313/10000 [08:31<01:55, 14.64it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 514.53it/s][A


[266080] loss: 0.010 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 527.19it/s][A
 83%|██████████████████████████████████████████████████████████████████████████████████████▍                 | 8315/10000 [08:31<01:57, 14.34it/s]
                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▍                 | 8315/10000 [08:31<01:57, 14.34it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 573.39it/s][A


[266100] loss: 0.082 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 509.33it/s][A

                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▍                 | 8315/10000 [08:31<01:57, 14.34it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[266120] loss: 0.046 


                                                                                                                                                  
 83%|██████████████████████████████████████████████████████████████████████████████████████▍                 | 8315/10000 [08:31<01:57, 14.34it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 490.07it/s][A


[266140] loss: 0.055 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 796.64it/s][A
 83%|██████████████████████████████████████████████████████████████████████████████████████▍                 | 8317/10000 [08:31<01:57, 14.28it/s]
                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▍                 | 8317/10000 [08:31<01:57, 14.28it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[266160] loss: 0.063 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 599.03it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 903.75it/s][A

                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▍                 | 8317/10000 [08:31<01:57, 14.28it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[266180] loss: 0.041 


                                                                                                                                                  
 83%|██████████████████████████████████████████████████████████████████████████████████████▍                 | 8317/10000 [08:31<01:57, 14.28it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 518.03it/s][A


[266200] loss: 0.048 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 590.50it/s][A
 83%|██████████████████████████████████████████████████████████████████████████████████████▌                 | 8319/10000 [08:31<01:56, 14.42it/s]
                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▌                 | 8319/10000 [08:32<01:56, 14.42it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[266220] loss: 0.071 


                                                                                                                                                  
 83%|██████████████████████████████████████████████████████████████████████████████████████▌                 | 8319/10000 [08:32<01:56, 14.42it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 502.36it/s][A


[266240] loss: 0.077 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 555.76it/s][A

                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▌                 | 8319/10000 [08:32<01:56, 14.42it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 593.05it/s][A


[266260] loss: 0.030 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 818.72it/s][A
 83%|██████████████████████████████████████████████████████████████████████████████████████▌                 | 8321/10000 [08:32<01:55, 14.50it/s]
                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▌                 | 8321/10000 [08:32<01:55, 14.50it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[266280] loss: 0.048 


                                                                                                                                                  
 83%|██████████████████████████████████████████████████████████████████████████████████████▌                 | 8321/10000 [08:32<01:55, 14.50it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 461.54it/s][A


[266300] loss: 0.048 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 658.96it/s][A

                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▌                 | 8321/10000 [08:32<01:55, 14.50it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[266320] loss: 0.046 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 589.72it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 705.64it/s][A
 83%|██████████████████████████████████████████████████████████████████████████████████████▌                 | 8323/10000 [08:32<01:57, 14.29it/s]
                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▌                 | 8323/10000 [08:32<01:57, 14.29it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[266340] loss: 0.037 


                                                                                                                                                  
 83%|██████████████████████████████████████████████████████████████████████████████████████▌                 | 8323/10000 [08:32<01:57, 14.29it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 654.30it/s][A


[266360] loss: 0.088 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1352.13it/s][A

                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▌                 | 8323/10000 [08:32<01:57, 14.29it/s]
                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▌                 | 8323/10000 [08:32<01:57, 14.29it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 596.96it/s][A


[266380] loss: 0.056 
[266400] loss: 0.066 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1431.50it/s][A
 83%|██████████████████████████████████████████████████████████████████████████████████████▌                 | 8325/10000 [08:32<01:52, 14.89it/s]
                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▌                 | 8325/10000 [08:32<01:52, 14.89it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[266420] loss: 0.051 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 664.61it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1359.58it/s][A

                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▌                 | 8325/10000 [08:32<01:52, 14.89it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[266440] loss: 0.074 


                                                                                                                                                  
 83%|██████████████████████████████████████████████████████████████████████████████████████▌                 | 8325/10000 [08:32<01:52, 14.89it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 574.02it/s][A


[266460] loss: 0.077 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1326.47it/s][A
 83%|██████████████████████████████████████████████████████████████████████████████████████▌                 | 8327/10000 [08:32<01:49, 15.32it/s]
                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▌                 | 8327/10000 [08:32<01:49, 15.32it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[266480] loss: 0.039 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 717.22it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1922.23it/s][A

                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▌                 | 8327/10000 [08:32<01:49, 15.32it/s]
                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▌                 | 8327/10000 [08:32<01:49, 15.32it/s]
Training Epoch: 100%|██████████████████████████████████████████████████████████████████████████████████████

[266500] loss: 0.050 
[266520] loss: 0.086 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1373.38it/s][A
 83%|██████████████████████████████████████████████████████████████████████████████████████▌                 | 8329/10000 [08:32<01:44, 15.96it/s]
                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▌                 | 8329/10000 [08:32<01:44, 15.96it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[266540] loss: 0.053 


                                                                                                                                                  
 83%|██████████████████████████████████████████████████████████████████████████████████████▌                 | 8329/10000 [08:32<01:44, 15.96it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 684.54it/s][A


[266560] loss: 0.063 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1436.41it/s][A

                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▌                 | 8329/10000 [08:32<01:44, 15.96it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 757.35it/s][A


[266580] loss: 0.041 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1114.62it/s][A
 83%|██████████████████████████████████████████████████████████████████████████████████████▋                 | 8331/10000 [08:32<01:39, 16.85it/s]
                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▋                 | 8331/10000 [08:32<01:39, 16.85it/s]
                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▋                 | 8331/10000 [08:32<01:39, 16.85it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[266600] loss: 0.052 
[266620] loss: 0.053 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1352.56it/s][A

                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▋                 | 8331/10000 [08:32<01:39, 16.85it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 864.94it/s][A


[266640] loss: 0.032 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2033.11it/s][A

                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▋                 | 8331/10000 [08:32<01:39, 16.85it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[266660] loss: 0.062 


                                                                                                                                                  
 83%|██████████████████████████████████████████████████████████████████████████████████████▋                 | 8331/10000 [08:32<01:39, 16.85it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 735.81it/s][A


[266680] loss: 0.047 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1456.86it/s][A
 83%|██████████████████████████████████████████████████████████████████████████████████████▋                 | 8334/10000 [08:32<01:32, 18.07it/s]
                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▋                 | 8334/10000 [08:32<01:32, 18.07it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[266700] loss: 0.050 


                                                                                                                                                  
 83%|██████████████████████████████████████████████████████████████████████████████████████▋                 | 8334/10000 [08:32<01:32, 18.07it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 628.58it/s][A


[266720] loss: 0.040 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 573.23it/s][A

                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▋                 | 8334/10000 [08:32<01:32, 18.07it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 716.42it/s][A


[266740] loss: 0.096 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 815.22it/s][A
 83%|██████████████████████████████████████████████████████████████████████████████████████▋                 | 8336/10000 [08:33<01:32, 17.92it/s]
                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▋                 | 8336/10000 [08:33<01:32, 17.92it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[266760] loss: 0.040 


                                                                                                                                                  
 83%|██████████████████████████████████████████████████████████████████████████████████████▋                 | 8336/10000 [08:33<01:32, 17.92it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 599.50it/s][A


[266780] loss: 0.045 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 719.68it/s][A

                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▋                 | 8336/10000 [08:33<01:32, 17.92it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[266800] loss: 0.055 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 658.43it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1184.50it/s][A
 83%|██████████████████████████████████████████████████████████████████████████████████████▋                 | 8338/10000 [08:33<01:35, 17.46it/s]
                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▋                 | 8338/10000 [08:33<01:35, 17.46it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[266820] loss: 0.042 


                                                                                                                                                  
 83%|██████████████████████████████████████████████████████████████████████████████████████▋                 | 8338/10000 [08:33<01:35, 17.46it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[266840] loss: 0.057 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 571.31it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1689.89it/s][A

                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▋                 | 8338/10000 [08:33<01:35, 17.46it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[266860] loss: 0.057 


                                                                                                                                                  
 83%|██████████████████████████████████████████████████████████████████████████████████████▋                 | 8338/10000 [08:33<01:35, 17.46it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 630.22it/s][A


[266880] loss: 0.021 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1455.85it/s][A
 83%|██████████████████████████████████████████████████████████████████████████████████████▋                 | 8340/10000 [08:33<01:37, 17.03it/s]
                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▋                 | 8340/10000 [08:33<01:37, 17.03it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[266900] loss: 0.045 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 663.45it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1957.21it/s][A

                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▋                 | 8340/10000 [08:33<01:37, 17.03it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[266920] loss: 0.061 


                                                                                                                                                  
 83%|██████████████████████████████████████████████████████████████████████████████████████▋                 | 8340/10000 [08:33<01:37, 17.03it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 653.81it/s][A


[266940] loss: 0.044 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1349.52it/s][A
 83%|██████████████████████████████████████████████████████████████████████████████████████▊                 | 8342/10000 [08:33<01:36, 17.09it/s]
                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▊                 | 8342/10000 [08:33<01:36, 17.09it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[266960] loss: 0.040 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 691.66it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 955.86it/s][A

                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▊                 | 8342/10000 [08:33<01:36, 17.09it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[266980] loss: 0.067 


                                                                                                                                                  
 83%|██████████████████████████████████████████████████████████████████████████████████████▊                 | 8342/10000 [08:33<01:36, 17.09it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[267000] loss: 0.065 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 493.46it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 652.30it/s][A
 83%|██████████████████████████████████████████████████████████████████████████████████████▊                 | 8344/10000 [08:33<01:39, 16.59it/s]
                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▊                 | 8344/10000 [08:33<01:39, 16.59it/s]


[267020] loss: 0.061 


                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▊                 | 8344/10000 [08:33<01:39, 16.59it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 480.10it/s][A


[267040] loss: 0.081 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 704.81it/s][A

                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▊                 | 8344/10000 [08:33<01:39, 16.59it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 559.37it/s][A


[267060] loss: 0.052 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 477.98it/s][A
 83%|██████████████████████████████████████████████████████████████████████████████████████▊                 | 8346/10000 [08:33<01:45, 15.67it/s]
                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▊                 | 8346/10000 [08:33<01:45, 15.67it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[267080] loss: 0.038 


                                                                                                                                                  
 83%|██████████████████████████████████████████████████████████████████████████████████████▊                 | 8346/10000 [08:33<01:45, 15.67it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 512.48it/s][A


[267100] loss: 0.062 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 433.07it/s][A

                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▊                 | 8346/10000 [08:33<01:45, 15.67it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[267120] loss: 0.066 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 592.56it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 568.41it/s][A
 83%|██████████████████████████████████████████████████████████████████████████████████████▊                 | 8348/10000 [08:33<01:47, 15.31it/s]
                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▊                 | 8348/10000 [08:33<01:47, 15.31it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[267140] loss: 0.064 


                                                                                                                                                  
 83%|██████████████████████████████████████████████████████████████████████████████████████▊                 | 8348/10000 [08:33<01:47, 15.31it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 517.37it/s][A


[267160] loss: 0.052 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1205.61it/s][A

                                                                                                                                                  [A
 83%|██████████████████████████████████████████████████████████████████████████████████████▊                 | 8348/10000 [08:33<01:47, 15.31it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[267180] loss: 0.057 


                                                                                                                                                  
 83%|██████████████████████████████████████████████████████████████████████████████████████▊                 | 8348/10000 [08:33<01:47, 15.31it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 551.17it/s][A


[267200] loss: 0.103 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 984.81it/s][A
 84%|██████████████████████████████████████████████████████████████████████████████████████▊                 | 8350/10000 [08:33<01:49, 15.07it/s]
                                                                                                                                                  [A
 84%|██████████████████████████████████████████████████████████████████████████████████████▊                 | 8350/10000 [08:33<01:49, 15.07it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 625.84it/s][A


[267220] loss: 0.013 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 996.04it/s][A

                                                                                                                                                  [A
 84%|██████████████████████████████████████████████████████████████████████████████████████▊                 | 8350/10000 [08:33<01:49, 15.07it/s]
                                                                                                                                                  [A
[A                                                                                                                                               

[267240] loss: 0.048 


 84%|██████████████████████████████████████████████████████████████████████████████████████▊                 | 8350/10000 [08:34<01:49, 15.07it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 529.43it/s][A


[267260] loss: 0.041 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 777.01it/s][A
 84%|██████████████████████████████████████████████████████████████████████████████████████▊                 | 8352/10000 [08:34<01:48, 15.23it/s]
                                                                                                                                                  [A
 84%|██████████████████████████████████████████████████████████████████████████████████████▊                 | 8352/10000 [08:34<01:48, 15.23it/s]

[267280] loss: 0.042 



Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 614.61it/s][A

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 979.29it/s][A

                                                                                                                                                  [A
 84%|██████████████████████████████████████████████████████████████████████████████████████▊                 | 8352/10000 [08:34<01:48, 15.23it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[267300] loss: 0.043 


                                                                                                                                                  
 84%|██████████████████████████████████████████████████████████████████████████████████████▊                 | 8352/10000 [08:34<01:48, 15.23it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 534.71it/s][A


[267320] loss: 0.051 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 360.89it/s][A
 84%|██████████████████████████████████████████████████████████████████████████████████████▉                 | 8354/10000 [08:34<01:47, 15.24it/s]
                                                                                                                                                  [A
 84%|██████████████████████████████████████████████████████████████████████████████████████▉                 | 8354/10000 [08:34<01:47, 15.24it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[267340] loss: 0.061 


                                                                                                                                                  
 84%|██████████████████████████████████████████████████████████████████████████████████████▉                 | 8354/10000 [08:34<01:47, 15.24it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 550.38it/s][A


[267360] loss: 0.052 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 332.33it/s][A

                                                                                                                                                  [A
 84%|██████████████████████████████████████████████████████████████████████████████████████▉                 | 8354/10000 [08:34<01:47, 15.24it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 640.35it/s][A


[267380] loss: 0.084 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1129.02it/s][A
 84%|██████████████████████████████████████████████████████████████████████████████████████▉                 | 8356/10000 [08:34<01:46, 15.41it/s]
                                                                                                                                                  [A
 84%|██████████████████████████████████████████████████████████████████████████████████████▉                 | 8356/10000 [08:34<01:46, 15.41it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[267400] loss: 0.057 


                                                                                                                                                  
 84%|██████████████████████████████████████████████████████████████████████████████████████▉                 | 8356/10000 [08:34<01:46, 15.41it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 527.14it/s][A


[267420] loss: 0.063 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 946.37it/s][A

                                                                                                                                                  [A
 84%|██████████████████████████████████████████████████████████████████████████████████████▉                 | 8356/10000 [08:34<01:46, 15.41it/s]

[267440] loss: 0.049 



Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 571.98it/s][A

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 812.69it/s][A
 84%|██████████████████████████████████████████████████████████████████████████████████████▉                 | 8358/10000 [08:34<01:48, 15.13it/s]
                                                                                                                                                  [A
 84%|██████████████████████████████████████████████████████████████████████████████████████▉                 | 8358/10000 [08:34<01:48, 15.13it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[267460] loss: 0.035 


                                                                                                                                                  
 84%|██████████████████████████████████████████████████████████████████████████████████████▉                 | 8358/10000 [08:34<01:48, 15.13it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 514.51it/s][A


[267480] loss: 0.056 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 495.72it/s][A

                                                                                                                                                  [A
 84%|██████████████████████████████████████████████████████████████████████████████████████▉                 | 8358/10000 [08:34<01:48, 15.13it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[267500] loss: 0.079 


                                                                                                                                                  
 84%|██████████████████████████████████████████████████████████████████████████████████████▉                 | 8358/10000 [08:34<01:48, 15.13it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 506.99it/s][A


[267520] loss: 0.025 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1318.13it/s][A
 84%|██████████████████████████████████████████████████████████████████████████████████████▉                 | 8360/10000 [08:34<01:50, 14.78it/s]
                                                                                                                                                  [A
 84%|██████████████████████████████████████████████████████████████████████████████████████▉                 | 8360/10000 [08:34<01:50, 14.78it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 887.80it/s][A


[267540] loss: 0.075 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2065.14it/s][A

                                                                                                                                                  [A
 84%|██████████████████████████████████████████████████████████████████████████████████████▉                 | 8360/10000 [08:34<01:50, 14.78it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[267560] loss: 0.073 


                                                                                                                                                  
 84%|██████████████████████████████████████████████████████████████████████████████████████▉                 | 8360/10000 [08:34<01:50, 14.78it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 705.59it/s][A


[267580] loss: 0.094 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1176.52it/s][A

                                                                                                                                                  [A
 84%|██████████████████████████████████████████████████████████████████████████████████████▉                 | 8360/10000 [08:34<01:50, 14.78it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 822.62it/s][A


[267600] loss: 0.081 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 631.20it/s][A
 84%|██████████████████████████████████████████████████████████████████████████████████████▉                 | 8363/10000 [08:34<01:38, 16.68it/s]
                                                                                                                                                  [A
[A                                                                                                                                               

[267620] loss: 0.032 


 84%|██████████████████████████████████████████████████████████████████████████████████████▉                 | 8363/10000 [08:34<01:38, 16.68it/s]
                                                                                                                                                  [A
 84%|██████████████████████████████████████████████████████████████████████████████████████▉                 | 8363/10000 [08:34<01:38, 16.68it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[267640] loss: 0.038 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 614.08it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1038.97it/s][A

                                                                                                                                                  [A
 84%|██████████████████████████████████████████████████████████████████████████████████████▉                 | 8363/10000 [08:34<01:38, 16.68it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[267660] loss: 0.063 


                                                                                                                                                  
 84%|██████████████████████████████████████████████████████████████████████████████████████▉                 | 8363/10000 [08:34<01:38, 16.68it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 925.75it/s][A


[267680] loss: 0.116 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2250.16it/s][A
 84%|██████████████████████████████████████████████████████████████████████████████████████▉                 | 8365/10000 [08:34<01:33, 17.45it/s]
                                                                                                                                                  [A
 84%|██████████████████████████████████████████████████████████████████████████████████████▉                 | 8365/10000 [08:34<01:33, 17.45it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[267700] loss: 0.036 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 761.76it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 707.54it/s][A

                                                                                                                                                  [A
 84%|██████████████████████████████████████████████████████████████████████████████████████▉                 | 8365/10000 [08:34<01:33, 17.45it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[267720] loss: 0.075 


                                                                                                                                                  
 84%|██████████████████████████████████████████████████████████████████████████████████████▉                 | 8365/10000 [08:34<01:33, 17.45it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 666.84it/s][A


[267740] loss: 0.095 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1445.81it/s][A
 84%|███████████████████████████████████████████████████████████████████████████████████████                 | 8367/10000 [08:34<01:31, 17.84it/s]
                                                                                                                                                  [A
 84%|███████████████████████████████████████████████████████████████████████████████████████                 | 8367/10000 [08:34<01:31, 17.84it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[267760] loss: 0.058 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 788.88it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1192.24it/s][A

                                                                                                                                                  [A
 84%|███████████████████████████████████████████████████████████████████████████████████████                 | 8367/10000 [08:34<01:31, 17.84it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[267780] loss: 0.087 


                                                                                                                                                  
 84%|███████████████████████████████████████████████████████████████████████████████████████                 | 8367/10000 [08:35<01:31, 17.84it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 610.71it/s][A


[267800] loss: 0.064 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 720.18it/s][A
 84%|███████████████████████████████████████████████████████████████████████████████████████                 | 8369/10000 [08:35<01:31, 17.88it/s]
                                                                                                                                                  [A
 84%|███████████████████████████████████████████████████████████████████████████████████████                 | 8369/10000 [08:35<01:31, 17.88it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[267820] loss: 0.051 


                                                                                                                                                  
 84%|███████████████████████████████████████████████████████████████████████████████████████                 | 8369/10000 [08:35<01:31, 17.88it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 591.17it/s][A


[267840] loss: 0.029 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1392.99it/s][A

                                                                                                                                                  [A
 84%|███████████████████████████████████████████████████████████████████████████████████████                 | 8369/10000 [08:35<01:31, 17.88it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 746.83it/s][A


[267860] loss: 0.045 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1361.79it/s][A
 84%|███████████████████████████████████████████████████████████████████████████████████████                 | 8371/10000 [08:35<01:31, 17.74it/s]
                                                                                                                                                  [A
 84%|███████████████████████████████████████████████████████████████████████████████████████                 | 8371/10000 [08:35<01:31, 17.74it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[267880] loss: 0.069 


                                                                                                                                                  
 84%|███████████████████████████████████████████████████████████████████████████████████████                 | 8371/10000 [08:35<01:31, 17.74it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 650.57it/s][A


[267900] loss: 0.032 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1335.77it/s][A

                                                                                                                                                  [A
 84%|███████████████████████████████████████████████████████████████████████████████████████                 | 8371/10000 [08:35<01:31, 17.74it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 766.91it/s][A


[267920] loss: 0.091 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 590.58it/s][A
 84%|███████████████████████████████████████████████████████████████████████████████████████                 | 8373/10000 [08:35<01:30, 18.00it/s]
                                                                                                                                                  [A
 84%|███████████████████████████████████████████████████████████████████████████████████████                 | 8373/10000 [08:35<01:30, 18.00it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[267940] loss: 0.066 


                                                                                                                                                  
 84%|███████████████████████████████████████████████████████████████████████████████████████                 | 8373/10000 [08:35<01:30, 18.00it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 607.88it/s][A


[267960] loss: 0.029 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 775.43it/s][A

                                                                                                                                                  [A
 84%|███████████████████████████████████████████████████████████████████████████████████████                 | 8373/10000 [08:35<01:30, 18.00it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[267980] loss: 0.088 


                                                                                                                                                  
 84%|███████████████████████████████████████████████████████████████████████████████████████                 | 8373/10000 [08:35<01:30, 18.00it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 586.15it/s][A


[268000] loss: 0.048 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 465.72it/s][A
 84%|███████████████████████████████████████████████████████████████████████████████████████                 | 8375/10000 [08:35<01:33, 17.39it/s]
                                                                                                                                                  [A
 84%|███████████████████████████████████████████████████████████████████████████████████████                 | 8375/10000 [08:35<01:33, 17.39it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 808.69it/s][A


[268020] loss: 0.069 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 898.91it/s][A

                                                                                                                                                  [A
 84%|███████████████████████████████████████████████████████████████████████████████████████                 | 8375/10000 [08:35<01:33, 17.39it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[268040] loss: 0.051 


                                                                                                                                                  
 84%|███████████████████████████████████████████████████████████████████████████████████████                 | 8375/10000 [08:35<01:33, 17.39it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 588.64it/s][A


[268060] loss: 0.055 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 495.60it/s][A
 84%|███████████████████████████████████████████████████████████████████████████████████████                 | 8377/10000 [08:35<01:32, 17.53it/s]
                                                                                                                                                  [A
 84%|███████████████████████████████████████████████████████████████████████████████████████                 | 8377/10000 [08:35<01:32, 17.53it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[268080] loss: 0.065 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 713.16it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1878.33it/s][A

                                                                                                                                                  [A
 84%|███████████████████████████████████████████████████████████████████████████████████████                 | 8377/10000 [08:35<01:32, 17.53it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[268100] loss: 0.035 


                                                                                                                                                  
 84%|███████████████████████████████████████████████████████████████████████████████████████                 | 8377/10000 [08:35<01:32, 17.53it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 611.12it/s][A


[268120] loss: 0.079 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 793.47it/s][A
 84%|███████████████████████████████████████████████████████████████████████████████████████▏                | 8379/10000 [08:35<01:33, 17.42it/s]
                                                                                                                                                  [A
 84%|███████████████████████████████████████████████████████████████████████████████████████▏                | 8379/10000 [08:35<01:33, 17.42it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[268140] loss: 0.079 


                                                                                                                                                  
 84%|███████████████████████████████████████████████████████████████████████████████████████▏                | 8379/10000 [08:35<01:33, 17.42it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 673.08it/s][A


[268160] loss: 0.012 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1148.81it/s][A

                                                                                                                                                  [A
 84%|███████████████████████████████████████████████████████████████████████████████████████▏                | 8379/10000 [08:35<01:33, 17.42it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[268180] loss: 0.069 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 605.07it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1002.46it/s][A
 84%|███████████████████████████████████████████████████████████████████████████████████████▏                | 8381/10000 [08:35<01:33, 17.28it/s]
                                                                                                                                                  [A
 84%|███████████████████████████████████████████████████████████████████████████████████████▏                | 8381/10000 [08:35<01:33, 17.28it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[268200] loss: 0.052 


                                                                                                                                                  
 84%|███████████████████████████████████████████████████████████████████████████████████████▏                | 8381/10000 [08:35<01:33, 17.28it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[268220] loss: 0.081 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 526.78it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 805.98it/s][A

                                                                                                                                                  [A
 84%|███████████████████████████████████████████████████████████████████████████████████████▏                | 8381/10000 [08:35<01:33, 17.28it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[268240] loss: 0.068 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 632.33it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 900.26it/s][A
 84%|███████████████████████████████████████████████████████████████████████████████████████▏                | 8383/10000 [08:35<01:36, 16.78it/s]
                                                                                                                                                  [A
 84%|███████████████████████████████████████████████████████████████████████████████████████▏                | 8383/10000 [08:35<01:36, 16.78it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[268260] loss: 0.049 


                                                                                                                                                  
 84%|███████████████████████████████████████████████████████████████████████████████████████▏                | 8383/10000 [08:35<01:36, 16.78it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 491.56it/s][A


[268280] loss: 0.065 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 471.64it/s][A

                                                                                                                                                  [A
 84%|███████████████████████████████████████████████████████████████████████████████████████▏                | 8383/10000 [08:35<01:36, 16.78it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[268300] loss: 0.043 


                                                                                                                                                  
 84%|███████████████████████████████████████████████████████████████████████████████████████▏                | 8383/10000 [08:35<01:36, 16.78it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 517.95it/s][A


[268320] loss: 0.059 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 343.18it/s][A
 84%|███████████████████████████████████████████████████████████████████████████████████████▏                | 8385/10000 [08:36<01:43, 15.54it/s]
                                                                                                                                                  [A
 84%|███████████████████████████████████████████████████████████████████████████████████████▏                | 8385/10000 [08:36<01:43, 15.54it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 576.64it/s][A


[268340] loss: 0.090 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 490.79it/s][A

                                                                                                                                                  [A
 84%|███████████████████████████████████████████████████████████████████████████████████████▏                | 8385/10000 [08:36<01:43, 15.54it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[268360] loss: 0.046 


                                                                                                                                                  
 84%|███████████████████████████████████████████████████████████████████████████████████████▏                | 8385/10000 [08:36<01:43, 15.54it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 506.69it/s][A


[268380] loss: 0.038 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 818.56it/s][A
 84%|███████████████████████████████████████████████████████████████████████████████████████▏                | 8387/10000 [08:36<01:46, 15.16it/s]
                                                                                                                                                  [A
 84%|███████████████████████████████████████████████████████████████████████████████████████▏                | 8387/10000 [08:36<01:46, 15.16it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[268400] loss: 0.035 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 565.14it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 676.17it/s][A

                                                                                                                                                  [A
 84%|███████████████████████████████████████████████████████████████████████████████████████▏                | 8387/10000 [08:36<01:46, 15.16it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[268420] loss: 0.062 


                                                                                                                                                  
 84%|███████████████████████████████████████████████████████████████████████████████████████▏                | 8387/10000 [08:36<01:46, 15.16it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 482.89it/s][A


[268440] loss: 0.061 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 530.66it/s][A
 84%|███████████████████████████████████████████████████████████████████████████████████████▏                | 8389/10000 [08:36<01:49, 14.69it/s]
                                                                                                                                                  [A
 84%|███████████████████████████████████████████████████████████████████████████████████████▏                | 8389/10000 [08:36<01:49, 14.69it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[268460] loss: 0.076 


                                                                                                                                                  
 84%|███████████████████████████████████████████████████████████████████████████████████████▏                | 8389/10000 [08:36<01:49, 14.69it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 466.07it/s][A


[268480] loss: 0.125 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 696.73it/s][A

                                                                                                                                                  [A
 84%|███████████████████████████████████████████████████████████████████████████████████████▏                | 8389/10000 [08:36<01:49, 14.69it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[268500] loss: 0.041 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 530.42it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 475.81it/s][A
 84%|███████████████████████████████████████████████████████████████████████████████████████▎                | 8391/10000 [08:36<01:53, 14.23it/s]
                                                                                                                                                  [A
 84%|███████████████████████████████████████████████████████████████████████████████████████▎                | 8391/10000 [08:36<01:53, 14.23it/s]


[268520] loss: 0.043 


                                                                                                                                                  [A
 84%|███████████████████████████████████████████████████████████████████████████████████████▎                | 8391/10000 [08:36<01:53, 14.23it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 466.09it/s][A


[268540] loss: 0.109 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 965.10it/s][A

                                                                                                                                                  [A
 84%|███████████████████████████████████████████████████████████████████████████████████████▎                | 8391/10000 [08:36<01:53, 14.23it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[268560] loss: 0.039 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 561.35it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 950.87it/s][A
 84%|███████████████████████████████████████████████████████████████████████████████████████▎                | 8393/10000 [08:36<01:53, 14.11it/s]
                                                                                                                                                  [A
 84%|███████████████████████████████████████████████████████████████████████████████████████▎                | 8393/10000 [08:36<01:53, 14.11it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[268580] loss: 0.038 


                                                                                                                                                  
 84%|███████████████████████████████████████████████████████████████████████████████████████▎                | 8393/10000 [08:36<01:53, 14.11it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 532.40it/s][A


[268600] loss: 0.048 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 699.17it/s][A

                                                                                                                                                  [A
 84%|███████████████████████████████████████████████████████████████████████████████████████▎                | 8393/10000 [08:36<01:53, 14.11it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[268620] loss: 0.046 


                                                                                                                                                  
 84%|███████████████████████████████████████████████████████████████████████████████████████▎                | 8393/10000 [08:36<01:53, 14.11it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 542.69it/s][A


[268640] loss: 0.143 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 781.06it/s][A
 84%|███████████████████████████████████████████████████████████████████████████████████████▎                | 8395/10000 [08:36<01:52, 14.26it/s]
                                                                                                                                                  [A
 84%|███████████████████████████████████████████████████████████████████████████████████████▎                | 8395/10000 [08:36<01:52, 14.26it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 642.89it/s][A


[268660] loss: 0.074 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 613.56it/s][A

                                                                                                                                                  [A
 84%|███████████████████████████████████████████████████████████████████████████████████████▎                | 8395/10000 [08:36<01:52, 14.26it/s]
                                                                                                                                                  [A
 84%|███████████████████████████████████████████████████████████████████████████████████████▎                | 8395/10000 [08:36<01:52, 14.26it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 615.05it/s][A

[268680] loss: 0.080 
[268700] loss: 0.026 




Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1418.91it/s][A
 84%|███████████████████████████████████████████████████████████████████████████████████████▎                | 8397/10000 [08:36<01:47, 14.89it/s]
                                                                                                                                                  [A
 84%|███████████████████████████████████████████████████████████████████████████████████████▎                | 8397/10000 [08:36<01:47, 14.89it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[268720] loss: 0.059 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 775.96it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1377.44it/s][A

                                                                                                                                                  [A
 84%|███████████████████████████████████████████████████████████████████████████████████████▎                | 8397/10000 [08:36<01:47, 14.89it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[268740] loss: 0.047 


                                                                                                                                                  
 84%|███████████████████████████████████████████████████████████████████████████████████████▎                | 8397/10000 [08:36<01:47, 14.89it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 626.92it/s][A


[268760] loss: 0.067 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1638.40it/s][A
 84%|███████████████████████████████████████████████████████████████████████████████████████▎                | 8399/10000 [08:36<01:42, 15.63it/s]IOPub message rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_msg_rate_limit`.

Current values:
NotebookApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
NotebookApp.rate_limit_window=3.0 (secs)

 88%|███████████████████████████████████████████████████████████████████████████████████████████▋            | 8818/10000 [09:02<01:06, 17.73it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 609.11it/s][A


[282200] loss: 0.065 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1252.03it/s][A

                                                                                                                                                  [A
 88%|███████████████████████████████████████████████████████████████████████████████████████████▋            | 8818/10000 [09:02<01:06, 17.73it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[282220] loss: 0.042 


                                                                                                                                                  
 88%|███████████████████████████████████████████████████████████████████████████████████████████▋            | 8818/10000 [09:02<01:06, 17.73it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 605.74it/s][A


[282240] loss: 0.036 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1265.25it/s][A
 88%|███████████████████████████████████████████████████████████████████████████████████████████▋            | 8820/10000 [09:02<01:08, 17.11it/s]
                                                                                                                                                  [A
 88%|███████████████████████████████████████████████████████████████████████████████████████████▋            | 8820/10000 [09:02<01:08, 17.11it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[282260] loss: 0.028 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 621.98it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2406.37it/s][A

                                                                                                                                                  [A
[A                                                                                                                                               

[282280] loss: 0.041 


 88%|███████████████████████████████████████████████████████████████████████████████████████████▋            | 8820/10000 [09:02<01:08, 17.11it/s]
                                                                                                                                                  [A
 88%|███████████████████████████████████████████████████████████████████████████████████████████▋            | 8820/10000 [09:02<01:08, 17.11it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[282300] loss: 0.046 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 604.75it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1212.23it/s][A
 88%|███████████████████████████████████████████████████████████████████████████████████████████▋            | 8822/10000 [09:02<01:10, 16.70it/s]
                                                                                                                                                  [A
 88%|███████████████████████████████████████████████████████████████████████████████████████████▋            | 8822/10000 [09:02<01:10, 16.70it/s]


[282320] loss: 0.068 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 701.06it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1077.95it/s][A

                                                                                                                                                  [A
 88%|███████████████████████████████████████████████████████████████████████████████████████████▋            | 8822/10000 [09:02<01:10, 16.70it/s]
                                                                                                                                                  [A
 88%|███████████████████████████████████████████████████████████████████████████████████████████▋            | 8822/10000 [09:02<01:10, 16.70it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████

[282340] loss: 0.040 
[282360] loss: 0.063 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 877.10it/s][A
 88%|███████████████████████████████████████████████████████████████████████████████████████████▊            | 8824/10000 [09:02<01:07, 17.40it/s]
                                                                                                                                                  [A
 88%|███████████████████████████████████████████████████████████████████████████████████████████▊            | 8824/10000 [09:02<01:07, 17.40it/s]
                                                                                                                                                  [A
 88%|███████████████████████████████████████████████████████████████████████████████████████████▊            | 8824/10000 [09:02<01:07, 17.40it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[282380] loss: 0.042 
[282400] loss: 0.064 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 420.19it/s][A

                                                                                                                                                  [A
 88%|███████████████████████████████████████████████████████████████████████████████████████████▊            | 8824/10000 [09:02<01:07, 17.40it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[282420] loss: 0.048 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 807.93it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1721.80it/s][A
 88%|███████████████████████████████████████████████████████████████████████████████████████████▊            | 8826/10000 [09:02<01:05, 18.06it/s]
                                                                                                                                                  [A
 88%|███████████████████████████████████████████████████████████████████████████████████████████▊            | 8826/10000 [09:02<01:05, 18.06it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[282440] loss: 0.038 


                                                                                                                                                  
 88%|███████████████████████████████████████████████████████████████████████████████████████████▊            | 8826/10000 [09:02<01:05, 18.06it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 635.79it/s][A


[282460] loss: 0.089 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1201.12it/s][A

                                                                                                                                                  [A
 88%|███████████████████████████████████████████████████████████████████████████████████████████▊            | 8826/10000 [09:02<01:05, 18.06it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 723.36it/s][A


[282480] loss: 0.047 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 518.97it/s][A
 88%|███████████████████████████████████████████████████████████████████████████████████████████▊            | 8828/10000 [09:02<01:05, 17.98it/s]
                                                                                                                                                  [A
 88%|███████████████████████████████████████████████████████████████████████████████████████████▊            | 8828/10000 [09:02<01:05, 17.98it/s]
                                                                                                                                                  [A
 88%|███████████████████████████████████████████████████████████████████████████████████████████▊            | 8828/10000 [09:02<01:05, 17.98it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[282500] loss: 0.055 
[282520] loss: 0.073 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1009.70it/s][A

                                                                                                                                                  [A
 88%|███████████████████████████████████████████████████████████████████████████████████████████▊            | 8828/10000 [09:02<01:05, 17.98it/s]
                                                                                                                                                  [A
 88%|███████████████████████████████████████████████████████████████████████████████████████████▊            | 8828/10000 [09:02<01:05, 17.98it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 731.01it/s][A


[282540] loss: 0.054 
[282560] loss: 0.124 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 849.22it/s][A
 88%|███████████████████████████████████████████████████████████████████████████████████████████▊            | 8830/10000 [09:02<01:04, 18.19it/s]
                                                                                                                                                  [A
 88%|███████████████████████████████████████████████████████████████████████████████████████████▊            | 8830/10000 [09:02<01:04, 18.19it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 838.85it/s][A


[282580] loss: 0.061 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 654.13it/s][A

                                                                                                                                                  [A
 88%|███████████████████████████████████████████████████████████████████████████████████████████▊            | 8830/10000 [09:02<01:04, 18.19it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[282600] loss: 0.037 


                                                                                                                                                  
 88%|███████████████████████████████████████████████████████████████████████████████████████████▊            | 8830/10000 [09:02<01:04, 18.19it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 718.77it/s][A


[282620] loss: 0.082 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1471.69it/s][A

                                                                                                                                                  [A
 88%|███████████████████████████████████████████████████████████████████████████████████████████▊            | 8830/10000 [09:02<01:04, 18.19it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 750.52it/s][A


[282640] loss: 0.053 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 606.11it/s][A
 88%|███████████████████████████████████████████████████████████████████████████████████████████▊            | 8833/10000 [09:02<01:01, 18.92it/s]
                                                                                                                                                  [A
 88%|███████████████████████████████████████████████████████████████████████████████████████████▊            | 8833/10000 [09:02<01:01, 18.92it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[282660] loss: 0.060 


                                                                                                                                                  
 88%|███████████████████████████████████████████████████████████████████████████████████████████▊            | 8833/10000 [09:02<01:01, 18.92it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 587.50it/s][A


[282680] loss: 0.063 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 963.54it/s][A

                                                                                                                                                  [A
 88%|███████████████████████████████████████████████████████████████████████████████████████████▊            | 8833/10000 [09:02<01:01, 18.92it/s]
                                                                                                                                                  [A
 88%|███████████████████████████████████████████████████████████████████████████████████████████▊            | 8833/10000 [09:02<01:01, 18.92it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[282700] loss: 0.065 
[282720] loss: 0.058 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 667.97it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1474.79it/s][A
 88%|███████████████████████████████████████████████████████████████████████████████████████████▉            | 8835/10000 [09:02<01:03, 18.40it/s]
                                                                                                                                                  [A
 88%|███████████████████████████████████████████████████████████████████████████████████████████▉            | 8835/10000 [09:02<01:03, 18.40it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 830.83it/s][A


[282740] loss: 0.072 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 633.29it/s][A

                                                                                                                                                  [A
 88%|███████████████████████████████████████████████████████████████████████████████████████████▉            | 8835/10000 [09:03<01:03, 18.40it/s]
                                                                                                                                                  [A
 88%|███████████████████████████████████████████████████████████████████████████████████████████▉            | 8835/10000 [09:03<01:03, 18.40it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[282760] loss: 0.029 
[282780] loss: 0.068 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 622.83it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1437.88it/s][A
 88%|███████████████████████████████████████████████████████████████████████████████████████████▉            | 8837/10000 [09:03<01:02, 18.59it/s]
                                                                                                                                                  [A
 88%|███████████████████████████████████████████████████████████████████████████████████████████▉            | 8837/10000 [09:03<01:02, 18.59it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 711.33it/s][A


[282800] loss: 0.061 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1039.74it/s][A

                                                                                                                                                  [A
 88%|███████████████████████████████████████████████████████████████████████████████████████████▉            | 8837/10000 [09:03<01:02, 18.59it/s]
                                                                                                                                                  [A
 88%|███████████████████████████████████████████████████████████████████████████████████████████▉            | 8837/10000 [09:03<01:02, 18.59it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 687.63it/s][A


[282820] loss: 0.050 
[282840] loss: 0.054 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1088.30it/s][A
 88%|███████████████████████████████████████████████████████████████████████████████████████████▉            | 8839/10000 [09:03<01:03, 18.42it/s]
                                                                                                                                                  [A
 88%|███████████████████████████████████████████████████████████████████████████████████████████▉            | 8839/10000 [09:03<01:03, 18.42it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[282860] loss: 0.053 


                                                                                                                                                  
 88%|███████████████████████████████████████████████████████████████████████████████████████████▉            | 8839/10000 [09:03<01:03, 18.42it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 601.64it/s][A


[282880] loss: 0.062 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1074.91it/s][A

                                                                                                                                                  [A
 88%|███████████████████████████████████████████████████████████████████████████████████████████▉            | 8839/10000 [09:03<01:03, 18.42it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 889.52it/s][A


[282900] loss: 0.090 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1014.10it/s][A
 88%|███████████████████████████████████████████████████████████████████████████████████████████▉            | 8841/10000 [09:03<01:02, 18.48it/s]
                                                                                                                                                  [A
 88%|███████████████████████████████████████████████████████████████████████████████████████████▉            | 8841/10000 [09:03<01:02, 18.48it/s]
                                                                                                                                                  [A
 88%|███████████████████████████████████████████████████████████████████████████████████████████▉            | 8841/10000 [09:03<01:02, 18.48it/s]
Training Epoch:   0%|                                                                                       

[282920] loss: 0.036 
[282940] loss: 0.048 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 636.37it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1041.55it/s][A

                                                                                                                                                  [A
 88%|███████████████████████████████████████████████████████████████████████████████████████████▉            | 8841/10000 [09:03<01:02, 18.48it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 713.81it/s][A


[282960] loss: 0.093 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1557.48it/s][A
 88%|███████████████████████████████████████████████████████████████████████████████████████████▉            | 8843/10000 [09:03<01:03, 18.27it/s]
                                                                                                                                                  [A
 88%|███████████████████████████████████████████████████████████████████████████████████████████▉            | 8843/10000 [09:03<01:03, 18.27it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[282980] loss: 0.062 


                                                                                                                                                  
 88%|███████████████████████████████████████████████████████████████████████████████████████████▉            | 8843/10000 [09:03<01:03, 18.27it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 664.81it/s][A


[283000] loss: 0.049 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1541.46it/s][A

                                                                                                                                                  [A
 88%|███████████████████████████████████████████████████████████████████████████████████████████▉            | 8843/10000 [09:03<01:03, 18.27it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[283020] loss: 0.056 


                                                                                                                                                  
 88%|███████████████████████████████████████████████████████████████████████████████████████████▉            | 8843/10000 [09:03<01:03, 18.27it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 627.21it/s][A


[283040] loss: 0.063 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1082.12it/s][A
 88%|███████████████████████████████████████████████████████████████████████████████████████████▉            | 8845/10000 [09:03<01:04, 17.85it/s]
                                                                                                                                                  [A
 88%|███████████████████████████████████████████████████████████████████████████████████████████▉            | 8845/10000 [09:03<01:04, 17.85it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 938.13it/s][A


[283060] loss: 0.079 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1530.21it/s][A

                                                                                                                                                  [A
 88%|███████████████████████████████████████████████████████████████████████████████████████████▉            | 8845/10000 [09:03<01:04, 17.85it/s]
                                                                                                                                                  [A
 88%|███████████████████████████████████████████████████████████████████████████████████████████▉            | 8845/10000 [09:03<01:04, 17.85it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 676.14it/s][A


[283080] loss: 0.054 
[283100] loss: 0.032 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1077.40it/s][A

                                                                                                                                                  [A
 88%|███████████████████████████████████████████████████████████████████████████████████████████▉            | 8845/10000 [09:03<01:04, 17.85it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[283120] loss: 0.056 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 933.88it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 593.93it/s][A
 88%|████████████████████████████████████████████████████████████████████████████████████████████            | 8848/10000 [09:03<01:00, 18.96it/s]
                                                                                                                                                  [A
 88%|████████████████████████████████████████████████████████████████████████████████████████████            | 8848/10000 [09:03<01:00, 18.96it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[283140] loss: 0.047 


                                                                                                                                                  
 88%|████████████████████████████████████████████████████████████████████████████████████████████            | 8848/10000 [09:03<01:00, 18.96it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[283160] loss: 0.041 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 620.22it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2105.57it/s][A

                                                                                                                                                  [A
 88%|████████████████████████████████████████████████████████████████████████████████████████████            | 8848/10000 [09:03<01:00, 18.96it/s]


[283180] loss: 0.075 


                                                                                                                                                  [A
 88%|████████████████████████████████████████████████████████████████████████████████████████████            | 8848/10000 [09:03<01:00, 18.96it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 649.40it/s][A


[283200] loss: 0.100 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 765.24it/s][A
 88%|████████████████████████████████████████████████████████████████████████████████████████████            | 8850/10000 [09:03<01:02, 18.45it/s]
                                                                                                                                                  [A
 88%|████████████████████████████████████████████████████████████████████████████████████████████            | 8850/10000 [09:03<01:02, 18.45it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 815.84it/s][A


[283220] loss: 0.069 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1901.32it/s][A

                                                                                                                                                  [A
 88%|████████████████████████████████████████████████████████████████████████████████████████████            | 8850/10000 [09:03<01:02, 18.45it/s]
                                                                                                                                                  [A
 88%|████████████████████████████████████████████████████████████████████████████████████████████            | 8850/10000 [09:03<01:02, 18.45it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[283240] loss: 0.088 
[283260] loss: 0.066 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 689.38it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1400.44it/s][A
 89%|████████████████████████████████████████████████████████████████████████████████████████████            | 8852/10000 [09:03<01:01, 18.77it/s]
                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████            | 8852/10000 [09:03<01:01, 18.77it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 720.87it/s][A


[283280] loss: 0.032 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1326.47it/s][A

                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████            | 8852/10000 [09:03<01:01, 18.77it/s]
                                                                                                                                                  [A


[283300] loss: 0.049 


 89%|████████████████████████████████████████████████████████████████████████████████████████████            | 8852/10000 [09:03<01:01, 18.77it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 671.04it/s][A


[283320] loss: 0.031 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1258.42it/s][A
 89%|████████████████████████████████████████████████████████████████████████████████████████████            | 8854/10000 [09:03<01:01, 18.52it/s]
                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████            | 8854/10000 [09:04<01:01, 18.52it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[283340] loss: 0.066 


                                                                                                                                                  
 89%|████████████████████████████████████████████████████████████████████████████████████████████            | 8854/10000 [09:04<01:01, 18.52it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 591.23it/s][A


[283360] loss: 0.041 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 310.99it/s][A

                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████            | 8854/10000 [09:04<01:01, 18.52it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 739.89it/s][A


[283380] loss: 0.049 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1417.47it/s][A
 89%|████████████████████████████████████████████████████████████████████████████████████████████            | 8856/10000 [09:04<01:03, 18.02it/s]
                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████            | 8856/10000 [09:04<01:03, 18.02it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[283400] loss: 0.065 


                                                                                                                                                  
 89%|████████████████████████████████████████████████████████████████████████████████████████████            | 8856/10000 [09:04<01:03, 18.02it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 590.14it/s][A


[283420] loss: 0.054 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1410.80it/s][A

                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████            | 8856/10000 [09:04<01:03, 18.02it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 778.54it/s][A

[283440] loss: 0.055 




Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1261.07it/s][A
 89%|████████████████████████████████████████████████████████████████████████████████████████████            | 8858/10000 [09:04<01:03, 17.95it/s]
                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████            | 8858/10000 [09:04<01:03, 17.95it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[283460] loss: 0.050 


                                                                                                                                                  
 89%|████████████████████████████████████████████████████████████████████████████████████████████            | 8858/10000 [09:04<01:03, 17.95it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 641.70it/s][A


[283480] loss: 0.056 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 730.21it/s][A

                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████            | 8858/10000 [09:04<01:03, 17.95it/s]
                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████            | 8858/10000 [09:04<01:03, 17.95it/s]


[283500] loss: 0.026 
[283520] loss: 0.030 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 731.52it/s][A

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 481.94it/s][A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▏           | 8860/10000 [09:04<01:03, 17.88it/s]
                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▏           | 8860/10000 [09:04<01:03, 17.88it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 849.35it/s][A


[283540] loss: 0.064 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 686.13it/s][A

                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▏           | 8860/10000 [09:04<01:03, 17.88it/s]

[283560] loss: 0.074 



                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▏           | 8860/10000 [09:04<01:03, 17.88it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 679.94it/s][A


[283580] loss: 0.057 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1453.33it/s][A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▏           | 8862/10000 [09:04<01:01, 18.38it/s]
                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▏           | 8862/10000 [09:04<01:01, 18.38it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[283600] loss: 0.062 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 815.33it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1142.55it/s][A

                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▏           | 8862/10000 [09:04<01:01, 18.38it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[283620] loss: 0.063 


                                                                                                                                                  
 89%|████████████████████████████████████████████████████████████████████████████████████████████▏           | 8862/10000 [09:04<01:01, 18.38it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 631.73it/s][A


[283640] loss: 0.051 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 901.81it/s][A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▏           | 8864/10000 [09:04<01:01, 18.45it/s]
                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▏           | 8864/10000 [09:04<01:01, 18.45it/s]
                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▏           | 8864/10000 [09:04<01:01, 18.45it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[283660] loss: 0.061 
[283680] loss: 0.022 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 343.80it/s][A

                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▏           | 8864/10000 [09:04<01:01, 18.45it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 773.47it/s][A


[283700] loss: 0.080 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1193.60it/s][A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▏           | 8866/10000 [09:04<01:01, 18.53it/s]
                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▏           | 8866/10000 [09:04<01:01, 18.53it/s]
                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▏           | 8866/10000 [09:04<01:01, 18.53it/s]
Training Epoch:   0%|                                                                                       

[283720] loss: 0.078 
[283740] loss: 0.056 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 622.42it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1072.99it/s][A

                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▏           | 8866/10000 [09:04<01:01, 18.53it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 776.43it/s][A


[283760] loss: 0.045 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 701.98it/s][A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▏           | 8868/10000 [09:04<01:01, 18.33it/s]
                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▏           | 8868/10000 [09:04<01:01, 18.33it/s]
                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▏           | 8868/10000 [09:04<01:01, 18.33it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[283780] loss: 0.070 
[283800] loss: 0.054 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 875.45it/s][A

                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▏           | 8868/10000 [09:04<01:01, 18.33it/s]
                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▏           | 8868/10000 [09:04<01:01, 18.33it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 765.02it/s][A


[283820] loss: 0.067 
[283840] loss: 0.037 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 276.76it/s][A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▏           | 8870/10000 [09:04<01:01, 18.35it/s]
                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▏           | 8870/10000 [09:04<01:01, 18.35it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 857.54it/s][A


[283860] loss: 0.060 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1661.77it/s][A

                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▏           | 8870/10000 [09:04<01:01, 18.35it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[283880] loss: 0.062 


                                                                                                                                                  
 89%|████████████████████████████████████████████████████████████████████████████████████████████▏           | 8870/10000 [09:04<01:01, 18.35it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 656.64it/s][A


[283900] loss: 0.035 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1569.72it/s][A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▎           | 8872/10000 [09:04<01:00, 18.76it/s]
                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▎           | 8872/10000 [09:04<01:00, 18.76it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 747.26it/s][A


[283920] loss: 0.053 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 611.50it/s][A

                                                                                                                                                  [A
[A                                                                                                                                               

[283940] loss: 0.075 


 89%|████████████████████████████████████████████████████████████████████████████████████████████▎           | 8872/10000 [09:05<01:00, 18.76it/s]
                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▎           | 8872/10000 [09:05<01:00, 18.76it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 694.95it/s][A


[283960] loss: 0.068 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 996.51it/s][A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▎           | 8874/10000 [09:05<01:00, 18.72it/s]
                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▎           | 8874/10000 [09:05<01:00, 18.72it/s]
                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▎           | 8874/10000 [09:05<01:00, 18.72it/s]


[283980] loss: 0.065 
[284000] loss: 0.088 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 631.08it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1069.70it/s][A

                                                                                                                                                  [A
[A                                                                                                                                               

[284020] loss: 0.059 


 89%|████████████████████████████████████████████████████████████████████████████████████████████▎           | 8874/10000 [09:05<01:00, 18.72it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 1022.08it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2070.24it/s][A

                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▎           | 8874/10000 [09:05<01:00, 18.72it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[284040] loss: 0.108 


                                                                                                                                                  
 89%|████████████████████████████████████████████████████████████████████████████████████████████▎           | 8874/10000 [09:05<01:00, 18.72it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 671.47it/s][A


[284060] loss: 0.075 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1425.66it/s][A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▎           | 8877/10000 [09:05<00:58, 19.06it/s]
                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▎           | 8877/10000 [09:05<00:58, 19.06it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[284080] loss: 0.045 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 850.01it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1600.88it/s][A

                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▎           | 8877/10000 [09:05<00:58, 19.06it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[284100] loss: 0.035 


                                                                                                                                                  
 89%|████████████████████████████████████████████████████████████████████████████████████████████▎           | 8877/10000 [09:05<00:58, 19.06it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 721.45it/s][A


[284120] loss: 0.088 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1482.61it/s][A

                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▎           | 8877/10000 [09:05<00:58, 19.06it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[284140] loss: 0.085 


                                                                                                                                                  
 89%|████████████████████████████████████████████████████████████████████████████████████████████▎           | 8877/10000 [09:05<00:58, 19.06it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 665.20it/s][A


[284160] loss: 0.041 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 332.54it/s][A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▎           | 8880/10000 [09:05<00:58, 19.20it/s]
                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▎           | 8880/10000 [09:05<00:58, 19.20it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[284180] loss: 0.060 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 770.70it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 711.50it/s][A

                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▎           | 8880/10000 [09:05<00:58, 19.20it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[284200] loss: 0.039 


                                                                                                                                                  
 89%|████████████████████████████████████████████████████████████████████████████████████████████▎           | 8880/10000 [09:05<00:58, 19.20it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[284220] loss: 0.060 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 606.30it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 901.61it/s][A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▎           | 8882/10000 [09:05<00:59, 18.89it/s]
                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▎           | 8882/10000 [09:05<00:59, 18.89it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 784.68it/s][A


[284240] loss: 0.064 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 823.87it/s][A

                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▎           | 8882/10000 [09:05<00:59, 18.89it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[284260] loss: 0.074 


                                                                                                                                                  
 89%|████████████████████████████████████████████████████████████████████████████████████████████▎           | 8882/10000 [09:05<00:59, 18.89it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 661.24it/s][A


[284280] loss: 0.082 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 775.14it/s][A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▍           | 8884/10000 [09:05<00:58, 18.97it/s]
                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▍           | 8884/10000 [09:05<00:58, 18.97it/s]
                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▍           | 8884/10000 [09:05<00:58, 18.97it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[284300] loss: 0.061 
[284320] loss: 0.018 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 857.56it/s][A

                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▍           | 8884/10000 [09:05<00:58, 18.97it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[284340] loss: 0.029 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 897.65it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1352.13it/s][A

                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▍           | 8884/10000 [09:05<00:58, 18.97it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[284360] loss: 0.057 


                                                                                                                                                  
 89%|████████████████████████████████████████████████████████████████████████████████████████████▍           | 8884/10000 [09:05<00:58, 18.97it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 722.89it/s][A


[284380] loss: 0.075 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1465.00it/s][A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▍           | 8887/10000 [09:05<00:57, 19.49it/s]
                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▍           | 8887/10000 [09:05<00:57, 19.49it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[284400] loss: 0.056 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 780.59it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1085.20it/s][A

                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▍           | 8887/10000 [09:05<00:57, 19.49it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[284420] loss: 0.056 


                                                                                                                                                  
 89%|████████████████████████████████████████████████████████████████████████████████████████████▍           | 8887/10000 [09:05<00:57, 19.49it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 627.05it/s][A


[284440] loss: 0.075 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 770.87it/s][A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▍           | 8889/10000 [09:05<00:57, 19.32it/s]
                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▍           | 8889/10000 [09:05<00:57, 19.32it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[284460] loss: 0.058 


                                                                                                                                                  
 89%|████████████████████████████████████████████████████████████████████████████████████████████▍           | 8889/10000 [09:05<00:57, 19.32it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 722.84it/s][A


[284480] loss: 0.054 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1134.82it/s][A

                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▍           | 8889/10000 [09:05<00:57, 19.32it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[284500] loss: 0.062 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 877.24it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2307.10it/s][A

                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▍           | 8889/10000 [09:05<00:57, 19.32it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[284520] loss: 0.038 


                                                                                                                                                  
 89%|████████████████████████████████████████████████████████████████████████████████████████████▍           | 8889/10000 [09:05<00:57, 19.32it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 742.65it/s][A


[284540] loss: 0.058 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1494.76it/s][A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▍           | 8892/10000 [09:05<00:56, 19.75it/s]
                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▍           | 8892/10000 [09:06<00:56, 19.75it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[284560] loss: 0.074 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 802.17it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 628.74it/s][A

                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▍           | 8892/10000 [09:06<00:56, 19.75it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[284580] loss: 0.053 


                                                                                                                                                  
 89%|████████████████████████████████████████████████████████████████████████████████████████████▍           | 8892/10000 [09:06<00:56, 19.75it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 740.88it/s][A


[284600] loss: 0.038 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 831.54it/s][A

                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▍           | 8892/10000 [09:06<00:56, 19.75it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[284620] loss: 0.084 


                                                                                                                                                  
 89%|████████████████████████████████████████████████████████████████████████████████████████████▍           | 8892/10000 [09:06<00:56, 19.75it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 697.52it/s][A


[284640] loss: 0.024 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1110.78it/s][A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▌           | 8895/10000 [09:06<00:56, 19.67it/s]
                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▌           | 8895/10000 [09:06<00:56, 19.67it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[284660] loss: 0.041 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 835.43it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1576.81it/s][A

                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▌           | 8895/10000 [09:06<00:56, 19.67it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[284680] loss: 0.039 


                                                                                                                                                  
 89%|████████████████████████████████████████████████████████████████████████████████████████████▌           | 8895/10000 [09:06<00:56, 19.67it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 739.39it/s][A


[284700] loss: 0.068 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1179.17it/s][A

                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▌           | 8895/10000 [09:06<00:56, 19.67it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[284720] loss: 0.062 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 798.09it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1846.08it/s][A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▌           | 8898/10000 [09:06<00:54, 20.06it/s]
                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▌           | 8898/10000 [09:06<00:54, 20.06it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[284740] loss: 0.055 


                                                                                                                                                  
 89%|████████████████████████████████████████████████████████████████████████████████████████████▌           | 8898/10000 [09:06<00:54, 20.06it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[284760] loss: 0.065 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 648.51it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1525.20it/s][A

                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▌           | 8898/10000 [09:06<00:54, 20.06it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[284780] loss: 0.086 


                                                                                                                                                  
 89%|████████████████████████████████████████████████████████████████████████████████████████████▌           | 8898/10000 [09:06<00:54, 20.06it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 762.62it/s][A


[284800] loss: 0.030 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2007.80it/s][A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▌           | 8900/10000 [09:06<00:56, 19.63it/s]
                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▌           | 8900/10000 [09:06<00:56, 19.63it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[284820] loss: 0.063 


Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 1034.47it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1950.84it/s][A

                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▌           | 8900/10000 [09:06<00:56, 19.63it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[284840] loss: 0.066 


                                                                                                                                                  
 89%|████████████████████████████████████████████████████████████████████████████████████████████▌           | 8900/10000 [09:06<00:56, 19.63it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 741.44it/s][A


[284860] loss: 0.037 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1446.81it/s][A

                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▌           | 8900/10000 [09:06<00:56, 19.63it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 877.24it/s][A

[284880] loss: 0.044 




Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1825.99it/s][A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▌           | 8903/10000 [09:06<00:54, 20.31it/s]
                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▌           | 8903/10000 [09:06<00:54, 20.31it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[284900] loss: 0.035 


                                                                                                                                                  
 89%|████████████████████████████████████████████████████████████████████████████████████████████▌           | 8903/10000 [09:06<00:54, 20.31it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[284920] loss: 0.056 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 612.86it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1349.08it/s][A

                                                                                                                                                  [A
[A                                                                                                                                               

[284940] loss: 0.049 

 89%|████████████████████████████████████████████████████████████████████████████████████████████▌           | 8903/10000 [09:06<00:54, 20.31it/s]
                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▌           | 8903/10000 [09:06<00:54, 20.31it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A


[284960] loss: 0.024 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 625.54it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1105.22it/s][A

                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▌           | 8903/10000 [09:06<00:54, 20.31it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 839.50it/s][A


[284980] loss: 0.054 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1975.65it/s][A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▌           | 8906/10000 [09:06<00:56, 19.44it/s]
                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▌           | 8906/10000 [09:06<00:56, 19.44it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[285000] loss: 0.118 


                                                                                                                                                  
 89%|████████████████████████████████████████████████████████████████████████████████████████████▌           | 8906/10000 [09:06<00:56, 19.44it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 633.37it/s][A


[285020] loss: 0.074 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 732.25it/s][A

                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▌           | 8906/10000 [09:06<00:56, 19.44it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 746.19it/s][A


[285040] loss: 0.052 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 687.48it/s][A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▋           | 8908/10000 [09:06<00:57, 19.05it/s]
                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▋           | 8908/10000 [09:06<00:57, 19.05it/s]
                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▋           | 8908/10000 [09:06<00:57, 19.05it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[285060] loss: 0.065 
[285080] loss: 0.054 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2012.62it/s][A

                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▋           | 8908/10000 [09:06<00:57, 19.05it/s]
                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▋           | 8908/10000 [09:06<00:57, 19.05it/s]


[285100] loss: 0.048 
[285120] loss: 0.028 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 644.63it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1140.07it/s][A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▋           | 8910/10000 [09:06<00:58, 18.65it/s]
                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▋           | 8910/10000 [09:06<00:58, 18.65it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 799.56it/s][A


[285140] loss: 0.076 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 558.72it/s][A

                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▋           | 8910/10000 [09:06<00:58, 18.65it/s]
                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▋           | 8910/10000 [09:07<00:58, 18.65it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[285160] loss: 0.061 
[285180] loss: 0.085 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 654.97it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1316.89it/s][A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▋           | 8912/10000 [09:07<00:58, 18.53it/s]
                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▋           | 8912/10000 [09:07<00:58, 18.53it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 775.71it/s][A


[285200] loss: 0.052 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 686.13it/s][A

                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▋           | 8912/10000 [09:07<00:58, 18.53it/s]
                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▋           | 8912/10000 [09:07<00:58, 18.53it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 649.32it/s][A


[285220] loss: 0.056 
[285240] loss: 0.060 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2011.66it/s][A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▋           | 8914/10000 [09:07<00:58, 18.48it/s]
                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▋           | 8914/10000 [09:07<00:58, 18.48it/s]
                                                                                                                                                  [A
[A                                                                                                                                               

[285260] loss: 0.056 


 89%|████████████████████████████████████████████████████████████████████████████████████████████▋           | 8914/10000 [09:07<00:58, 18.48it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 677.71it/s][A


[285280] loss: 0.047 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 810.81it/s][A

                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▋           | 8914/10000 [09:07<00:58, 18.48it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 754.91it/s][A


[285300] loss: 0.059 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 703.27it/s][A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▋           | 8916/10000 [09:07<00:58, 18.63it/s]
                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▋           | 8916/10000 [09:07<00:58, 18.63it/s]
                                                                                                                                                  [A
                                                                                                                                                  

[285320] loss: 0.074 


 89%|████████████████████████████████████████████████████████████████████████████████████████████▋           | 8916/10000 [09:07<00:58, 18.63it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 591.30it/s][A


[285340] loss: 0.068 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1436.41it/s][A

                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▋           | 8916/10000 [09:07<00:58, 18.63it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 728.38it/s][A


[285360] loss: 0.059 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2156.45it/s][A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▋           | 8918/10000 [09:07<00:59, 18.28it/s]
                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▋           | 8918/10000 [09:07<00:59, 18.28it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[285380] loss: 0.040 


                                                                                                                                                  
 89%|████████████████████████████████████████████████████████████████████████████████████████████▋           | 8918/10000 [09:07<00:59, 18.28it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 587.51it/s][A


[285400] loss: 0.038 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1279.92it/s][A

                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▋           | 8918/10000 [09:07<00:59, 18.28it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[285420] loss: 0.031 


                                                                                                                                                  
 89%|████████████████████████████████████████████████████████████████████████████████████████████▋           | 8918/10000 [09:07<00:59, 18.28it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 656.89it/s][A


[285440] loss: 0.016 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 504.43it/s][A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▊           | 8920/10000 [09:07<01:01, 17.67it/s]
                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▊           | 8920/10000 [09:07<01:01, 17.67it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 696.41it/s][A


[285460] loss: 0.081 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 558.12it/s][A

                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▊           | 8920/10000 [09:07<01:01, 17.67it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[285480] loss: 0.056 


                                                                                                                                                  
 89%|████████████████████████████████████████████████████████████████████████████████████████████▊           | 8920/10000 [09:07<01:01, 17.67it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 608.74it/s][A


[285500] loss: 0.062 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1144.73it/s][A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▊           | 8922/10000 [09:07<01:01, 17.50it/s]
                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▊           | 8922/10000 [09:07<01:01, 17.50it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[285520] loss: 0.067 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 743.63it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2546.63it/s][A

                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▊           | 8922/10000 [09:07<01:01, 17.50it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[285540] loss: 0.052 


                                                                                                                                                  
 89%|████████████████████████████████████████████████████████████████████████████████████████████▊           | 8922/10000 [09:07<01:01, 17.50it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 682.88it/s][A


[285560] loss: 0.056 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 757.37it/s][A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▊           | 8924/10000 [09:07<01:00, 17.86it/s]
                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▊           | 8924/10000 [09:07<01:00, 17.86it/s]
                                                                                                                                                  [A

[285580] loss: 0.062 



 89%|████████████████████████████████████████████████████████████████████████████████████████████▊           | 8924/10000 [09:07<01:00, 17.86it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 598.51it/s][A


[285600] loss: 0.098 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1223.19it/s][A

                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▊           | 8924/10000 [09:07<01:00, 17.86it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 792.74it/s][A


[285620] loss: 0.038 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 713.07it/s][A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▊           | 8926/10000 [09:07<00:59, 17.93it/s]
                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▊           | 8926/10000 [09:07<00:59, 17.93it/s]
                                                                                                                                                  [A
                                                                                                                                                  

[285640] loss: 0.061 


 89%|████████████████████████████████████████████████████████████████████████████████████████████▊           | 8926/10000 [09:07<00:59, 17.93it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 617.20it/s][A


[285660] loss: 0.118 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1478.43it/s][A

                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▊           | 8926/10000 [09:07<00:59, 17.93it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 744.58it/s][A


[285680] loss: 0.030 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 677.59it/s][A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▊           | 8928/10000 [09:07<00:59, 17.88it/s]
                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▊           | 8928/10000 [09:07<00:59, 17.88it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[285700] loss: 0.067 


                                                                                                                                                  
 89%|████████████████████████████████████████████████████████████████████████████████████████████▊           | 8928/10000 [09:07<00:59, 17.88it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 658.39it/s][A


[285720] loss: 0.066 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1892.74it/s][A

                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▊           | 8928/10000 [09:08<00:59, 17.88it/s]
                                                                                                                                                  [A
[A                                                                                                                                               

[285740] loss: 0.046 


 89%|████████████████████████████████████████████████████████████████████████████████████████████▊           | 8928/10000 [09:08<00:59, 17.88it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 661.49it/s][A


[285760] loss: 0.032 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 662.50it/s][A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▊           | 8930/10000 [09:08<01:00, 17.76it/s]
                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▊           | 8930/10000 [09:08<01:00, 17.76it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 871.11it/s][A


[285780] loss: 0.060 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2027.21it/s][A

                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▊           | 8930/10000 [09:08<01:00, 17.76it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[285800] loss: 0.043 


                                                                                                                                                  
 89%|████████████████████████████████████████████████████████████████████████████████████████████▊           | 8930/10000 [09:08<01:00, 17.76it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 823.06it/s][A


[285820] loss: 0.050 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1949.03it/s][A

                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▊           | 8930/10000 [09:08<01:00, 17.76it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[285840] loss: 0.047 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 966.05it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1913.46it/s][A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▉           | 8933/10000 [09:08<00:55, 19.39it/s]
                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▉           | 8933/10000 [09:08<00:55, 19.39it/s]
                                                                                                                                                  [A

[285860] loss: 0.065 



 89%|████████████████████████████████████████████████████████████████████████████████████████████▉           | 8933/10000 [09:08<00:55, 19.39it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 867.56it/s][A


[285880] loss: 0.103 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 848.02it/s][A

                                                                                                                                                  [A
 89%|████████████████████████████████████████████████████████████████████████████████████████████▉           | 8933/10000 [09:08<00:55, 19.39it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][AIOPub message rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_msg_rate_limit`.

Current values:
NotebookApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
NotebookApp.rate_limit_window=3.0 (secs)


 94%|███████████████████████████████████████████████████████████████████████

[299340] loss: 0.094 


                                                                                                                                                  
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▎      | 9354/10000 [09:32<00:44, 14.51it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 456.47it/s][A


[299360] loss: 0.049 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 742.22it/s][A

                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▎      | 9354/10000 [09:32<00:44, 14.51it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[299380] loss: 0.035 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 539.50it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 561.94it/s][A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▎      | 9356/10000 [09:32<00:45, 14.18it/s]
                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▎      | 9356/10000 [09:32<00:45, 14.18it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[299400] loss: 0.047 


                                                                                                                                                  
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▎      | 9356/10000 [09:32<00:45, 14.18it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 590.24it/s][A


[299420] loss: 0.080 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1397.64it/s][A

                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▎      | 9356/10000 [09:32<00:45, 14.18it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 692.95it/s][A


[299440] loss: 0.042 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 424.57it/s][A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▎      | 9358/10000 [09:32<00:43, 14.75it/s]
                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▎      | 9358/10000 [09:32<00:43, 14.75it/s]
                                                                                                                                                  [A
                                                                                                                                                  

[299460] loss: 0.061 


 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▎      | 9358/10000 [09:32<00:43, 14.75it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 585.60it/s][A


[299480] loss: 0.060 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 895.64it/s][A

                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▎      | 9358/10000 [09:32<00:43, 14.75it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[299500] loss: 0.037 


                                                                                                                                                  
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▎      | 9358/10000 [09:32<00:43, 14.75it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 644.25it/s][A


[299520] loss: 0.114 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 582.14it/s][A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▎      | 9360/10000 [09:32<00:42, 15.19it/s]
                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▎      | 9360/10000 [09:32<00:42, 15.19it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 772.30it/s][A


[299540] loss: 0.094 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1267.54it/s][A

                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▎      | 9360/10000 [09:32<00:42, 15.19it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[299560] loss: 0.037 


                                                                                                                                                  
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▎      | 9360/10000 [09:32<00:42, 15.19it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 647.28it/s][A


[299580] loss: 0.074 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 723.03it/s][A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▎      | 9362/10000 [09:32<00:39, 15.98it/s]
                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▎      | 9362/10000 [09:32<00:39, 15.98it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 744.56it/s][A


[299600] loss: 0.091 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1179.83it/s][A

                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▎      | 9362/10000 [09:32<00:39, 15.98it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[299620] loss: 0.029 


                                                                                                                                                  
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▎      | 9362/10000 [09:32<00:39, 15.98it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 622.04it/s][A


[299640] loss: 0.083 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 618.90it/s][A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▍      | 9364/10000 [09:32<00:38, 16.53it/s]
                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▍      | 9364/10000 [09:32<00:38, 16.53it/s]
                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▍      | 9364/10000 [09:32<00:38, 16.53it/s]
Training Epoch:   0%|                                                                                       

[299660] loss: 0.090 
[299680] loss: 0.015 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 692.76it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 939.37it/s][A

                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▍      | 9364/10000 [09:32<00:38, 16.53it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 808.95it/s][A


[299700] loss: 0.039 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 958.48it/s][A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▍      | 9366/10000 [09:32<00:36, 17.37it/s]
                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▍      | 9366/10000 [09:32<00:36, 17.37it/s]
                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▍      | 9366/10000 [09:32<00:36, 17.37it/s]


[299720] loss: 0.085 
[299740] loss: 0.079 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 620.48it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1427.12it/s][A

                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▍      | 9366/10000 [09:32<00:36, 17.37it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 759.66it/s][A


[299760] loss: 0.070 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1121.47it/s][A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▍      | 9368/10000 [09:32<00:35, 17.76it/s]
                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▍      | 9368/10000 [09:32<00:35, 17.76it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[299780] loss: 0.066 


                                                                                                                                                  
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▍      | 9368/10000 [09:32<00:35, 17.76it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 570.29it/s][A


[299800] loss: 0.082 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1129.32it/s][A

                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▍      | 9368/10000 [09:32<00:35, 17.76it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[299820] loss: 0.066 


                                                                                                                                                  
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▍      | 9368/10000 [09:32<00:35, 17.76it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 566.42it/s][A


[299840] loss: 0.028 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1375.63it/s][A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▍      | 9370/10000 [09:32<00:37, 16.93it/s]
                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▍      | 9370/10000 [09:32<00:37, 16.93it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 843.79it/s][A


[299860] loss: 0.055 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2072.28it/s][A

                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▍      | 9370/10000 [09:32<00:37, 16.93it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[299880] loss: 0.057 


                                                                                                                                                  
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▍      | 9370/10000 [09:32<00:37, 16.93it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 690.40it/s][A


[299900] loss: 0.068 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1461.43it/s][A

                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▍      | 9370/10000 [09:33<00:37, 16.93it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 773.37it/s][A


[299920] loss: 0.064 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1321.46it/s][A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▍      | 9373/10000 [09:33<00:34, 18.05it/s]
                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▍      | 9373/10000 [09:33<00:34, 18.05it/s]
                                                                                                                                                  [A
                                                                                                                                                  

[299940] loss: 0.036 


 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▍      | 9373/10000 [09:33<00:34, 18.05it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 621.35it/s][A


[299960] loss: 0.039 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1365.78it/s][A

                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▍      | 9373/10000 [09:33<00:34, 18.05it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[299980] loss: 0.046 


                                                                                                                                                  
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▍      | 9373/10000 [09:33<00:34, 18.05it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 564.66it/s][A


[300000] loss: 0.031 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1345.62it/s][A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▌      | 9375/10000 [09:33<00:35, 17.43it/s]
                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▌      | 9375/10000 [09:33<00:35, 17.43it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[300020] loss: 0.072 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 540.88it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 945.30it/s][A

                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▌      | 9375/10000 [09:33<00:35, 17.43it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[300040] loss: 0.082 


                                                                                                                                                  
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▌      | 9375/10000 [09:33<00:35, 17.43it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 512.94it/s][A


[300060] loss: 0.048 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 781.50it/s][A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▌      | 9377/10000 [09:33<00:38, 16.34it/s]
                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▌      | 9377/10000 [09:33<00:38, 16.34it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[300080] loss: 0.065 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 576.55it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1033.08it/s][A

                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▌      | 9377/10000 [09:33<00:38, 16.34it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[300100] loss: 0.060 


                                                                                                                                                  
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▌      | 9377/10000 [09:33<00:38, 16.34it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 504.47it/s][A


[300120] loss: 0.055 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 486.52it/s][A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▌      | 9379/10000 [09:33<00:39, 15.75it/s]
                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▌      | 9379/10000 [09:33<00:39, 15.75it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[300140] loss: 0.046 


                                                                                                                                                  
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▌      | 9379/10000 [09:33<00:39, 15.75it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 526.85it/s][A


[300160] loss: 0.067 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 331.85it/s][A

                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▌      | 9379/10000 [09:33<00:39, 15.75it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 576.66it/s][A


[300180] loss: 0.073 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 600.47it/s][A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▌      | 9381/10000 [09:33<00:40, 15.38it/s]
                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▌      | 9381/10000 [09:33<00:40, 15.38it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[300200] loss: 0.051 


                                                                                                                                                  
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▌      | 9381/10000 [09:33<00:40, 15.38it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 472.90it/s][A


[300220] loss: 0.046 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 545.00it/s][A

                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▌      | 9381/10000 [09:33<00:40, 15.38it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[300240] loss: 0.051 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 578.61it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 914.59it/s][A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▌      | 9383/10000 [09:33<00:41, 14.98it/s]
                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▌      | 9383/10000 [09:33<00:41, 14.98it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[300260] loss: 0.061 


                                                                                                                                                  
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▌      | 9383/10000 [09:33<00:41, 14.98it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 502.11it/s][A


[300280] loss: 0.044 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 640.94it/s][A

                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▌      | 9383/10000 [09:33<00:41, 14.98it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[300300] loss: 0.071 


                                                                                                                                                  
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▌      | 9383/10000 [09:33<00:41, 14.98it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 504.89it/s][A


[300320] loss: 0.062 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 263.10it/s][A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▌      | 9385/10000 [09:33<00:42, 14.51it/s]
                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▌      | 9385/10000 [09:33<00:42, 14.51it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 595.18it/s][A


[300340] loss: 0.057 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 681.00it/s][A

                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▌      | 9385/10000 [09:33<00:42, 14.51it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[300360] loss: 0.045 


                                                                                                                                                  
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▌      | 9385/10000 [09:34<00:42, 14.51it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 474.67it/s][A


[300380] loss: 0.094 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 583.92it/s][A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▌      | 9387/10000 [09:34<00:42, 14.46it/s]
                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▌      | 9387/10000 [09:34<00:42, 14.46it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[300400] loss: 0.034 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 589.36it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 905.12it/s][A

                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▌      | 9387/10000 [09:34<00:42, 14.46it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[300420] loss: 0.044 


                                                                                                                                                  
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▌      | 9387/10000 [09:34<00:42, 14.46it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 482.96it/s][A


[300440] loss: 0.073 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 556.35it/s][A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▋      | 9389/10000 [09:34<00:42, 14.37it/s]
                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▋      | 9389/10000 [09:34<00:42, 14.37it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[300460] loss: 0.074 


                                                                                                                                                  
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▋      | 9389/10000 [09:34<00:42, 14.37it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 527.87it/s][A


[300480] loss: 0.006 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 798.76it/s][A

                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▋      | 9389/10000 [09:34<00:42, 14.37it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 594.07it/s][A


[300500] loss: 0.047 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 508.22it/s][A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▋      | 9391/10000 [09:34<00:42, 14.49it/s]
                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▋      | 9391/10000 [09:34<00:42, 14.49it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[300520] loss: 0.042 


                                                                                                                                                  
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▋      | 9391/10000 [09:34<00:42, 14.49it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 500.64it/s][A


[300540] loss: 0.039 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1401.84it/s][A

                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▋      | 9391/10000 [09:34<00:42, 14.49it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 768.06it/s][A


[300560] loss: 0.056 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1988.76it/s][A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▋      | 9393/10000 [09:34<00:40, 15.01it/s]
                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▋      | 9393/10000 [09:34<00:40, 15.01it/s]
                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▋      | 9393/10000 [09:34<00:40, 15.01it/s]
Training Epoch:   0%|                                                                                       

[300580] loss: 0.067 
[300600] loss: 0.044 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 601.03it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 582.54it/s][A

                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▋      | 9393/10000 [09:34<00:40, 15.01it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[300620] loss: 0.077 


                                                                                                                                                  
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▋      | 9393/10000 [09:34<00:40, 15.01it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 611.89it/s][A


[300640] loss: 0.077 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1427.12it/s][A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▋      | 9395/10000 [09:34<00:39, 15.24it/s]
                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▋      | 9395/10000 [09:34<00:39, 15.24it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 723.16it/s][A

[300660] loss: 0.042 




Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2126.93it/s][A

                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▋      | 9395/10000 [09:34<00:39, 15.24it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[300680] loss: 0.048 


                                                                                                                                                  
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▋      | 9395/10000 [09:34<00:39, 15.24it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 702.36it/s][A


[300700] loss: 0.048 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 886.18it/s][A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▋      | 9397/10000 [09:34<00:37, 16.26it/s]
                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▋      | 9397/10000 [09:34<00:37, 16.26it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 766.03it/s][A


[300720] loss: 0.041 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 790.19it/s][A

                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▋      | 9397/10000 [09:34<00:37, 16.26it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[300740] loss: 0.077 


                                                                                                                                                  
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▋      | 9397/10000 [09:34<00:37, 16.26it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 640.94it/s][A


[300760] loss: 0.060 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 599.79it/s][A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▋      | 9399/10000 [09:34<00:35, 16.70it/s]
                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▋      | 9399/10000 [09:34<00:35, 16.70it/s]
                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▋      | 9399/10000 [09:34<00:35, 16.70it/s]

[300780] loss: 0.071 
[300800] loss: 0.104 



Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 646.94it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1166.06it/s][A

                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▋      | 9399/10000 [09:34<00:35, 16.70it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 743.75it/s][A


[300820] loss: 0.074 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1226.05it/s][A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▊      | 9401/10000 [09:34<00:35, 17.08it/s]
                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▊      | 9401/10000 [09:34<00:35, 17.08it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[300840] loss: 0.044 


                                                                                                                                                  
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▊      | 9401/10000 [09:34<00:35, 17.08it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 622.23it/s][A


[300860] loss: 0.066 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1235.80it/s][A

                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▊      | 9401/10000 [09:34<00:35, 17.08it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 891.39it/s][A


[300880] loss: 0.058 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1170.61it/s][A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▊      | 9403/10000 [09:34<00:34, 17.35it/s]
                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▊      | 9403/10000 [09:35<00:34, 17.35it/s]
                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▊      | 9403/10000 [09:35<00:34, 17.35it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[300900] loss: 0.046 
[300920] loss: 0.049 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 406.07it/s][A

                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▊      | 9403/10000 [09:35<00:34, 17.35it/s]
                                                                                                                                                  [A

[300940] loss: 0.100 



 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▊      | 9403/10000 [09:35<00:34, 17.35it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 698.52it/s][A


[300960] loss: 0.062 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 331.49it/s][A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▊      | 9405/10000 [09:35<00:34, 17.11it/s]
                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▊      | 9405/10000 [09:35<00:34, 17.11it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 843.87it/s][A


[300980] loss: 0.052 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 616.72it/s][A

                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▊      | 9405/10000 [09:35<00:34, 17.11it/s]
                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▊      | 9405/10000 [09:35<00:34, 17.11it/s]


[301000] loss: 0.048 
[301020] loss: 0.077 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 678.37it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1397.17it/s][A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▊      | 9407/10000 [09:35<00:33, 17.69it/s]
                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▊      | 9407/10000 [09:35<00:33, 17.69it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 724.51it/s][A


[301040] loss: 0.074 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 776.15it/s][A

                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▊      | 9407/10000 [09:35<00:33, 17.69it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[301060] loss: 0.031 


                                                                                                                                                  
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▊      | 9407/10000 [09:35<00:33, 17.69it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 536.37it/s][A


[301080] loss: 0.045 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 661.04it/s][A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▊      | 9409/10000 [09:35<00:34, 17.23it/s]
                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▊      | 9409/10000 [09:35<00:34, 17.23it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[301100] loss: 0.045 


                                                                                                                                                  
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▊      | 9409/10000 [09:35<00:34, 17.23it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 623.75it/s][A


[301120] loss: 0.112 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1089.43it/s][A

                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▊      | 9409/10000 [09:35<00:34, 17.23it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[301140] loss: 0.056 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 719.48it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 844.26it/s][A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▊      | 9411/10000 [09:35<00:34, 17.28it/s]
                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▊      | 9411/10000 [09:35<00:34, 17.28it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[301160] loss: 0.030 


                                                                                                                                                  
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▊      | 9411/10000 [09:35<00:34, 17.28it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[301180] loss: 0.060 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 484.19it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 785.01it/s][A

                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▊      | 9411/10000 [09:35<00:34, 17.28it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[301200] loss: 0.038 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 571.32it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 962.22it/s][A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▉      | 9413/10000 [09:35<00:36, 16.05it/s]
                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▉      | 9413/10000 [09:35<00:36, 16.05it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[301220] loss: 0.038 


                                                                                                                                                  
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▉      | 9413/10000 [09:35<00:36, 16.05it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 489.16it/s][A


[301240] loss: 0.060 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 937.07it/s][A

                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▉      | 9413/10000 [09:35<00:36, 16.05it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[301260] loss: 0.043 


                                                                                                                                                  
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▉      | 9413/10000 [09:35<00:36, 16.05it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 499.00it/s][A


[301280] loss: 0.044 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 369.09it/s][A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▉      | 9415/10000 [09:35<00:38, 15.12it/s]
                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▉      | 9415/10000 [09:35<00:38, 15.12it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 606.92it/s][A


[301300] loss: 0.084 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 783.40it/s][A

                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▉      | 9415/10000 [09:35<00:38, 15.12it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[301320] loss: 0.080 


                                                                                                                                                  
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▉      | 9415/10000 [09:35<00:38, 15.12it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 495.52it/s][A


[301340] loss: 0.070 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 699.75it/s][A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▉      | 9417/10000 [09:35<00:38, 14.96it/s]
                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▉      | 9417/10000 [09:35<00:38, 14.96it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[301360] loss: 0.044 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 539.87it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 931.86it/s][A

                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▉      | 9417/10000 [09:35<00:38, 14.96it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[301380] loss: 0.035 


                                                                                                                                                  
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▉      | 9417/10000 [09:36<00:38, 14.96it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 575.92it/s][A


[301400] loss: 0.073 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 906.09it/s][A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▉      | 9419/10000 [09:36<00:38, 14.90it/s]
                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▉      | 9419/10000 [09:36<00:38, 14.90it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[301420] loss: 0.093 


                                                                                                                                                  
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▉      | 9419/10000 [09:36<00:38, 14.90it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 570.69it/s][A


[301440] loss: 0.048 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 912.80it/s][A

                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▉      | 9419/10000 [09:36<00:38, 14.90it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[301460] loss: 0.042 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 708.20it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 950.87it/s][A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▉      | 9421/10000 [09:36<00:37, 15.47it/s]
                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▉      | 9421/10000 [09:36<00:37, 15.47it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[301480] loss: 0.041 


                                                                                                                                                  
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▉      | 9421/10000 [09:36<00:37, 15.47it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[301500] loss: 0.070 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 527.76it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 809.40it/s][A

                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▉      | 9421/10000 [09:36<00:37, 15.47it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[301520] loss: 0.069 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 553.75it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 983.19it/s][A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▉      | 9423/10000 [09:36<00:37, 15.25it/s]
                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▉      | 9423/10000 [09:36<00:37, 15.25it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[301540] loss: 0.064 


                                                                                                                                                  
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▉      | 9423/10000 [09:36<00:37, 15.25it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 501.96it/s][A


[301560] loss: 0.065 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 878.94it/s][A

                                                                                                                                                  [A
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▉      | 9423/10000 [09:36<00:37, 15.25it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[301580] loss: 0.050 


                                                                                                                                                  
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▉      | 9423/10000 [09:36<00:37, 15.25it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 490.53it/s][A


[301600] loss: 0.040 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 833.36it/s][A
 94%|██████████████████████████████████████████████████████████████████████████████████████████████████      | 9425/10000 [09:36<00:39, 14.69it/s]
                                                                                                                                                  [A
 94%|██████████████████████████████████████████████████████████████████████████████████████████████████      | 9425/10000 [09:36<00:39, 14.69it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 569.74it/s][A


[301620] loss: 0.032 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 478.69it/s][A

                                                                                                                                                  [A
 94%|██████████████████████████████████████████████████████████████████████████████████████████████████      | 9425/10000 [09:36<00:39, 14.69it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[301640] loss: 0.092 


                                                                                                                                                  
 94%|██████████████████████████████████████████████████████████████████████████████████████████████████      | 9425/10000 [09:36<00:39, 14.69it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 471.52it/s][A


[301660] loss: 0.050 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 934.98it/s][A
 94%|██████████████████████████████████████████████████████████████████████████████████████████████████      | 9427/10000 [09:36<00:39, 14.46it/s]
                                                                                                                                                  [A
 94%|██████████████████████████████████████████████████████████████████████████████████████████████████      | 9427/10000 [09:36<00:39, 14.46it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[301680] loss: 0.097 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 662.87it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1300.56it/s][A

                                                                                                                                                  [A
 94%|██████████████████████████████████████████████████████████████████████████████████████████████████      | 9427/10000 [09:36<00:39, 14.46it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[301700] loss: 0.052 


                                                                                                                                                  
 94%|██████████████████████████████████████████████████████████████████████████████████████████████████      | 9427/10000 [09:36<00:39, 14.46it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 512.51it/s][A


[301720] loss: 0.041 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 953.25it/s][A
 94%|██████████████████████████████████████████████████████████████████████████████████████████████████      | 9429/10000 [09:36<00:38, 14.68it/s]
                                                                                                                                                  [A
 94%|██████████████████████████████████████████████████████████████████████████████████████████████████      | 9429/10000 [09:36<00:38, 14.68it/s]
                                                                                                                                                  [A
[A                                                                                                                                               

[301740] loss: 0.054 


 94%|██████████████████████████████████████████████████████████████████████████████████████████████████      | 9429/10000 [09:36<00:38, 14.68it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 631.97it/s][A


[301760] loss: 0.109 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 690.31it/s][A

                                                                                                                                                  [A
 94%|██████████████████████████████████████████████████████████████████████████████████████████████████      | 9429/10000 [09:36<00:38, 14.68it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[301780] loss: 0.067 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 771.28it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 822.09it/s][A
 94%|██████████████████████████████████████████████████████████████████████████████████████████████████      | 9431/10000 [09:36<00:36, 15.60it/s]
                                                                                                                                                  [A
 94%|██████████████████████████████████████████████████████████████████████████████████████████████████      | 9431/10000 [09:36<00:36, 15.60it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[301800] loss: 0.074 


                                                                                                                                                  
 94%|██████████████████████████████████████████████████████████████████████████████████████████████████      | 9431/10000 [09:36<00:36, 15.60it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 527.61it/s][A


[301820] loss: 0.048 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 710.06it/s][A

                                                                                                                                                  [A
 94%|██████████████████████████████████████████████████████████████████████████████████████████████████      | 9431/10000 [09:36<00:36, 15.60it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[301840] loss: 0.033 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 757.18it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2174.34it/s][A
 94%|██████████████████████████████████████████████████████████████████████████████████████████████████      | 9433/10000 [09:36<00:35, 15.83it/s]
                                                                                                                                                  [A
 94%|██████████████████████████████████████████████████████████████████████████████████████████████████      | 9433/10000 [09:36<00:35, 15.83it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[301860] loss: 0.052 


                                                                                                                                                  
 94%|██████████████████████████████████████████████████████████████████████████████████████████████████      | 9433/10000 [09:36<00:35, 15.83it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 785.71it/s][A


[301880] loss: 0.056 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1507.66it/s][A

                                                                                                                                                  [A
 94%|██████████████████████████████████████████████████████████████████████████████████████████████████      | 9433/10000 [09:37<00:35, 15.83it/s]
                                                                                                                                                  [A
 94%|██████████████████████████████████████████████████████████████████████████████████████████████████      | 9433/10000 [09:37<00:35, 15.83it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[301900] loss: 0.046 
[301920] loss: 0.058 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 664.72it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1376.08it/s][A
 94%|██████████████████████████████████████████████████████████████████████████████████████████████████      | 9435/10000 [09:37<00:33, 16.72it/s]
                                                                                                                                                  [A
 94%|██████████████████████████████████████████████████████████████████████████████████████████████████      | 9435/10000 [09:37<00:33, 16.72it/s]


[301940] loss: 0.063 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 706.18it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1939.11it/s][A

                                                                                                                                                  [A
[A                                                                                                                                               

[301960] loss: 0.042 


 94%|██████████████████████████████████████████████████████████████████████████████████████████████████      | 9435/10000 [09:37<00:33, 16.72it/s]
                                                                                                                                                  [A
 94%|██████████████████████████████████████████████████████████████████████████████████████████████████      | 9435/10000 [09:37<00:33, 16.72it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 660.97it/s][A

[301980] loss: 0.089 




Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1350.82it/s][A
 94%|██████████████████████████████████████████████████████████████████████████████████████████████████▏     | 9437/10000 [09:37<00:32, 17.08it/s]
                                                                                                                                                  [A
 94%|██████████████████████████████████████████████████████████████████████████████████████████████████▏     | 9437/10000 [09:37<00:32, 17.08it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 736.95it/s][A


[302000] loss: 0.081 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 734.17it/s][A

                                                                                                                                                  [A
 94%|██████████████████████████████████████████████████████████████████████████████████████████████████▏     | 9437/10000 [09:37<00:32, 17.08it/s]
                                                                                                                                                  [A
 94%|██████████████████████████████████████████████████████████████████████████████████████████████████▏     | 9437/10000 [09:37<00:32, 17.08it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 644.45it/s][A


[302020] loss: 0.084 
[302040] loss: 0.056 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1957.21it/s][A
 94%|██████████████████████████████████████████████████████████████████████████████████████████████████▏     | 9439/10000 [09:37<00:32, 17.32it/s]
                                                                                                                                                  [A
 94%|██████████████████████████████████████████████████████████████████████████████████████████████████▏     | 9439/10000 [09:37<00:32, 17.32it/s]
                                                                                                                                                  [A

[302060] loss: 0.058 



 94%|██████████████████████████████████████████████████████████████████████████████████████████████████▏     | 9439/10000 [09:37<00:32, 17.32it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 678.43it/s][A


[302080] loss: 0.078 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 435.23it/s][A

                                                                                                                                                  [A
 94%|██████████████████████████████████████████████████████████████████████████████████████████████████▏     | 9439/10000 [09:37<00:32, 17.32it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 1004.14it/s][A


[302100] loss: 0.062 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 981.81it/s][A

                                                                                                                                                  [A
 94%|██████████████████████████████████████████████████████████████████████████████████████████████████▏     | 9439/10000 [09:37<00:32, 17.32it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[302120] loss: 0.058 


                                                                                                                                                  
 94%|██████████████████████████████████████████████████████████████████████████████████████████████████▏     | 9439/10000 [09:37<00:32, 17.32it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 778.23it/s][A


[302140] loss: 0.052 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2189.09it/s][A
 94%|██████████████████████████████████████████████████████████████████████████████████████████████████▏     | 9442/10000 [09:37<00:30, 18.45it/s]
                                                                                                                                                  [A
 94%|██████████████████████████████████████████████████████████████████████████████████████████████████▏     | 9442/10000 [09:37<00:30, 18.45it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 991.35it/s][A


[302160] loss: 0.063 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1575.03it/s][A

                                                                                                                                                  [A
 94%|██████████████████████████████████████████████████████████████████████████████████████████████████▏     | 9442/10000 [09:37<00:30, 18.45it/s]
                                                                                                                                                  [A
 94%|██████████████████████████████████████████████████████████████████████████████████████████████████▏     | 9442/10000 [09:37<00:30, 18.45it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[302180] loss: 0.063 
[302200] loss: 0.073 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 861.24it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2122.62it/s][A

                                                                                                                                                  [A
 94%|██████████████████████████████████████████████████████████████████████████████████████████████████▏     | 9442/10000 [09:37<00:30, 18.45it/s]
                                                                                                                                                  [A


[302220] loss: 0.042 


 94%|██████████████████████████████████████████████████████████████████████████████████████████████████▏     | 9442/10000 [09:37<00:30, 18.45it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 689.76it/s][A


[302240] loss: 0.097 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 449.26it/s][A
 94%|██████████████████████████████████████████████████████████████████████████████████████████████████▏     | 9445/10000 [09:37<00:28, 19.27it/s]
                                                                                                                                                  [A
 94%|██████████████████████████████████████████████████████████████████████████████████████████████████▏     | 9445/10000 [09:37<00:28, 19.27it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[302260] loss: 0.066 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 731.81it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 921.02it/s][A

                                                                                                                                                  [A
 94%|██████████████████████████████████████████████████████████████████████████████████████████████████▏     | 9445/10000 [09:37<00:28, 19.27it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[302280] loss: 0.090 


                                                                                                                                                  
 94%|██████████████████████████████████████████████████████████████████████████████████████████████████▏     | 9445/10000 [09:37<00:28, 19.27it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 617.35it/s][A


[302300] loss: 0.021 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 766.78it/s][A
 94%|██████████████████████████████████████████████████████████████████████████████████████████████████▏     | 9447/10000 [09:37<00:29, 18.66it/s]
                                                                                                                                                  [A
 94%|██████████████████████████████████████████████████████████████████████████████████████████████████▏     | 9447/10000 [09:37<00:29, 18.66it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[302320] loss: 0.041 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 641.64it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1105.22it/s][A

                                                                                                                                                  [A
 94%|██████████████████████████████████████████████████████████████████████████████████████████████████▏     | 9447/10000 [09:37<00:29, 18.66it/s]
                                                                                                                                                  [A
[A                                                                                                                                               

[302340] loss: 0.041 
[302360] loss: 0.052 


 94%|██████████████████████████████████████████████████████████████████████████████████████████████████▏     | 9447/10000 [09:37<00:29, 18.66it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 514.27it/s][A

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 940.64it/s][A
 94%|██████████████████████████████████████████████████████████████████████████████████████████████████▎     | 9449/10000 [09:37<00:31, 17.47it/s]
                                                                                                                                                  [A
 94%|██████████████████████████████████████████████████████████████████████████████████████████████████▎     | 9449/10000 [09:37<00:31, 17.47it/s]
Training Epoch:   0%|                                                                                       

[302380] loss: 0.069 


                                                                                                                                                  
 94%|██████████████████████████████████████████████████████████████████████████████████████████████████▎     | 9449/10000 [09:37<00:31, 17.47it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 518.54it/s][A


[302400] loss: 0.020 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 723.16it/s][A

                                                                                                                                                  [A
 94%|██████████████████████████████████████████████████████████████████████████████████████████████████▎     | 9449/10000 [09:37<00:31, 17.47it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 594.24it/s][A


[302420] loss: 0.031 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 778.16it/s][A
 95%|██████████████████████████████████████████████████████████████████████████████████████████████████▎     | 9451/10000 [09:37<00:33, 16.54it/s]
                                                                                                                                                  [A
 95%|██████████████████████████████████████████████████████████████████████████████████████████████████▎     | 9451/10000 [09:37<00:33, 16.54it/s]
                                                                                                                                                  [A
 95%|██████████████████████████████████████████████████████████████████████████████████████████████████▎     | 9451/10000 [09:38<00:33, 16.54it/s]
Training Epoch: 100%|███████████████████████████████████████████████████████████████████████████████████████

[302440] loss: 0.083 
[302460] loss: 0.052 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 565.65it/s][A

                                                                                                                                                  [A
 95%|██████████████████████████████████████████████████████████████████████████████████████████████████▎     | 9451/10000 [09:38<00:33, 16.54it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[302480] loss: 0.102 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 573.64it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 818.72it/s][A
 95%|██████████████████████████████████████████████████████████████████████████████████████████████████▎     | 9453/10000 [09:38<00:34, 15.63it/s]
                                                                                                                                                  [A
 95%|██████████████████████████████████████████████████████████████████████████████████████████████████▎     | 9453/10000 [09:38<00:34, 15.63it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[302500] loss: 0.046 


                                                                                                                                                  
 95%|██████████████████████████████████████████████████████████████████████████████████████████████████▎     | 9453/10000 [09:38<00:34, 15.63it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 496.73it/s][A


[302520] loss: 0.055 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 560.44it/s][A

                                                                                                                                                  [A
 95%|██████████████████████████████████████████████████████████████████████████████████████████████████▎     | 9453/10000 [09:38<00:34, 15.63it/s]
                                                                                                                                                  [A
 95%|██████████████████████████████████████████████████████████████████████████████████████████████████▎     | 9453/10000 [09:38<00:34, 15.63it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 457.85it/s][A


[302540] loss: 0.073 
[302560] loss: 0.037 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 581.41it/s][A
 95%|██████████████████████████████████████████████████████████████████████████████████████████████████▎     | 9455/10000 [09:38<00:37, 14.70it/s]
                                                                                                                                                  [A
 95%|██████████████████████████████████████████████████████████████████████████████████████████████████▎     | 9455/10000 [09:38<00:37, 14.70it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[302580] loss: 0.058 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 556.14it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 868.57it/s][A

                                                                                                                                                  [A
 95%|██████████████████████████████████████████████████████████████████████████████████████████████████▎     | 9455/10000 [09:38<00:37, 14.70it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[302600] loss: 0.050 


                                                                                                                                                  
 95%|██████████████████████████████████████████████████████████████████████████████████████████████████▎     | 9455/10000 [09:38<00:37, 14.70it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 486.38it/s][A


[302620] loss: 0.043 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 662.82it/s][A
 95%|██████████████████████████████████████████████████████████████████████████████████████████████████▎     | 9457/10000 [09:38<00:37, 14.47it/s]
                                                                                                                                                  [A
 95%|██████████████████████████████████████████████████████████████████████████████████████████████████▎     | 9457/10000 [09:38<00:37, 14.47it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 531.75it/s][A


[302640] loss: 0.048 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 593.84it/s][A

                                                                                                                                                  [A
 95%|██████████████████████████████████████████████████████████████████████████████████████████████████▎     | 9457/10000 [09:38<00:37, 14.47it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[302660] loss: 0.068 


                                                                                                                                                  
 95%|██████████████████████████████████████████████████████████████████████████████████████████████████▎     | 9457/10000 [09:38<00:37, 14.47it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 475.31it/s][A


[302680] loss: 0.039 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 534.51it/s][A
 95%|██████████████████████████████████████████████████████████████████████████████████████████████████▎     | 9459/10000 [09:38<00:38, 14.21it/s]
                                                                                                                                                  [A
 95%|██████████████████████████████████████████████████████████████████████████████████████████████████▎     | 9459/10000 [09:38<00:38, 14.21it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[302700] loss: 0.040 


                                                                                                                                                  
 95%|██████████████████████████████████████████████████████████████████████████████████████████████████▎     | 9459/10000 [09:38<00:38, 14.21it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 444.82it/s][A


[302720] loss: 0.027 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 767.20it/s][A

                                                                                                                                                  [A
 95%|██████████████████████████████████████████████████████████████████████████████████████████████████▎     | 9459/10000 [09:38<00:38, 14.21it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[302740] loss: 0.051 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 555.82it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 396.40it/s][A
 95%|██████████████████████████████████████████████████████████████████████████████████████████████████▍     | 9461/10000 [09:38<00:38, 13.98it/s]
                                                                                                                                                  [A
 95%|██████████████████████████████████████████████████████████████████████████████████████████████████▍     | 9461/10000 [09:38<00:38, 13.98it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[302760] loss: 0.052 


                                                                                                                                                  
 95%|██████████████████████████████████████████████████████████████████████████████████████████████████▍     | 9461/10000 [09:38<00:38, 13.98it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 481.82it/s][A


[302780] loss: 0.074 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 644.29it/s][A

                                                                                                                                                  [A
 95%|██████████████████████████████████████████████████████████████████████████████████████████████████▍     | 9461/10000 [09:38<00:38, 13.98it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[302800] loss: 0.040 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 583.56it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 828.59it/s][A
 95%|██████████████████████████████████████████████████████████████████████████████████████████████████▍     | 9463/10000 [09:38<00:38, 14.05it/s]
                                                                                                                                                  [A
 95%|██████████████████████████████████████████████████████████████████████████████████████████████████▍     | 9463/10000 [09:38<00:38, 14.05it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[302820] loss: 0.041 


                                                                                                                                                  
 95%|██████████████████████████████████████████████████████████████████████████████████████████████████▍     | 9463/10000 [09:38<00:38, 14.05it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 590.90it/s][A


[302840] loss: 0.042 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1244.97it/s][A

                                                                                                                                                  [A
 95%|██████████████████████████████████████████████████████████████████████████████████████████████████▍     | 9463/10000 [09:38<00:38, 14.05it/s]
                                                                                                                                                  [A
 95%|██████████████████████████████████████████████████████████████████████████████████████████████████▍     | 9463/10000 [09:38<00:38, 14.05it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 638.86it/s][A


[302860] loss: 0.062 
[302880] loss: 0.086 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1305.42it/s][A
 95%|██████████████████████████████████████████████████████████████████████████████████████████████████▍     | 9465/10000 [09:38<00:36, 14.67it/s]
                                                                                                                                                  [A
 95%|██████████████████████████████████████████████████████████████████████████████████████████████████▍     | 9465/10000 [09:38<00:36, 14.67it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[302900] loss: 0.077 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 679.27it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 612.93it/s][A

                                                                                                                                                  [A
 95%|██████████████████████████████████████████████████████████████████████████████████████████████████▍     | 9465/10000 [09:39<00:36, 14.67it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[302920] loss: 0.081 


                                                                                                                                                  
 95%|██████████████████████████████████████████████████████████████████████████████████████████████████▍     | 9465/10000 [09:39<00:36, 14.67it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 555.18it/s][A

[302940] loss: 0.064 




Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1048.31it/s][A
 95%|██████████████████████████████████████████████████████████████████████████████████████████████████▍     | 9467/10000 [09:39<00:35, 15.00it/s]
                                                                                                                                                  [A
 95%|██████████████████████████████████████████████████████████████████████████████████████████████████▍     | 9467/10000 [09:39<00:35, 15.00it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[302960] loss: 0.040 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 683.91it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1115.80it/s][A

                                                                                                                                                  [A
 95%|██████████████████████████████████████████████████████████████████████████████████████████████████▍     | 9467/10000 [09:39<00:35, 15.00it/s]
                                                                                                                                                  [A
 95%|██████████████████████████████████████████████████████████████████████████████████████████████████▍     | 9467/10000 [09:39<00:35, 15.00it/s]
Training Epoch:   0%|                                                                                      

[302980] loss: 0.064 
[303000] loss: 0.040 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 578.79it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1264.87it/s][A
 95%|██████████████████████████████████████████████████████████████████████████████████████████████████▍     | 9469/10000 [09:39<00:34, 15.33it/s]
                                                                                                                                                  [A
 95%|██████████████████████████████████████████████████████████████████████████████████████████████████▍     | 9469/10000 [09:39<00:34, 15.33it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[303020] loss: 0.071 


IOPub message rate exceeded.                                                                                                                      
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_msg_rate_limit`.

Current values:
NotebookApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
NotebookApp.rate_limit_window=3.0 (secs)

[A

[316580] loss: 0.073 


                                                                                                                                                  
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 9893/10000 [10:05<00:06, 16.41it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 653.49it/s][A


[316600] loss: 0.058 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1596.01it/s][A

                                                                                                                                                  [A
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 9893/10000 [10:05<00:06, 16.41it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[316620] loss: 0.047 


                                                                                                                                                  
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 9893/10000 [10:05<00:06, 16.41it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 683.56it/s][A


[316640] loss: 0.070 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1274.48it/s][A
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 9895/10000 [10:05<00:06, 16.73it/s]
                                                                                                                                                  [A
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 9895/10000 [10:05<00:06, 16.73it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 934.01it/s][A


[316660] loss: 0.052 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2014.56it/s][A

                                                                                                                                                  [A
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 9895/10000 [10:06<00:06, 16.73it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[316680] loss: 0.056 


                                                                                                                                                  
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 9895/10000 [10:06<00:06, 16.73it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 805.11it/s][A


[316700] loss: 0.050 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2092.97it/s][A

                                                                                                                                                  [A
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 9895/10000 [10:06<00:06, 16.73it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[316720] loss: 0.072 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 789.04it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1161.54it/s][A
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 9898/10000 [10:06<00:05, 18.27it/s]
                                                                                                                                                  [A
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 9898/10000 [10:06<00:05, 18.27it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[316740] loss: 0.041 


                                                                                                                                                  
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 9898/10000 [10:06<00:05, 18.27it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[316760] loss: 0.068 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 645.70it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1299.75it/s][A

                                                                                                                                                  [A
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 9898/10000 [10:06<00:05, 18.27it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[316780] loss: 0.052 


                                                                                                                                                  
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 9898/10000 [10:06<00:05, 18.27it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 619.11it/s][A


[316800] loss: 0.051 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 708.62it/s][A
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 9900/10000 [10:06<00:05, 17.85it/s]
                                                                                                                                                  [A
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 9900/10000 [10:06<00:05, 17.85it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 831.89it/s][A


[316820] loss: 0.080 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 814.90it/s][A

                                                                                                                                                  [A
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 9900/10000 [10:06<00:05, 17.85it/s]
                                                                                                                                                  [A
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 9900/10000 [10:06<00:05, 17.85it/s]


[316840] loss: 0.115 
[316860] loss: 0.046 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 665.31it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1344.33it/s][A
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 9902/10000 [10:06<00:05, 18.20it/s]
                                                                                                                                                  [A
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 9902/10000 [10:06<00:05, 18.20it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 802.93it/s][A


[316880] loss: 0.071 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 409.88it/s][A

                                                                                                                                                  [A
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 9902/10000 [10:06<00:05, 18.20it/s]
                                                                                                                                                  [A
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 9902/10000 [10:06<00:05, 18.20it/s]


[316900] loss: 0.047 
[316920] loss: 0.045 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 724.66it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2126.93it/s][A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████ | 9904/10000 [10:06<00:05, 18.59it/s]
                                                                                                                                                  [A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████ | 9904/10000 [10:06<00:05, 18.59it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[316940] loss: 0.063 


                                                                                                                                                  
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████ | 9904/10000 [10:06<00:05, 18.59it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 790.97it/s][A


[316960] loss: 0.070 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2077.42it/s][A

                                                                                                                                                  [A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████ | 9904/10000 [10:06<00:05, 18.59it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 649.35it/s][A


[316980] loss: 0.076 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 975.87it/s][A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████ | 9906/10000 [10:06<00:04, 18.85it/s]
                                                                                                                                                  [A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████ | 9906/10000 [10:06<00:04, 18.85it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[317000] loss: 0.040 


                                                                                                                                                  
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████ | 9906/10000 [10:06<00:04, 18.85it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[317020] loss: 0.060 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 548.81it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 760.11it/s][A

                                                                                                                                                  [A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████ | 9906/10000 [10:06<00:04, 18.85it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 669.72it/s][A

[317040] loss: 0.048 




Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 976.78it/s][A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████ | 9908/10000 [10:06<00:05, 18.01it/s]
                                                                                                                                                  [A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████ | 9908/10000 [10:06<00:05, 18.01it/s]


[317060] loss: 0.057 


                                                                                                                                                  [A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████ | 9908/10000 [10:06<00:05, 18.01it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[317080] loss: 0.061 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 542.79it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 906.09it/s][A

                                                                                                                                                  [A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████ | 9908/10000 [10:06<00:05, 18.01it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[317100] loss: 0.063 


                                                                                                                                                  
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████ | 9908/10000 [10:06<00:05, 18.01it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 400.41it/s][A


[317120] loss: 0.100 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 962.66it/s][A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████ | 9910/10000 [10:06<00:05, 16.12it/s]
                                                                                                                                                  [A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████ | 9910/10000 [10:06<00:05, 16.12it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 684.86it/s][A


[317140] loss: 0.065 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 575.82it/s][A

                                                                                                                                                  [A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████ | 9910/10000 [10:06<00:05, 16.12it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[317160] loss: 0.050 


                                                                                                                                                  
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████ | 9910/10000 [10:06<00:05, 16.12it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 521.40it/s][A


[317180] loss: 0.038 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 525.40it/s][A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████ | 9912/10000 [10:06<00:05, 16.00it/s]
                                                                                                                                                  [A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████ | 9912/10000 [10:06<00:05, 16.00it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[317200] loss: 0.050 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 601.67it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 628.93it/s][A

                                                                                                                                                  [A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████ | 9912/10000 [10:07<00:05, 16.00it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[317220] loss: 0.054 


                                                                                                                                                  
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████ | 9912/10000 [10:07<00:05, 16.00it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 519.13it/s][A


[317240] loss: 0.071 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 878.02it/s][A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████ | 9914/10000 [10:07<00:05, 15.71it/s]
                                                                                                                                                  [A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████ | 9914/10000 [10:07<00:05, 15.71it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[317260] loss: 0.075 


                                                                                                                                                  
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████ | 9914/10000 [10:07<00:05, 15.71it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 480.02it/s][A


[317280] loss: 0.123 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 813.48it/s][A

                                                                                                                                                  [A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████ | 9914/10000 [10:07<00:05, 15.71it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 587.62it/s][A


[317300] loss: 0.042 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 964.87it/s][A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏| 9916/10000 [10:07<00:05, 15.36it/s]
                                                                                                                                                  [A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏| 9916/10000 [10:07<00:05, 15.36it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[317320] loss: 0.026 


                                                                                                                                                  
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏| 9916/10000 [10:07<00:05, 15.36it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 528.27it/s][A


[317340] loss: 0.079 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1560.96it/s][A

                                                                                                                                                  [A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏| 9916/10000 [10:07<00:05, 15.36it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[317360] loss: 0.056 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 532.13it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 898.33it/s][A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏| 9918/10000 [10:07<00:05, 15.03it/s]
                                                                                                                                                  [A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏| 9918/10000 [10:07<00:05, 15.03it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[317380] loss: 0.084 


                                                                                                                                                  
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏| 9918/10000 [10:07<00:05, 15.03it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 488.85it/s][A


[317400] loss: 0.078 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 518.07it/s][A

                                                                                                                                                  [A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏| 9918/10000 [10:07<00:05, 15.03it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[317420] loss: 0.064 


                                                                                                                                                  
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏| 9918/10000 [10:07<00:05, 15.03it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 502.98it/s][A


[317440] loss: 0.058 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 371.14it/s][A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏| 9920/10000 [10:07<00:05, 14.46it/s]
                                                                                                                                                  [A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏| 9920/10000 [10:07<00:05, 14.46it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 569.34it/s][A


[317460] loss: 0.059 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 694.42it/s][A

                                                                                                                                                  [A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏| 9920/10000 [10:07<00:05, 14.46it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[317480] loss: 0.072 


                                                                                                                                                  
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏| 9920/10000 [10:07<00:05, 14.46it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 567.13it/s][A


[317500] loss: 0.088 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1318.13it/s][A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏| 9922/10000 [10:07<00:05, 14.56it/s]
                                                                                                                                                  [A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏| 9922/10000 [10:07<00:05, 14.56it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 684.92it/s][A


[317520] loss: 0.061 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 651.19it/s][A

                                                                                                                                                  [A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏| 9922/10000 [10:07<00:05, 14.56it/s]
                                                                                                                                                  [A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏| 9922/10000 [10:07<00:05, 14.56it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[317540] loss: 0.058 
[317560] loss: 0.063 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 624.77it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1867.46it/s][A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏| 9924/10000 [10:07<00:04, 15.22it/s]
                                                                                                                                                  [A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏| 9924/10000 [10:07<00:04, 15.22it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[317580] loss: 0.055 


                                                                                                                                                  
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏| 9924/10000 [10:07<00:04, 15.22it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 594.66it/s][A


[317600] loss: 0.062 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 975.42it/s][A

                                                                                                                                                  [A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏| 9924/10000 [10:07<00:04, 15.22it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[317620] loss: 0.033 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 674.20it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1316.89it/s][A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏| 9926/10000 [10:07<00:04, 15.70it/s]
                                                                                                                                                  [A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏| 9926/10000 [10:07<00:04, 15.70it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[317640] loss: 0.042 


                                                                                                                                                  
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏| 9926/10000 [10:07<00:04, 15.70it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 612.58it/s][A


[317660] loss: 0.089 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1399.03it/s][A

                                                                                                                                                  [A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏| 9926/10000 [10:07<00:04, 15.70it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[317680] loss: 0.076 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 687.95it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1338.75it/s][A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎| 9928/10000 [10:07<00:04, 16.07it/s]
                                                                                                                                                  [A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎| 9928/10000 [10:08<00:04, 16.07it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[317700] loss: 0.068 


                                                                                                                                                  
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎| 9928/10000 [10:08<00:04, 16.07it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[317720] loss: 0.051 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 594.73it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1359.14it/s][A

                                                                                                                                                  [A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎| 9928/10000 [10:08<00:04, 16.07it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[317740] loss: 0.088 


                                                                                                                                                  
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎| 9928/10000 [10:08<00:04, 16.07it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 578.54it/s][A


[317760] loss: 0.055 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1024.50it/s][A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎| 9930/10000 [10:08<00:04, 15.91it/s]
                                                                                                                                                  [A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎| 9930/10000 [10:08<00:04, 15.91it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[317780] loss: 0.042 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 767.08it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1162.50it/s][A

                                                                                                                                                  [A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎| 9930/10000 [10:08<00:04, 15.91it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[317800] loss: 0.062 


                                                                                                                                                  
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎| 9930/10000 [10:08<00:04, 15.91it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 621.71it/s][A


[317820] loss: 0.039 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1349.95it/s][A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎| 9932/10000 [10:08<00:04, 16.31it/s]
                                                                                                                                                  [A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎| 9932/10000 [10:08<00:04, 16.31it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[317840] loss: 0.059 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 631.35it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1430.04it/s][A

                                                                                                                                                  [A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎| 9932/10000 [10:08<00:04, 16.31it/s]
                                                                                                                                                  [A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎| 9932/10000 [10:08<00:04, 16.31it/s]
Training Epoch:   0%|                                                                                      

[317860] loss: 0.031 
[317880] loss: 0.032 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 529.98it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2493.64it/s][A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎| 9934/10000 [10:08<00:04, 15.96it/s]
                                                                                                                                                  [A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎| 9934/10000 [10:08<00:04, 15.96it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[317900] loss: 0.061 


                                                                                                                                                  
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎| 9934/10000 [10:08<00:04, 15.96it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[317920] loss: 0.079 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 649.97it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1503.33it/s][A

                                                                                                                                                  [A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎| 9934/10000 [10:08<00:04, 15.96it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[317940] loss: 0.051 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 740.12it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1236.89it/s][A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎| 9936/10000 [10:08<00:03, 16.49it/s]
                                                                                                                                                  [A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎| 9936/10000 [10:08<00:03, 16.49it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[317960] loss: 0.027 


                                                                                                                                                  
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎| 9936/10000 [10:08<00:03, 16.49it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 591.86it/s][A


[317980] loss: 0.117 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 675.63it/s][A

                                                                                                                                                  [A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎| 9936/10000 [10:08<00:03, 16.49it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 751.77it/s][A


[318000] loss: 0.035 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1949.93it/s][A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎| 9938/10000 [10:08<00:03, 16.76it/s]
                                                                                                                                                  [A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎| 9938/10000 [10:08<00:03, 16.76it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[318020] loss: 0.068 


                                                                                                                                                  
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎| 9938/10000 [10:08<00:03, 16.76it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 551.97it/s][A

[318040] loss: 0.067 




Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1538.07it/s][A

                                                                                                                                                  [A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎| 9938/10000 [10:08<00:03, 16.76it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[318060] loss: 0.063 


                                                                                                                                                  
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎| 9938/10000 [10:08<00:03, 16.76it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 510.80it/s][A


[318080] loss: 0.007 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 717.34it/s][A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍| 9940/10000 [10:08<00:03, 15.98it/s]
                                                                                                                                                  [A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍| 9940/10000 [10:08<00:03, 15.98it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 565.44it/s][A


[318100] loss: 0.071 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 548.35it/s][A

                                                                                                                                                  [A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍| 9940/10000 [10:08<00:03, 15.98it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[318120] loss: 0.035 


                                                                                                                                                  
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍| 9940/10000 [10:08<00:03, 15.98it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 486.44it/s][A


[318140] loss: 0.064 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 472.44it/s][A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍| 9942/10000 [10:08<00:03, 15.10it/s]
                                                                                                                                                  [A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍| 9942/10000 [10:08<00:03, 15.10it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[318160] loss: 0.044 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 550.33it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 645.28it/s][A

                                                                                                                                                  [A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍| 9942/10000 [10:08<00:03, 15.10it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[318180] loss: 0.034 


                                                                                                                                                  
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍| 9942/10000 [10:09<00:03, 15.10it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[318200] loss: 0.054 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 402.38it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 753.56it/s][A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍| 9944/10000 [10:09<00:03, 14.25it/s]
                                                                                                                                                  [A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍| 9944/10000 [10:09<00:03, 14.25it/s]
                                                                                                                                                  [A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████

[318220] loss: 0.081 
[318240] loss: 0.053 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 631.96it/s][A

                                                                                                                                                  [A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍| 9944/10000 [10:09<00:03, 14.25it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[318260] loss: 0.078 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 574.28it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 776.72it/s][A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍| 9946/10000 [10:09<00:03, 14.10it/s]
                                                                                                                                                  [A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍| 9946/10000 [10:09<00:03, 14.10it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[318280] loss: 0.081 


                                                                                                                                                  
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍| 9946/10000 [10:09<00:03, 14.10it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 476.43it/s][A


[318300] loss: 0.082 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 780.77it/s][A

                                                                                                                                                  [A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍| 9946/10000 [10:09<00:03, 14.10it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 560.70it/s][A


[318320] loss: 0.026 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 552.32it/s][A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍| 9948/10000 [10:09<00:03, 13.98it/s]
                                                                                                                                                  [A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍| 9948/10000 [10:09<00:03, 13.98it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[318340] loss: 0.044 


                                                                                                                                                  
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍| 9948/10000 [10:09<00:03, 13.98it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 478.31it/s][A


[318360] loss: 0.110 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 772.29it/s][A

                                                                                                                                                  [A
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍| 9948/10000 [10:09<00:03, 13.98it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[318380] loss: 0.050 


                                                                                                                                                  
 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍| 9948/10000 [10:09<00:03, 13.98it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 542.08it/s][A


[318400] loss: 0.075 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 929.38it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍| 9950/10000 [10:09<00:03, 13.85it/s]
                                                                                                                                                  [A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍| 9950/10000 [10:09<00:03, 13.85it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 534.96it/s][A


[318420] loss: 0.069 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 512.25it/s][A

                                                                                                                                                  [A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍| 9950/10000 [10:09<00:03, 13.85it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[318440] loss: 0.055 


                                                                                                                                                  
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍| 9950/10000 [10:09<00:03, 13.85it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 443.17it/s][A


[318460] loss: 0.080 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 406.27it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌| 9952/10000 [10:09<00:03, 13.63it/s]
                                                                                                                                                  [A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌| 9952/10000 [10:09<00:03, 13.63it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[318480] loss: 0.041 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 584.06it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 691.56it/s][A

                                                                                                                                                  [A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌| 9952/10000 [10:09<00:03, 13.63it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[318500] loss: 0.070 


                                                                                                                                                  
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌| 9952/10000 [10:09<00:03, 13.63it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 507.40it/s][A


[318520] loss: 0.042 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 498.20it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌| 9954/10000 [10:09<00:03, 13.81it/s]
                                                                                                                                                  [A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌| 9954/10000 [10:09<00:03, 13.81it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[318540] loss: 0.053 


                                                                                                                                                  
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌| 9954/10000 [10:09<00:03, 13.81it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 575.99it/s][A


[318560] loss: 0.101 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1167.35it/s][A

                                                                                                                                                  [A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌| 9954/10000 [10:09<00:03, 13.81it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[318580] loss: 0.048 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 777.39it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2055.02it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌| 9956/10000 [10:09<00:02, 14.80it/s]
                                                                                                                                                  [A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌| 9956/10000 [10:09<00:02, 14.80it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[318600] loss: 0.097 


                                                                                                                                                  
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌| 9956/10000 [10:09<00:02, 14.80it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 656.17it/s][A


[318620] loss: 0.026 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1376.08it/s][A

                                                                                                                                                  [A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌| 9956/10000 [10:09<00:02, 14.80it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 709.55it/s][A


[318640] loss: 0.050 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1632.66it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌| 9958/10000 [10:09<00:02, 15.64it/s]
                                                                                                                                                  [A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌| 9958/10000 [10:10<00:02, 15.64it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[318660] loss: 0.054 


                                                                                                                                                  
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌| 9958/10000 [10:10<00:02, 15.64it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 571.33it/s][A


[318680] loss: 0.064 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 586.21it/s][A

                                                                                                                                                  [A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌| 9958/10000 [10:10<00:02, 15.64it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[318700] loss: 0.064 


                                                                                                                                                  
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌| 9958/10000 [10:10<00:02, 15.64it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 566.06it/s][A


[318720] loss: 0.094 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 455.80it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌| 9960/10000 [10:10<00:02, 15.44it/s]
                                                                                                                                                  [A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌| 9960/10000 [10:10<00:02, 15.44it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[318740] loss: 0.050 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 647.36it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1063.46it/s][A

                                                                                                                                                  [A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌| 9960/10000 [10:10<00:02, 15.44it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s]

[318760] loss: 0.055 


                                                                                                                                                  
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌| 9960/10000 [10:10<00:02, 15.44it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[318780] loss: 0.058 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 587.88it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1363.11it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌| 9962/10000 [10:10<00:02, 15.76it/s]
                                                                                                                                                  [A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌| 9962/10000 [10:10<00:02, 15.76it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[318800] loss: 0.055 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 707.48it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 736.36it/s][A

                                                                                                                                                  [A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌| 9962/10000 [10:10<00:02, 15.76it/s]
                                                                                                                                                  [A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌| 9962/10000 [10:10<00:02, 15.76it/s]
Training Epoch: 100%|██████████████████████████████████████████████████████████████████████████████████████

[318820] loss: 0.050 
[318840] loss: 0.071 




Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1410.32it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋| 9964/10000 [10:10<00:02, 16.16it/s]
                                                                                                                                                  [A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋| 9964/10000 [10:10<00:02, 16.16it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[318860] loss: 0.053 


                                                                                                                                                  
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋| 9964/10000 [10:10<00:02, 16.16it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 646.43it/s][A


[318880] loss: 0.074 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1430.04it/s][A

                                                                                                                                                  [A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋| 9964/10000 [10:10<00:02, 16.16it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 726.07it/s][A


[318900] loss: 0.051 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 711.26it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋| 9966/10000 [10:10<00:02, 16.74it/s]
                                                                                                                                                  [A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋| 9966/10000 [10:10<00:02, 16.74it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[318920] loss: 0.032 


                                                                                                                                                  
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋| 9966/10000 [10:10<00:02, 16.74it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 549.50it/s][A


[318940] loss: 0.060 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1761.57it/s][A

                                                                                                                                                  [A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋| 9966/10000 [10:10<00:02, 16.74it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 923.47it/s][A


[318960] loss: 0.075 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 637.53it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋| 9968/10000 [10:10<00:01, 17.04it/s]
                                                                                                                                                  [A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋| 9968/10000 [10:10<00:01, 17.04it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[318980] loss: 0.038 


                                                                                                                                                  
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋| 9968/10000 [10:10<00:01, 17.04it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 805.12it/s][A


[319000] loss: 0.055 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 642.31it/s][A

                                                                                                                                                  [A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋| 9968/10000 [10:10<00:01, 17.04it/s]
                                                                                                                                                  [A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋| 9968/10000 [10:10<00:01, 17.04it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 772.69it/s][A


[319020] loss: 0.046 
[319040] loss: 0.069 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2133.42it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋| 9970/10000 [10:10<00:01, 17.83it/s]
                                                                                                                                                  [A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋| 9970/10000 [10:10<00:01, 17.83it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 905.41it/s][A


[319060] loss: 0.047 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 632.15it/s][A

                                                                                                                                                  [A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋| 9970/10000 [10:10<00:01, 17.83it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[319080] loss: 0.064 


                                                                                                                                                  
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋| 9970/10000 [10:10<00:01, 17.83it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 767.07it/s][A


[319100] loss: 0.096 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1939.11it/s][A

                                                                                                                                                  [A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋| 9970/10000 [10:10<00:01, 17.83it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 956.46it/s][A


[319120] loss: 0.052 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 654.24it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋| 9973/10000 [10:10<00:01, 19.21it/s]
                                                                                                                                                  [A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋| 9973/10000 [10:10<00:01, 19.21it/s]
                                                                                                                                                  [A

[319140] loss: 0.062 



100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋| 9973/10000 [10:10<00:01, 19.21it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 725.10it/s][A


[319160] loss: 0.040 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 890.70it/s][A

                                                                                                                                                  [A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋| 9973/10000 [10:10<00:01, 19.21it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[319180] loss: 0.041 


                                                                                                                                                  
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋| 9973/10000 [10:10<00:01, 19.21it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 501.23it/s][A

[319200] loss: 0.112 




Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 722.53it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋| 9975/10000 [10:10<00:01, 18.12it/s]
                                                                                                                                                  [A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋| 9975/10000 [10:10<00:01, 18.12it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[319220] loss: 0.046 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 583.15it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 955.64it/s][A

                                                                                                                                                  [A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋| 9975/10000 [10:11<00:01, 18.12it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[319240] loss: 0.034 


                                                                                                                                                  
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋| 9975/10000 [10:11<00:01, 18.12it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 491.22it/s][A


[319260] loss: 0.063 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 715.87it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊| 9977/10000 [10:11<00:01, 16.92it/s]
                                                                                                                                                  [A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊| 9977/10000 [10:11<00:01, 16.92it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[319280] loss: 0.069 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 559.96it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 597.82it/s][A

                                                                                                                                                  [A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊| 9977/10000 [10:11<00:01, 16.92it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[319300] loss: 0.073 


                                                                                                                                                  
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊| 9977/10000 [10:11<00:01, 16.92it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 486.96it/s][A


[319320] loss: 0.060 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 589.67it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊| 9979/10000 [10:11<00:01, 15.89it/s]
                                                                                                                                                  [A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊| 9979/10000 [10:11<00:01, 15.89it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[319340] loss: 0.050 


                                                                                                                                                  
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊| 9979/10000 [10:11<00:01, 15.89it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 476.18it/s][A


[319360] loss: 0.041 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 691.22it/s][A

                                                                                                                                                  [A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊| 9979/10000 [10:11<00:01, 15.89it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[319380] loss: 0.049 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 557.36it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 625.08it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊| 9981/10000 [10:11<00:01, 15.10it/s]
                                                                                                                                                  [A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊| 9981/10000 [10:11<00:01, 15.10it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[319400] loss: 0.036 


                                                                                                                                                  
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊| 9981/10000 [10:11<00:01, 15.10it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 504.36it/s][A


[319420] loss: 0.042 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 824.35it/s][A

                                                                                                                                                  [A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊| 9981/10000 [10:11<00:01, 15.10it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[319440] loss: 0.074 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 563.56it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 672.60it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊| 9983/10000 [10:11<00:01, 14.81it/s]
                                                                                                                                                  [A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊| 9983/10000 [10:11<00:01, 14.81it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[319460] loss: 0.064 


                                                                                                                                                  
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊| 9983/10000 [10:11<00:01, 14.81it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 504.29it/s][A


[319480] loss: 0.054 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 513.32it/s][A

                                                                                                                                                  [A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊| 9983/10000 [10:11<00:01, 14.81it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[319500] loss: 0.050 


                                                                                                                                                  
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊| 9983/10000 [10:11<00:01, 14.81it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 474.21it/s][A


[319520] loss: 0.049 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 788.25it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊| 9985/10000 [10:11<00:01, 14.36it/s]
                                                                                                                                                  [A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊| 9985/10000 [10:11<00:01, 14.36it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 562.66it/s][A


[319540] loss: 0.022 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 621.01it/s][A

                                                                                                                                                  [A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊| 9985/10000 [10:11<00:01, 14.36it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[319560] loss: 0.098 


                                                                                                                                                  
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊| 9985/10000 [10:11<00:01, 14.36it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 534.64it/s][A


[319580] loss: 0.032 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 794.07it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊| 9987/10000 [10:11<00:00, 14.58it/s]
                                                                                                                                                  [A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊| 9987/10000 [10:11<00:00, 14.58it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[319600] loss: 0.055 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 525.20it/s]

Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 756.00it/s][A

                                                                                                                                                  [A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊| 9987/10000 [10:11<00:00, 14.58it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[319620] loss: 0.072 


                                                                                                                                                  
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊| 9987/10000 [10:11<00:00, 14.58it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 529.77it/s][A


[319640] loss: 0.071 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 775.86it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉| 9989/10000 [10:11<00:00, 14.54it/s]
                                                                                                                                                  [A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉| 9989/10000 [10:11<00:00, 14.54it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[319660] loss: 0.020 


                                                                                                                                                  
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉| 9989/10000 [10:12<00:00, 14.54it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 594.67it/s][A


[319680] loss: 0.111 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 997.46it/s][A

                                                                                                                                                  [A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉| 9989/10000 [10:12<00:00, 14.54it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 702.85it/s][A


[319700] loss: 0.053 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 765.10it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉| 9991/10000 [10:12<00:00, 15.23it/s]
                                                                                                                                                  [A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉| 9991/10000 [10:12<00:00, 15.23it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[319720] loss: 0.046 


                                                                                                                                                  
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉| 9991/10000 [10:12<00:00, 15.23it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 668.23it/s][A


[319740] loss: 0.062 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 868.39it/s][A

                                                                                                                                                  [A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉| 9991/10000 [10:12<00:00, 15.23it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 920.69it/s][A


[319760] loss: 0.066 



Evaluating dev set: 100%|██████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 689.63it/s][A

                                                                                                                                                  [A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉| 9991/10000 [10:12<00:00, 15.23it/s]
                                                                                                                                                  [A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉| 9991/10000 [10:12<00:00, 15.23it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[319780] loss: 0.045 
[319800] loss: 0.074 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 813.83it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1962.71it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉| 9994/10000 [10:12<00:00, 16.90it/s]
                                                                                                                                                  [A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉| 9994/10000 [10:12<00:00, 16.90it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[319820] loss: 0.088 


                                                                                                                                                  
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉| 9994/10000 [10:12<00:00, 16.90it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 756.32it/s][A


[319840] loss: 0.089 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1113.43it/s][A

                                                                                                                                                  [A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉| 9994/10000 [10:12<00:00, 16.90it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 928.32it/s][A


[319860] loss: 0.046 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1832.37it/s][A

                                                                                                                                                  [A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉| 9994/10000 [10:12<00:00, 16.90it/s]
                                                                                                                                                  [A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉| 9994/10000 [10:12<00:00, 16.90it/s]

[319880] loss: 0.071 
[319900] loss: 0.080 



Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 774.99it/s][A

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1779.51it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉| 9997/10000 [10:12<00:00, 18.22it/s]
                                                                                                                                                  [A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉| 9997/10000 [10:12<00:00, 18.22it/s]
Training Epoch:   0%|                                                                                                      | 0/32 [00:00<?, ?it/s][A

[319920] loss: 0.030 


Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 958.59it/s]

Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 2579.52it/s][A

                                                                                                                                                  [A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉| 9997/10000 [10:12<00:00, 18.22it/s]
                                                                                                                                                  [A
                                                                                                                                                  

[319940] loss: 0.037 


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉| 9997/10000 [10:12<00:00, 18.22it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 779.01it/s][A


[319960] loss: 0.056 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1117.29it/s][A

                                                                                                                                                  [A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉| 9997/10000 [10:12<00:00, 18.22it/s]
                                                                                                                                                  [A


[319980] loss: 0.041 


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉| 9997/10000 [10:12<00:00, 18.22it/s]
Training Epoch: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 32/32 [00:00<00:00, 763.73it/s][A


[320000] loss: 0.075 



Evaluating dev set: 100%|█████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1309.08it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████| 10000/10000 [10:12<00:00, 16.33it/s]


In [13]:
hessian_solver._optimizer_classification

Adam (
Parameter Group 0
    amsgrad: False
    betas: (0.9, 0.999)
    capturable: False
    eps: 1e-08
    foreach: None
    lr: 0.001
    maximize: False
    weight_decay: 0.01
)

In [12]:
classification_model_pretrained = hessian_solver.load_checkpoint_classification(pretrain_ckpt_path)
inv_hessian = hessian_solver.calculate_inv_hessian()


=> loaded checkpoint 'checkpoints/fenchel/mnist/MNIST_2/epoch101_lr0.001_classAll100Each.pt (epoch 0)'
torch.Size([7840])
0 7840
calculating_inv_hessian


LinAlgError: Singular matrix