In [1]:
%load_ext autoreload
%autoreload 2

In [2]:
import json
import numpy as np
from torch.utils.data import Dataset, DataLoader
import glob
import wandb
import os
import torch.optim as optimizers

In [3]:
import dfs_code
from torch_geometric.data import InMemoryDataset, Data
import pickle
import torch
import torch.nn as nn
import tqdm
import copy
import pandas as pd
#torch.multiprocessing.set_sharing_strategy('file_system') # this is important on local machine
#def set_worker_sharing_strategy(worker_id: int) -> None:
#    torch.multiprocessing.set_sharing_strategy('file_system')

In [4]:
import sys
sys.path = ['../../../src'] + sys.path
from dfs_transformer import EarlyStopping, DFSCodeSeq2SeqFC, smiles2graph, DFSCodeAutoencoder, DFSCodeSeq2SeqDecoder

2021-09-06 17:25:22.795670: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'libcudart.so.11.0'; dlerror: libcudart.so.11.0: cannot open shared object file: No such file or directory
2021-09-06 17:25:22.795699: I tensorflow/stream_executor/cuda/cudart_stub.cc:29] Ignore above cudart dlerror if you do not have a GPU set up on your machine.


In [5]:
wandb.init(project='pubchem', entity='chrisxx')

config = wandb.config
config.n_atoms = 118
config.n_bonds = 5
config.emb_dim = 120
config.nhead = 12
config.nlayers = 3
config.n_memory = 2
config.max_nodes = 250
config.max_edges = 500
config.dim_feedforward = 2048
config.n_files = 64
config.n_splits = 16
config.n_iter_per_split = 1
config.lr = 0.0003
config.n_epochs = 10000
config.lr_adjustment_period = 500
config.patience = 5
config.factor = 0.96
config.minimal_lr = 6e-8
config.batch_size = 50
config.accumulate_grads = 4
config.valid_patience = 10000
config.valid_minimal_improvement=0.00
config.model_dir = "../../../models/pubchem/s2s/small/"
config.data_dir = "/mnt/project/pubchem_noH/"
config.pretrained_dir = None#"../../models/chembl/better_transformer/medium/"
config.num_workers = 0
config.prefetch_factor = 2
config.persistent_workers = False
config.load_last = True
config.gpu_id = 1


[34m[1mwandb[0m: Currently logged in as: [33mchrisxx[0m (use `wandb login --relogin` to force relogin)
[34m[1mwandb[0m: wandb version 0.12.1 is available!  To upgrade, please run:
[34m[1mwandb[0m:  $ pip install wandb --upgrade
2021-09-06 17:25:35.160408: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'libcudart.so.11.0'; dlerror: libcudart.so.11.0: cannot open shared object file: No such file or directory
2021-09-06 17:25:35.160438: I tensorflow/stream_executor/cuda/cudart_stub.cc:29] Ignore above cudart dlerror if you do not have a GPU set up on your machine.


In [6]:
os.makedirs(config.model_dir, exist_ok=True)

In [7]:
path = config.data_dir

In [8]:
class PubChem(Dataset):
    """PubChem dataset of molecules and minimal DFS codes."""
    def __init__(self, path=path, n_used = 8, n_splits = 64, max_nodes=config.max_nodes,
                 max_edges=config.max_edges, useHs=False, addLoops=False, memoryEfficient=False,
                 transform=None, n_mols_per_dataset=np.inf):
        self.path = path
        self.data = []
        self.path = path
        self.n_used = n_used
        self.n_splits = n_splits
        self.useHs = useHs
        self.addLoops = addLoops
        self.memoryEfficient = memoryEfficient
        self.n_mols_per_dataset = n_mols_per_dataset
        self.max_nodes = max_nodes
        self.max_edges = max_edges
        self.prepare()
        
        
    def prepare(self):
        codes_all = {}
        d_all = {}
        i2didx = {}
        perm = np.random.permutation(self.n_splits)
        for i in tqdm.tqdm(perm[:self.n_used]):
            dname = glob.glob(self.path+"/%d/min_dfs_codes_split*.json"%(i+1))[0]
            didx = int(dname.split("split")[-1][:-5])
            dname2 = self.path+"/%d/data_split%d.json"%(i+1, didx)
            with open(dname, 'r') as f:
                codes = json.load(f)
                for key, val in codes.items():
                    codes_all[key] = val
            with open(dname2, 'r') as f:
                d_dict = json.load(f)
                for key, val in d_dict.items():
                    d_all[key] = val
        
        for smiles, code in tqdm.tqdm(codes_all.items()):
            if len(self.data) > self.n_mols_per_dataset:
                break
            if code['min_dfs_code'] is not None and len(code['min_dfs_code']) > 1:
                d = d_all[smiles]
                #d = smiles2graph(smiles, useHs=self.useHs, addLoops=self.addLoops, skipCliqueCheck=False)
                if len(d['z']) > self.max_nodes:
                    continue
                if len(d['edge_attr']) > 2*self.max_edges:
                    continue
                
                data_ = Data(x=torch.tensor(d['x']),
                             z=torch.tensor(d['z']),
                             edge_attr=torch.tensor(d['edge_attr']),
                             edge_index=torch.tensor(d['edge_index'], dtype=torch.long),
                             min_dfs_code=torch.tensor(code['min_dfs_code']),
                             min_dfs_index=torch.tensor(code['dfs_index'], dtype=torch.long),
                             smiles=smiles)
                self.data += [data_]   
        
    def __len__(self):
        return len(self.data)

    def __getitem__(self, idx):
        return self.data[idx]

In [9]:
def collate_fn(dlist):
    x_batch = [] 
    z_batch = []
    edge_attr_batch = []
    rnd_code_batch = []
    min_code_batch = []
    for d in dlist:
        rnd_code, rnd_index = dfs_code.rnd_dfs_code_from_torch_geometric(d, 
                                                                         d.z.numpy().tolist(), 
                                                                         np.argmax(d.edge_attr.numpy(), axis=1))
        x_batch += [d.x]
        z_batch += [d.z]#[nn.functional.one_hot(d.z, 118)]#118 elements in periodic table
        edge_attr_batch += [d.edge_attr]
        rnd_code_batch += [torch.tensor(rnd_code)]
        min_code_batch += [d.min_dfs_code]
    return rnd_code_batch, x_batch, z_batch, edge_attr_batch, min_code_batch

In [10]:
ngpu=1
device = torch.device('cuda:%d'%config.gpu_id if (torch.cuda.is_available() and ngpu > 0) else 'cpu')

In [11]:
to_cuda = lambda T: [t.to(device) for t in T]

In [12]:
model = DFSCodeSeq2SeqDecoder(n_atoms=config.n_atoms,
                         n_bonds=config.n_bonds, 
                         emb_dim=config.emb_dim, 
                         nhead=config.nhead, 
                         nlayers=config.nlayers, 
                         max_nodes=config.max_nodes, 
                         max_edges=config.max_edges,
                         n_class_tokens=config.n_memory,
                         atom_encoder=nn.Embedding(config.n_atoms, config.emb_dim), 
                         bond_encoder=nn.Linear(config.n_bonds, config.emb_dim))

In [13]:
if config.pretrained_dir is not None:
    model.load_state_dict(torch.load(config.pretrained_dir+'checkpoint.pt', map_location=device))

In [14]:
if config.load_last:
    model.load_state_dict(torch.load(config.model_dir+'checkpoint.pt', map_location=device))

In [15]:
optim = optimizers.Adam(model.parameters(), lr=config.lr)

lr_scheduler = optimizers.lr_scheduler.ReduceLROnPlateau(optim, mode='min', verbose=True, patience=config.patience, factor=config.factor)
#lr_scheduler = optimizers.lr_scheduler.ExponentialLR(optim, gamma=config.factor)

early_stopping = EarlyStopping(patience=config.valid_patience, delta=config.valid_minimal_improvement,
                              path=config.model_dir+'checkpoint.pt')
bce = torch.nn.BCEWithLogitsLoss()
ce = torch.nn.CrossEntropyLoss(ignore_index=-1)
softmax = nn.Softmax(dim=2)

In [16]:
model.to(device)

DFSCodeSeq2SeqDecoder(
  (encoder): DFSCodeEncoder(
    (emb_dfs): PositionalEncoding(
      (dropout): Dropout(p=0, inplace=False)
    )
    (emb_seq): PositionalEncoding(
      (dropout): Dropout(p=0.1, inplace=False)
    )
    (emb_atom): Embedding(118, 120)
    (emb_bond): Linear(in_features=5, out_features=120, bias=True)
    (mixer): Linear(in_features=600, out_features=600, bias=True)
    (enc): TransformerEncoder(
      (layers): ModuleList(
        (0): TransformerEncoderLayer(
          (self_attn): MultiheadAttention(
            (out_proj): NonDynamicallyQuantizableLinear(in_features=600, out_features=600, bias=True)
          )
          (linear1): Linear(in_features=600, out_features=2048, bias=True)
          (dropout): Dropout(p=0.1, inplace=False)
          (linear2): Linear(in_features=2048, out_features=600, bias=True)
          (norm1): LayerNorm((600,), eps=1e-05, elementwise_affine=True)
          (norm2): LayerNorm((600,), eps=1e-05, elementwise_affine=True)
    

In [17]:
try:
    for epoch in range(config.n_epochs):
        epoch_loss = 0
        for split in range(config.n_splits):
            
            n_ids = config.n_files//config.n_splits
            dataset = PubChem(n_used = n_ids)
            loader = DataLoader(dataset, batch_size=config.batch_size, shuffle=True, pin_memory=False, collate_fn=collate_fn,
                   num_workers=config.num_workers, prefetch_factor=config.prefetch_factor, 
                    persistent_workers=config.persistent_workers)
            for j in range(config.n_iter_per_split):
                pbar = tqdm.tqdm(loader)
                for i, data in enumerate(pbar):
                    if i % config.accumulate_grads == 0: #bei 0 wollen wir das
                        optim.zero_grad()
                    rndc, x, z, eattr, minc = data
                    rndc = to_cuda(rndc)
                    z = to_cuda(z)
                    eattr = to_cuda(eattr)
                    minc = to_cuda(minc)
                    #prepare labels
                    minc_seq = nn.utils.rnn.pad_sequence(minc, padding_value=-1)

                    #prediction
                    dfs1, dfs2, atm1, atm2, bnd = model(rndc, z, eattr)
                    eos_label = (minc_seq[:,:,0] == (-1))
                    loss = ce(torch.reshape(dfs1, (-1, config.max_nodes)), minc_seq[:, :, 0].view(-1)) 
                    loss += ce(torch.reshape(dfs2, (-1, config.max_nodes)), minc_seq[:, :, 1].view(-1))
                    loss += ce(torch.reshape(atm1, (-1, config.n_atoms)), minc_seq[:, :, 2].view(-1))
                    loss += ce(torch.reshape(bnd, (-1, config.n_bonds)), minc_seq[:, :, 3].view(-1))
                    loss += ce(torch.reshape(atm2, (-1, config.n_atoms)), minc_seq[:, :, 4].view(-1))

                    loss.backward()
                    torch.nn.utils.clip_grad_norm_(model.parameters(), 0.5)
                    if (i+1) % config.accumulate_grads == 0:
                        optim.step() # bei 2 wollen wir das
                    epoch_loss = (epoch_loss*i + loss.item())/(i+1)

                    curr_lr = list(optim.param_groups)[0]['lr']
                    wandb.log({'loss':epoch_loss, 
                           'learning rate':curr_lr})
                    pbar.set_description('Epoch %d: CE %2.6f'%(epoch+1, epoch_loss))

                    if i % config.lr_adjustment_period == 0:
                        early_stopping(epoch_loss, model)
                        lr_scheduler.step(epoch_loss)

                
                if early_stopping.early_stop:
                    break

                if curr_lr < config.minimal_lr:
                    break
            del dataset
            del loader
        

except KeyboardInterrupt:
    torch.save(model.state_dict(), config.model_dir+'_keyboardinterrupt.pt')
    print('keyboard interrupt caught')


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [02:32<00:00, 38.15s/it]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 624685/624685 [00:50<00:00, 12288.95it/s]
Epoch 1: CE 3.933416: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12494/12494 [37:08<00:00,  5.61it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [02:51<00:00, 42.82s/it]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████

EarlyStopping counter: 1 out of 10000


Epoch 1: CE 3.839766:   8%|███████████▊                                                                                                                                       | 1002/12494 [03:03<30:57,  6.19it/s]

EarlyStopping counter: 2 out of 10000


Epoch 1: CE 3.837922:  12%|█████████████████▋                                                                                                                                 | 1502/12494 [04:32<30:54,  5.93it/s]

EarlyStopping counter: 3 out of 10000


Epoch 1: CE 3.834029:  16%|███████████████████████▌                                                                                                                           | 2002/12494 [06:02<32:45,  5.34it/s]

EarlyStopping counter: 4 out of 10000


Epoch 1: CE 3.829641:  20%|█████████████████████████████▍                                                                                                                     | 2502/12494 [07:30<28:01,  5.94it/s]

EarlyStopping counter: 5 out of 10000


Epoch 1: CE 3.826403:  24%|███████████████████████████████████▎                                                                                                               | 3002/12494 [09:01<26:21,  6.00it/s]

EarlyStopping counter: 6 out of 10000
Epoch    32: reducing learning rate of group 0 to 2.8800e-04.


Epoch 1: CE 3.823511:  28%|█████████████████████████████████████████▏                                                                                                         | 3502/12494 [10:29<26:22,  5.68it/s]

EarlyStopping counter: 7 out of 10000


Epoch 1: CE 3.818793:  32%|███████████████████████████████████████████████                                                                                                    | 4002/12494 [11:57<24:00,  5.89it/s]

EarlyStopping counter: 8 out of 10000


Epoch 1: CE 3.813240:  36%|████████████████████████████████████████████████████▉                                                                                              | 4502/12494 [13:25<21:35,  6.17it/s]

EarlyStopping counter: 9 out of 10000


Epoch 1: CE 3.809055:  40%|██████████████████████████████████████████████████████████▊                                                                                        | 5002/12494 [14:54<23:15,  5.37it/s]

EarlyStopping counter: 10 out of 10000


Epoch 1: CE 3.804611:  44%|████████████████████████████████████████████████████████████████▋                                                                                  | 5502/12494 [16:21<18:10,  6.41it/s]

EarlyStopping counter: 11 out of 10000


Epoch 1: CE 3.800952:  48%|██████████████████████████████████████████████████████████████████████▌                                                                            | 6002/12494 [17:49<17:37,  6.14it/s]

EarlyStopping counter: 12 out of 10000
Epoch    38: reducing learning rate of group 0 to 2.7648e-04.


Epoch 1: CE 3.797667:  52%|████████████████████████████████████████████████████████████████████████████▌                                                                      | 6502/12494 [19:19<16:39,  5.99it/s]

EarlyStopping counter: 13 out of 10000


Epoch 1: CE 3.793649:  56%|██████████████████████████████████████████████████████████████████████████████████▍                                                                | 7002/12494 [20:48<16:56,  5.40it/s]

EarlyStopping counter: 14 out of 10000


Epoch 1: CE 3.788879:  60%|████████████████████████████████████████████████████████████████████████████████████████▎                                                          | 7501/12494 [22:17<18:45,  4.44it/s]

EarlyStopping counter: 15 out of 10000


Epoch 1: CE 3.783494:  64%|██████████████████████████████████████████████████████████████████████████████████████████████▏                                                    | 8002/12494 [23:46<13:55,  5.38it/s]

EarlyStopping counter: 16 out of 10000


Epoch 1: CE 3.780486:  68%|████████████████████████████████████████████████████████████████████████████████████████████████████                                               | 8502/12494 [25:15<11:14,  5.92it/s]

EarlyStopping counter: 17 out of 10000


Epoch 1: CE 3.776701:  72%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                         | 9002/12494 [26:43<10:05,  5.77it/s]

EarlyStopping counter: 18 out of 10000
Epoch    44: reducing learning rate of group 0 to 2.6542e-04.


Epoch 1: CE 3.772596:  76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                   | 9502/12494 [28:12<08:16,  6.03it/s]

EarlyStopping counter: 19 out of 10000


Epoch 1: CE 3.768263:  80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                             | 10002/12494 [29:39<06:58,  5.96it/s]

EarlyStopping counter: 20 out of 10000


Epoch 1: CE 3.764820:  84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                       | 10501/12494 [31:08<05:38,  5.89it/s]

EarlyStopping counter: 21 out of 10000


Epoch 1: CE 3.761443:  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                 | 11002/12494 [32:37<04:01,  6.18it/s]

EarlyStopping counter: 22 out of 10000


Epoch 1: CE 3.757826:  92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍           | 11502/12494 [34:08<02:42,  6.10it/s]

EarlyStopping counter: 23 out of 10000


Epoch 1: CE 3.753625:  96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎     | 12002/12494 [35:38<01:20,  6.11it/s]

EarlyStopping counter: 24 out of 10000
Epoch    50: reducing learning rate of group 0 to 2.5480e-04.


Epoch 1: CE 3.749878: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12494/12494 [37:07<00:00,  5.61it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [03:30<00:00, 52.67s/it]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 624699/624699 [00:51<00:00, 12068.93it/s]
Epoch 1: CE 3.659269:   4%|█████▉                                                                                                                                              | 502/12494 [01:30<34:22,  5.82it/s]

EarlyStopping counter: 1 out of 10000


Epoch 1: CE 3.650528:   8%|███████████▊                                                                                                                                       | 1002/12494 [03:00<34:48,  5.50it/s]

EarlyStopping counter: 2 out of 10000


Epoch 1: CE 3.646407:  12%|█████████████████▋                                                                                                                                 | 1502/12494 [04:29<29:57,  6.12it/s]

EarlyStopping counter: 3 out of 10000


Epoch 1: CE 3.640835:  16%|███████████████████████▌                                                                                                                           | 2002/12494 [06:00<29:07,  6.00it/s]

EarlyStopping counter: 4 out of 10000


Epoch 1: CE 3.641305:  20%|█████████████████████████████▍                                                                                                                     | 2502/12494 [07:30<27:41,  6.02it/s]

EarlyStopping counter: 5 out of 10000


Epoch 1: CE 3.640919:  24%|███████████████████████████████████▎                                                                                                               | 3002/12494 [09:03<26:29,  5.97it/s]

EarlyStopping counter: 6 out of 10000
Epoch    57: reducing learning rate of group 0 to 2.4461e-04.


Epoch 1: CE 3.636194:  28%|█████████████████████████████████████████▏                                                                                                         | 3502/12494 [10:35<25:19,  5.92it/s]

EarlyStopping counter: 7 out of 10000


Epoch 1: CE 3.631788:  32%|███████████████████████████████████████████████                                                                                                    | 4001/12494 [12:06<25:34,  5.54it/s]

EarlyStopping counter: 8 out of 10000


Epoch 1: CE 3.629186:  36%|████████████████████████████████████████████████████▉                                                                                              | 4502/12494 [13:37<29:25,  4.53it/s]

EarlyStopping counter: 9 out of 10000


Epoch 1: CE 3.625593:  40%|██████████████████████████████████████████████████████████▊                                                                                        | 5002/12494 [15:08<23:42,  5.27it/s]

EarlyStopping counter: 10 out of 10000


Epoch 1: CE 3.622995:  44%|████████████████████████████████████████████████████████████████▋                                                                                  | 5502/12494 [16:38<20:10,  5.78it/s]

EarlyStopping counter: 11 out of 10000


Epoch 1: CE 3.619504:  48%|██████████████████████████████████████████████████████████████████████▌                                                                            | 6001/12494 [18:09<21:46,  4.97it/s]

EarlyStopping counter: 12 out of 10000
Epoch    63: reducing learning rate of group 0 to 2.3483e-04.


Epoch 1: CE 3.617134:  52%|████████████████████████████████████████████████████████████████████████████▌                                                                      | 6502/12494 [19:38<18:05,  5.52it/s]

EarlyStopping counter: 13 out of 10000


Epoch 1: CE 3.614067:  56%|██████████████████████████████████████████████████████████████████████████████████▎                                                                | 7001/12494 [21:09<18:06,  5.05it/s]

EarlyStopping counter: 14 out of 10000


Epoch 1: CE 3.609854:  60%|████████████████████████████████████████████████████████████████████████████████████████▎                                                          | 7502/12494 [22:41<14:41,  5.66it/s]

EarlyStopping counter: 15 out of 10000


Epoch 1: CE 3.605475:  64%|██████████████████████████████████████████████████████████████████████████████████████████████▏                                                    | 8002/12494 [24:09<12:16,  6.10it/s]

EarlyStopping counter: 16 out of 10000


Epoch 1: CE 3.602085:  68%|████████████████████████████████████████████████████████████████████████████████████████████████████                                               | 8502/12494 [25:39<11:07,  5.98it/s]

EarlyStopping counter: 17 out of 10000


Epoch 1: CE 3.598819:  72%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                         | 9002/12494 [27:09<10:31,  5.53it/s]

EarlyStopping counter: 18 out of 10000
Epoch    69: reducing learning rate of group 0 to 2.2543e-04.


Epoch 1: CE 3.595066:  76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                   | 9502/12494 [28:39<08:51,  5.63it/s]

EarlyStopping counter: 19 out of 10000


Epoch 1: CE 3.592229:  80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                             | 10001/12494 [30:09<09:38,  4.31it/s]

EarlyStopping counter: 20 out of 10000


Epoch 1: CE 3.588255:  84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                       | 10502/12494 [31:39<05:48,  5.72it/s]

EarlyStopping counter: 21 out of 10000


Epoch 1: CE 3.584777:  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                 | 11001/12494 [33:11<04:49,  5.16it/s]

EarlyStopping counter: 22 out of 10000


Epoch 1: CE 3.582070:  92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍           | 11502/12494 [34:41<02:56,  5.62it/s]

EarlyStopping counter: 23 out of 10000


Epoch 1: CE 3.579639:  96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎     | 12002/12494 [36:12<01:23,  5.92it/s]

EarlyStopping counter: 24 out of 10000
Epoch    75: reducing learning rate of group 0 to 2.1642e-04.


Epoch 1: CE 3.576526: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12494/12494 [37:42<00:00,  5.52it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [03:23<00:00, 50.75s/it]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 624688/624688 [00:51<00:00, 12087.08it/s]
Epoch 1: CE 3.541374:   0%|                                                                                                                                                      | 2/12494 [00:00<39:20,  5.29it/s]

EarlyStopping counter: 25 out of 10000


Epoch 1: CE 3.492933:   4%|█████▉                                                                                                                                              | 502/12494 [01:30<33:19,  6.00it/s]

EarlyStopping counter: 26 out of 10000


Epoch 1: CE 3.482615:   8%|███████████▊                                                                                                                                       | 1002/12494 [03:00<32:12,  5.95it/s]

EarlyStopping counter: 27 out of 10000


Epoch 1: CE 3.479342:  12%|█████████████████▋                                                                                                                                 | 1502/12494 [04:30<32:35,  5.62it/s]

EarlyStopping counter: 28 out of 10000


Epoch 1: CE 3.477024:  16%|███████████████████████▌                                                                                                                           | 2002/12494 [06:01<30:17,  5.77it/s]

EarlyStopping counter: 29 out of 10000


Epoch 1: CE 3.474849:  20%|█████████████████████████████▍                                                                                                                     | 2502/12494 [07:31<27:17,  6.10it/s]

EarlyStopping counter: 30 out of 10000
Epoch    81: reducing learning rate of group 0 to 2.0776e-04.


Epoch 1: CE 3.472803:  24%|███████████████████████████████████▎                                                                                                               | 3002/12494 [09:01<28:09,  5.62it/s]

EarlyStopping counter: 31 out of 10000


Epoch 1: CE 3.472251:  28%|█████████████████████████████████████████▏                                                                                                         | 3502/12494 [10:32<27:02,  5.54it/s]

EarlyStopping counter: 32 out of 10000


Epoch 1: CE 3.468142:  32%|███████████████████████████████████████████████                                                                                                    | 4002/12494 [12:04<27:58,  5.06it/s]

EarlyStopping counter: 33 out of 10000


Epoch 1: CE 3.463304:  36%|████████████████████████████████████████████████████▉                                                                                              | 4502/12494 [13:34<21:30,  6.19it/s]

EarlyStopping counter: 34 out of 10000


Epoch 1: CE 3.460533:  40%|██████████████████████████████████████████████████████████▊                                                                                        | 5002/12494 [15:03<25:16,  4.94it/s]

EarlyStopping counter: 35 out of 10000


Epoch 1: CE 3.457984:  44%|████████████████████████████████████████████████████████████████▋                                                                                  | 5502/12494 [16:33<22:42,  5.13it/s]

EarlyStopping counter: 36 out of 10000
Epoch    87: reducing learning rate of group 0 to 1.9945e-04.


Epoch 1: CE 3.453617:  48%|██████████████████████████████████████████████████████████████████████▌                                                                            | 6001/12494 [18:03<20:21,  5.32it/s]

EarlyStopping counter: 37 out of 10000


Epoch 1: CE 3.417591: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12494/12494 [37:46<00:00,  5.51it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [03:29<00:00, 52.36s/it]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 624700/624700 [01:24<00:00, 7371.90it/s]
Epoch 1: CE 3.351870:   4%|█████▉                                                                                                                                              | 502/12494 [01:33<35:35,  5.61it/s]

EarlyStopping counter: 1 out of 10000


Epoch 1: CE 3.348950:   8%|███████████▊                                                                                                                                       | 1001/12494 [03:03<32:21,  5.92it/s]

EarlyStopping counter: 2 out of 10000


Epoch 1: CE 3.339240:  12%|█████████████████▋                                                                                                                                 | 1502/12494 [04:33<29:39,  6.18it/s]

EarlyStopping counter: 3 out of 10000


Epoch 1: CE 3.337783:  16%|███████████████████████▌                                                                                                                           | 2002/12494 [06:04<28:58,  6.04it/s]

EarlyStopping counter: 4 out of 10000


Epoch 1: CE 3.335519:  20%|█████████████████████████████▍                                                                                                                     | 2502/12494 [07:34<27:59,  5.95it/s]

EarlyStopping counter: 5 out of 10000


Epoch 1: CE 3.332718:  24%|███████████████████████████████████▎                                                                                                               | 3001/12494 [09:04<26:54,  5.88it/s]

EarlyStopping counter: 6 out of 10000
Epoch   107: reducing learning rate of group 0 to 1.9147e-04.


Epoch 1: CE 3.330104:  28%|█████████████████████████████████████████▏                                                                                                         | 3502/12494 [10:33<26:33,  5.64it/s]

EarlyStopping counter: 7 out of 10000


Epoch 1: CE 3.328865:  32%|███████████████████████████████████████████████                                                                                                    | 4002/12494 [12:07<25:47,  5.49it/s]

EarlyStopping counter: 8 out of 10000


Epoch 1: CE 3.327511:  36%|████████████████████████████████████████████████████▉                                                                                              | 4502/12494 [13:39<24:40,  5.40it/s]

EarlyStopping counter: 9 out of 10000


Epoch 1: CE 3.325222:  40%|██████████████████████████████████████████████████████████▊                                                                                        | 5002/12494 [15:10<22:18,  5.60it/s]

EarlyStopping counter: 10 out of 10000


Epoch 1: CE 3.323078:  44%|████████████████████████████████████████████████████████████████▋                                                                                  | 5502/12494 [16:41<20:54,  5.57it/s]

EarlyStopping counter: 11 out of 10000


Epoch 1: CE 3.318253:  48%|██████████████████████████████████████████████████████████████████████▌                                                                            | 6002/12494 [18:14<20:44,  5.22it/s]

EarlyStopping counter: 12 out of 10000
Epoch   113: reducing learning rate of group 0 to 1.8381e-04.


Epoch 1: CE 3.315384:  52%|████████████████████████████████████████████████████████████████████████████▌                                                                      | 6502/12494 [19:45<18:16,  5.46it/s]

EarlyStopping counter: 13 out of 10000


Epoch 1: CE 3.311362:  56%|██████████████████████████████████████████████████████████████████████████████████▎                                                                | 7001/12494 [21:14<15:23,  5.95it/s]

EarlyStopping counter: 14 out of 10000


Epoch 1: CE 3.309621:  60%|████████████████████████████████████████████████████████████████████████████████████████▎                                                          | 7502/12494 [22:45<13:45,  6.05it/s]

EarlyStopping counter: 15 out of 10000


Epoch 1: CE 3.306125:  64%|██████████████████████████████████████████████████████████████████████████████████████████████▏                                                    | 8001/12494 [24:15<14:26,  5.19it/s]

EarlyStopping counter: 16 out of 10000


Epoch 1: CE 3.304213:  68%|████████████████████████████████████████████████████████████████████████████████████████████████████                                               | 8502/12494 [25:46<13:39,  4.87it/s]

EarlyStopping counter: 17 out of 10000


Epoch 1: CE 3.302232:  72%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                         | 9002/12494 [27:17<10:10,  5.72it/s]

EarlyStopping counter: 18 out of 10000
Epoch   119: reducing learning rate of group 0 to 1.7646e-04.


Epoch 1: CE 3.300053:  76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                   | 9502/12494 [28:47<08:44,  5.71it/s]

EarlyStopping counter: 19 out of 10000


Epoch 1: CE 3.297486:  80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                             | 10002/12494 [30:19<06:53,  6.03it/s]

EarlyStopping counter: 20 out of 10000


Epoch 1: CE 3.294769:  84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                       | 10501/12494 [31:49<06:03,  5.48it/s]

EarlyStopping counter: 21 out of 10000


Epoch 1: CE 3.292520:  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                 | 11002/12494 [33:20<04:09,  5.99it/s]

EarlyStopping counter: 22 out of 10000


Epoch 1: CE 3.290680:  92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍           | 11502/12494 [34:50<02:40,  6.17it/s]

EarlyStopping counter: 23 out of 10000


Epoch 1: CE 3.288121:  96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 12001/12494 [36:22<01:31,  5.41it/s]

EarlyStopping counter: 24 out of 10000
Epoch   125: reducing learning rate of group 0 to 1.6940e-04.


Epoch 1: CE 3.285684: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12494/12494 [37:50<00:00,  5.50it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [03:25<00:00, 51.44s/it]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 624738/624738 [00:53<00:00, 11647.29it/s]
Epoch 1: CE 3.476545:   0%|                                                                                                                                                    | 2/12494 [00:00<1:00:37,  3.43it/s]

EarlyStopping counter: 25 out of 10000


Epoch 1: CE 3.220081:   8%|███████████▊                                                                                                                                       | 1001/12494 [03:05<33:11,  5.77it/s]

EarlyStopping counter: 1 out of 10000


Epoch 1: CE 3.217463:  12%|█████████████████▋                                                                                                                                 | 1502/12494 [04:37<33:13,  5.51it/s]

EarlyStopping counter: 2 out of 10000


Epoch 1: CE 3.213327:  24%|███████████████████████████████████▎                                                                                                               | 3002/12494 [09:13<29:41,  5.33it/s]

EarlyStopping counter: 1 out of 10000


Epoch 1: CE 3.170948: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12494/12494 [39:03<00:00,  5.33it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [03:35<00:00, 53.84s/it]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 624705/624705 [01:29<00:00, 6961.70it/s]
Epoch 1: CE 3.038528:   0%|                                                                                                                                                      | 2/12494 [00:00<44:24,  4.69it/s]

EarlyStopping counter: 1 out of 10000


Epoch 1: CE 3.116847:  20%|█████████████████████████████▍                                                                                                                     | 2502/12494 [07:42<29:37,  5.62it/s]

EarlyStopping counter: 1 out of 10000


Epoch 1: CE 3.115044:  28%|█████████████████████████████████████████▏                                                                                                         | 3502/12494 [10:44<26:23,  5.68it/s]

EarlyStopping counter: 1 out of 10000


Epoch 1: CE 3.114930:  32%|███████████████████████████████████████████████                                                                                                    | 4002/12494 [12:18<23:38,  5.99it/s]

EarlyStopping counter: 2 out of 10000


Epoch 1: CE 3.114460:  36%|████████████████████████████████████████████████████▉                                                                                              | 4502/12494 [13:49<21:41,  6.14it/s]

EarlyStopping counter: 3 out of 10000


Epoch 1: CE 3.092580: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12494/12494 [39:01<00:00,  5.34it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [02:50<00:00, 42.51s/it]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 624704/624704 [00:51<00:00, 12085.98it/s]
Epoch 1: CE 3.067636:   4%|█████▉                                                                                                                                              | 501/12494 [01:31<37:42,  5.30it/s]

EarlyStopping counter: 1 out of 10000


Epoch 1: CE 3.070394:   8%|███████████▊                                                                                                                                       | 1002/12494 [03:02<39:36,  4.83it/s]

EarlyStopping counter: 2 out of 10000


Epoch 1: CE 3.060847:  12%|█████████████████▋                                                                                                                                 | 1502/12494 [04:33<36:09,  5.07it/s]

EarlyStopping counter: 3 out of 10000


Epoch 1: CE 3.065681:  16%|███████████████████████▌                                                                                                                           | 2001/12494 [06:04<33:30,  5.22it/s]

EarlyStopping counter: 4 out of 10000


Epoch 1: CE 3.058927:  20%|█████████████████████████████▍                                                                                                                     | 2502/12494 [07:34<28:33,  5.83it/s]

EarlyStopping counter: 5 out of 10000


Epoch 1: CE 3.056086:  24%|███████████████████████████████████▎                                                                                                               | 3002/12494 [09:05<26:54,  5.88it/s]

EarlyStopping counter: 6 out of 10000
Epoch   182: reducing learning rate of group 0 to 1.6263e-04.


Epoch 1: CE 3.051104:  28%|█████████████████████████████████████████▏                                                                                                         | 3502/12494 [10:36<27:55,  5.37it/s]

EarlyStopping counter: 7 out of 10000


Epoch 1: CE 3.047463:  32%|███████████████████████████████████████████████                                                                                                    | 4002/12494 [12:07<23:19,  6.07it/s]

EarlyStopping counter: 8 out of 10000


Epoch 1: CE 3.046916:  36%|████████████████████████████████████████████████████▉                                                                                              | 4502/12494 [13:37<23:22,  5.70it/s]

EarlyStopping counter: 9 out of 10000


Epoch 1: CE 3.044615:  40%|██████████████████████████████████████████████████████████▊                                                                                        | 5002/12494 [15:08<22:04,  5.66it/s]

EarlyStopping counter: 10 out of 10000


Epoch 1: CE 3.043145:  44%|████████████████████████████████████████████████████████████████▋                                                                                  | 5502/12494 [16:39<19:15,  6.05it/s]

EarlyStopping counter: 11 out of 10000


Epoch 1: CE 3.042790:  48%|██████████████████████████████████████████████████████████████████████▌                                                                            | 6002/12494 [18:10<18:32,  5.83it/s]

EarlyStopping counter: 12 out of 10000
Epoch   188: reducing learning rate of group 0 to 1.5612e-04.


Epoch 1: CE 3.040622:  52%|████████████████████████████████████████████████████████████████████████████▌                                                                      | 6502/12494 [19:39<17:19,  5.76it/s]

EarlyStopping counter: 13 out of 10000


Epoch 1: CE 3.038536:  56%|██████████████████████████████████████████████████████████████████████████████████▍                                                                | 7002/12494 [21:11<18:30,  4.95it/s]

EarlyStopping counter: 14 out of 10000


Epoch 1: CE 3.036568:  60%|████████████████████████████████████████████████████████████████████████████████████████▎                                                          | 7502/12494 [22:42<14:57,  5.56it/s]

EarlyStopping counter: 15 out of 10000


Epoch 1: CE 3.034327:  64%|██████████████████████████████████████████████████████████████████████████████████████████████▏                                                    | 8002/12494 [24:13<13:07,  5.71it/s]

EarlyStopping counter: 16 out of 10000


Epoch 1: CE 3.031141:  68%|████████████████████████████████████████████████████████████████████████████████████████████████████                                               | 8502/12494 [25:44<12:16,  5.42it/s]

EarlyStopping counter: 17 out of 10000


Epoch 1: CE 3.029047:  72%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                         | 9002/12494 [27:14<10:03,  5.79it/s]

EarlyStopping counter: 18 out of 10000
Epoch   194: reducing learning rate of group 0 to 1.4988e-04.


Epoch 1: CE 3.026475:  76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                   | 9502/12494 [28:45<09:04,  5.50it/s]

EarlyStopping counter: 19 out of 10000


Epoch 1: CE 3.024799:  80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                             | 10002/12494 [30:14<06:33,  6.33it/s]

EarlyStopping counter: 20 out of 10000


Epoch 1: CE 3.022673:  84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                       | 10502/12494 [31:44<05:44,  5.79it/s]

EarlyStopping counter: 21 out of 10000


Epoch 1: CE 3.020655:  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                 | 11002/12494 [33:15<04:07,  6.02it/s]

EarlyStopping counter: 22 out of 10000


Epoch 1: CE 3.018650:  92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍           | 11502/12494 [34:46<02:39,  6.22it/s]

EarlyStopping counter: 23 out of 10000


Epoch 1: CE 3.015498:  96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 12001/12494 [36:15<01:27,  5.62it/s]

EarlyStopping counter: 24 out of 10000
Epoch   200: reducing learning rate of group 0 to 1.4388e-04.


Epoch 1: CE 3.014001: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12494/12494 [37:47<00:00,  5.51it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [02:53<00:00, 43.31s/it]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 624722/624722 [01:16<00:00, 8180.33it/s]
Epoch 1: CE 2.963019:   4%|█████▉                                                                                                                                              | 501/12494 [01:31<33:19,  6.00it/s]

EarlyStopping counter: 1 out of 10000


Epoch 1: CE 2.952187:   8%|███████████▊                                                                                                                                       | 1002/12494 [03:00<32:26,  5.90it/s]

EarlyStopping counter: 2 out of 10000


Epoch 1: CE 2.949200:  12%|█████████████████▋                                                                                                                                 | 1502/12494 [04:31<31:15,  5.86it/s]

EarlyStopping counter: 3 out of 10000


Epoch 1: CE 2.951957:  16%|███████████████████████▌                                                                                                                           | 2002/12494 [06:01<32:00,  5.46it/s]

EarlyStopping counter: 4 out of 10000


Epoch 1: CE 2.947878:  20%|█████████████████████████████▍                                                                                                                     | 2502/12494 [07:31<31:50,  5.23it/s]

EarlyStopping counter: 5 out of 10000


Epoch 1: CE 2.944229:  24%|███████████████████████████████████▎                                                                                                               | 3002/12494 [09:01<30:16,  5.23it/s]

EarlyStopping counter: 6 out of 10000
Epoch   207: reducing learning rate of group 0 to 1.3813e-04.


Epoch 1: CE 2.942058:  28%|█████████████████████████████████████████▏                                                                                                         | 3502/12494 [10:33<27:11,  5.51it/s]

EarlyStopping counter: 7 out of 10000


Epoch 1: CE 2.939274:  32%|███████████████████████████████████████████████                                                                                                    | 4001/12494 [12:02<24:20,  5.82it/s]

EarlyStopping counter: 8 out of 10000


Epoch 1: CE 2.937420:  36%|████████████████████████████████████████████████████▉                                                                                              | 4502/12494 [13:34<25:24,  5.24it/s]

EarlyStopping counter: 9 out of 10000


Epoch 1: CE 2.936641:  40%|██████████████████████████████████████████████████████████▊                                                                                        | 5001/12494 [15:05<21:23,  5.84it/s]

EarlyStopping counter: 10 out of 10000


Epoch 1: CE 2.936241:  44%|████████████████████████████████████████████████████████████████▋                                                                                  | 5502/12494 [16:36<25:25,  4.58it/s]

EarlyStopping counter: 11 out of 10000


Epoch 1: CE 2.933605:  48%|██████████████████████████████████████████████████████████████████████▌                                                                            | 6002/12494 [18:07<19:44,  5.48it/s]

EarlyStopping counter: 12 out of 10000
Epoch   213: reducing learning rate of group 0 to 1.3260e-04.


Epoch 1: CE 2.933657:  52%|████████████████████████████████████████████████████████████████████████████▍                                                                      | 6501/12494 [19:38<18:21,  5.44it/s]

EarlyStopping counter: 13 out of 10000


Epoch 1: CE 2.931094:  56%|██████████████████████████████████████████████████████████████████████████████████▍                                                                | 7002/12494 [21:09<15:23,  5.95it/s]

EarlyStopping counter: 14 out of 10000


Epoch 1: CE 2.929002:  60%|████████████████████████████████████████████████████████████████████████████████████████▎                                                          | 7502/12494 [22:39<15:03,  5.53it/s]

EarlyStopping counter: 15 out of 10000


Epoch 1: CE 2.926623:  64%|██████████████████████████████████████████████████████████████████████████████████████████████▏                                                    | 8002/12494 [24:11<13:04,  5.73it/s]

EarlyStopping counter: 16 out of 10000


Epoch 1: CE 2.925605:  68%|████████████████████████████████████████████████████████████████████████████████████████████████████                                               | 8502/12494 [25:42<12:13,  5.44it/s]

EarlyStopping counter: 17 out of 10000


Epoch 1: CE 2.922973:  72%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                         | 9002/12494 [27:12<09:29,  6.13it/s]

EarlyStopping counter: 18 out of 10000
Epoch   219: reducing learning rate of group 0 to 1.2730e-04.


Epoch 1: CE 2.921128:  76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                   | 9502/12494 [28:42<09:20,  5.34it/s]

EarlyStopping counter: 19 out of 10000


Epoch 1: CE 2.918361:  80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                             | 10002/12494 [30:12<07:12,  5.76it/s]

EarlyStopping counter: 20 out of 10000


Epoch 1: CE 2.916710:  84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                       | 10502/12494 [31:43<07:00,  4.74it/s]

EarlyStopping counter: 21 out of 10000


Epoch 1: CE 2.915461:  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                 | 11002/12494 [33:14<04:10,  5.96it/s]

EarlyStopping counter: 22 out of 10000


Epoch 1: CE 2.913059:  92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍           | 11502/12494 [34:45<02:45,  6.00it/s]

EarlyStopping counter: 23 out of 10000


Epoch 1: CE 2.911062:  96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎     | 12002/12494 [36:15<01:30,  5.42it/s]

EarlyStopping counter: 24 out of 10000
Epoch   225: reducing learning rate of group 0 to 1.2220e-04.


Epoch 1: CE 2.909001: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12494/12494 [37:44<00:00,  5.52it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [02:44<00:00, 41.24s/it]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 624669/624669 [00:50<00:00, 12471.15it/s]
Epoch 1: CE 2.834104:   4%|█████▉                                                                                                                                              | 502/12493 [01:29<33:19,  6.00it/s]

EarlyStopping counter: 1 out of 10000


Epoch 1: CE 2.844827:   8%|███████████▊                                                                                                                                       | 1002/12493 [02:59<32:58,  5.81it/s]

EarlyStopping counter: 2 out of 10000


Epoch 1: CE 2.841704:  12%|█████████████████▋                                                                                                                                 | 1502/12493 [04:29<34:32,  5.30it/s]

EarlyStopping counter: 3 out of 10000


Epoch 1: CE 2.846410:  16%|███████████████████████▌                                                                                                                           | 2002/12493 [06:01<30:32,  5.72it/s]

EarlyStopping counter: 4 out of 10000


Epoch 1: CE 2.846728:  20%|█████████████████████████████▍                                                                                                                     | 2502/12493 [07:33<28:01,  5.94it/s]

EarlyStopping counter: 5 out of 10000


Epoch 1: CE 2.845668:  24%|███████████████████████████████████▎                                                                                                               | 3002/12493 [09:04<29:09,  5.43it/s]

EarlyStopping counter: 6 out of 10000
Epoch   232: reducing learning rate of group 0 to 1.1732e-04.


Epoch 1: CE 2.845164:  28%|█████████████████████████████████████████▏                                                                                                         | 3502/12493 [10:33<29:44,  5.04it/s]

EarlyStopping counter: 7 out of 10000


Epoch 1: CE 2.844780:  32%|███████████████████████████████████████████████                                                                                                    | 4002/12493 [12:04<24:30,  5.77it/s]

EarlyStopping counter: 8 out of 10000


Epoch 1: CE 2.842104:  36%|████████████████████████████████████████████████████▉                                                                                              | 4502/12493 [13:34<23:46,  5.60it/s]

EarlyStopping counter: 9 out of 10000


Epoch 1: CE 2.840491:  40%|██████████████████████████████████████████████████████████▊                                                                                        | 5002/12493 [15:04<20:49,  5.99it/s]

EarlyStopping counter: 10 out of 10000


Epoch 1: CE 2.839314:  44%|████████████████████████████████████████████████████████████████▋                                                                                  | 5502/12493 [16:35<20:47,  5.60it/s]

EarlyStopping counter: 11 out of 10000


Epoch 1: CE 2.837383:  48%|██████████████████████████████████████████████████████████████████████▌                                                                            | 6002/12493 [18:07<22:28,  4.81it/s]

EarlyStopping counter: 12 out of 10000
Epoch   238: reducing learning rate of group 0 to 1.1262e-04.


Epoch 1: CE 2.836683:  52%|████████████████████████████████████████████████████████████████████████████▌                                                                      | 6502/12493 [19:39<17:11,  5.81it/s]

EarlyStopping counter: 13 out of 10000


Epoch 1: CE 2.834521:  56%|██████████████████████████████████████████████████████████████████████████████████▍                                                                | 7001/12493 [21:08<15:29,  5.91it/s]

EarlyStopping counter: 14 out of 10000


Epoch 1: CE 2.833622:  60%|████████████████████████████████████████████████████████████████████████████████████████▎                                                          | 7502/12493 [22:40<13:33,  6.14it/s]

EarlyStopping counter: 15 out of 10000


Epoch 1: CE 2.830700:  64%|██████████████████████████████████████████████████████████████████████████████████████████████▏                                                    | 8002/12493 [24:11<13:41,  5.47it/s]

EarlyStopping counter: 16 out of 10000


Epoch 1: CE 2.829263:  68%|████████████████████████████████████████████████████████████████████████████████████████████████████                                               | 8502/12493 [25:42<11:09,  5.96it/s]

EarlyStopping counter: 17 out of 10000


Epoch 1: CE 2.829402:  72%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                         | 9002/12493 [27:15<10:59,  5.29it/s]

EarlyStopping counter: 18 out of 10000
Epoch   244: reducing learning rate of group 0 to 1.0812e-04.


Epoch 1: CE 2.828418:  76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                   | 9502/12493 [28:46<09:19,  5.35it/s]

EarlyStopping counter: 19 out of 10000


Epoch 1: CE 2.825240:  80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                             | 10002/12493 [30:16<07:18,  5.68it/s]

EarlyStopping counter: 20 out of 10000


Epoch 1: CE 2.816796: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12493/12493 [37:48<00:00,  5.51it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [03:05<00:00, 46.35s/it]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 624688/624688 [00:49<00:00, 12706.54it/s]
Epoch 1: CE 2.777628:   4%|█████▉                                                                                                                                              | 502/12493 [01:31<35:14,  5.67it/s]

EarlyStopping counter: 1 out of 10000


Epoch 1: CE 2.766744:   8%|███████████▊                                                                                                                                       | 1002/12493 [03:02<33:01,  5.80it/s]

EarlyStopping counter: 2 out of 10000


Epoch 1: CE 2.767630:  12%|█████████████████▋                                                                                                                                 | 1502/12493 [04:32<34:28,  5.31it/s]

EarlyStopping counter: 3 out of 10000


Epoch 1: CE 2.765542:  16%|███████████████████████▌                                                                                                                           | 2002/12493 [06:02<30:11,  5.79it/s]

EarlyStopping counter: 4 out of 10000


Epoch 1: CE 2.762278:  20%|█████████████████████████████▍                                                                                                                     | 2502/12493 [07:33<26:50,  6.20it/s]

EarlyStopping counter: 5 out of 10000


Epoch 1: CE 2.762238:  24%|███████████████████████████████████▎                                                                                                               | 3002/12493 [09:02<28:03,  5.64it/s]

EarlyStopping counter: 6 out of 10000
Epoch   257: reducing learning rate of group 0 to 1.0379e-04.


Epoch 1: CE 2.764730:  28%|█████████████████████████████████████████▏                                                                                                         | 3502/12493 [10:34<26:20,  5.69it/s]

EarlyStopping counter: 7 out of 10000


Epoch 1: CE 2.762832:  32%|███████████████████████████████████████████████                                                                                                    | 4001/12493 [12:03<31:52,  4.44it/s]

EarlyStopping counter: 8 out of 10000


Epoch 1: CE 2.761639:  36%|████████████████████████████████████████████████████▉                                                                                              | 4501/12493 [13:32<22:37,  5.89it/s]

EarlyStopping counter: 9 out of 10000


Epoch 1: CE 2.759226:  40%|██████████████████████████████████████████████████████████▊                                                                                        | 5002/12493 [15:03<22:34,  5.53it/s]

EarlyStopping counter: 10 out of 10000


Epoch 1: CE 2.757029:  44%|████████████████████████████████████████████████████████████████▋                                                                                  | 5502/12493 [16:33<22:41,  5.14it/s]

EarlyStopping counter: 11 out of 10000


Epoch 1: CE 2.755002:  48%|██████████████████████████████████████████████████████████████████████▌                                                                            | 6001/12493 [18:04<20:22,  5.31it/s]

EarlyStopping counter: 12 out of 10000
Epoch   263: reducing learning rate of group 0 to 9.9642e-05.


Epoch 1: CE 2.752888:  52%|████████████████████████████████████████████████████████████████████████████▌                                                                      | 6502/12493 [19:35<17:20,  5.76it/s]

EarlyStopping counter: 13 out of 10000


Epoch 1: CE 2.750869:  56%|██████████████████████████████████████████████████████████████████████████████████▍                                                                | 7002/12493 [21:05<16:01,  5.71it/s]

EarlyStopping counter: 14 out of 10000


Epoch 1: CE 2.747686:  60%|████████████████████████████████████████████████████████████████████████████████████████▎                                                          | 7501/12493 [22:34<15:12,  5.47it/s]

EarlyStopping counter: 15 out of 10000


Epoch 1: CE 2.747465:  64%|██████████████████████████████████████████████████████████████████████████████████████████████▏                                                    | 8002/12493 [24:04<13:16,  5.64it/s]

EarlyStopping counter: 16 out of 10000


Epoch 1: CE 2.745877:  68%|████████████████████████████████████████████████████████████████████████████████████████████████████                                               | 8502/12493 [25:34<11:09,  5.96it/s]

EarlyStopping counter: 17 out of 10000


Epoch 1: CE 2.745036:  72%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                         | 9002/12493 [27:07<09:45,  5.96it/s]

EarlyStopping counter: 18 out of 10000
Epoch   269: reducing learning rate of group 0 to 9.5657e-05.


Epoch 1: CE 2.743400:  76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                   | 9502/12493 [28:38<09:37,  5.18it/s]

EarlyStopping counter: 19 out of 10000


Epoch 1: CE 2.742507:  80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                             | 10001/12493 [30:09<07:36,  5.46it/s]

EarlyStopping counter: 20 out of 10000


Epoch 1: CE 2.741293:  84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                       | 10502/12493 [31:40<05:36,  5.91it/s]

EarlyStopping counter: 21 out of 10000


Epoch 1: CE 2.740147:  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                 | 11001/12493 [33:11<04:51,  5.12it/s]

EarlyStopping counter: 22 out of 10000


Epoch 1: CE 2.738974:  92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍           | 11502/12493 [34:41<02:56,  5.63it/s]

EarlyStopping counter: 23 out of 10000


Epoch 1: CE 2.737756:  96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎     | 12002/12493 [36:12<01:27,  5.58it/s]

EarlyStopping counter: 24 out of 10000
Epoch   275: reducing learning rate of group 0 to 9.1831e-05.


Epoch 1: CE 2.735624: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12493/12493 [37:40<00:00,  5.53it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [02:53<00:00, 43.25s/it]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 624693/624693 [00:51<00:00, 12149.09it/s]
Epoch 1: CE 3.062994:   0%|                                                                                                                                                      | 1/12494 [00:00<55:51,  3.73it/s]

EarlyStopping counter: 25 out of 10000


Epoch 1: CE 2.697836:   4%|█████▉                                                                                                                                              | 502/12494 [01:30<35:02,  5.70it/s]

EarlyStopping counter: 26 out of 10000


Epoch 1: CE 2.701702:   8%|███████████▊                                                                                                                                       | 1001/12494 [03:01<33:11,  5.77it/s]

EarlyStopping counter: 27 out of 10000


Epoch 1: CE 2.701176:  12%|█████████████████▋                                                                                                                                 | 1502/12494 [04:31<33:36,  5.45it/s]

EarlyStopping counter: 28 out of 10000


Epoch 1: CE 2.699508:  16%|███████████████████████▌                                                                                                                           | 2002/12494 [06:00<31:21,  5.58it/s]

EarlyStopping counter: 29 out of 10000


Epoch 1: CE 2.696451:  20%|█████████████████████████████▍                                                                                                                     | 2502/12494 [07:31<28:30,  5.84it/s]

EarlyStopping counter: 30 out of 10000
Epoch   281: reducing learning rate of group 0 to 8.8157e-05.


Epoch 1: CE 2.693703:  24%|███████████████████████████████████▎                                                                                                               | 3002/12494 [09:01<27:11,  5.82it/s]

EarlyStopping counter: 31 out of 10000


Epoch 1: CE 2.690082:  28%|█████████████████████████████████████████▏                                                                                                         | 3502/12494 [10:31<25:33,  5.87it/s]

EarlyStopping counter: 32 out of 10000


Epoch 1: CE 2.690173:  32%|███████████████████████████████████████████████                                                                                                    | 4001/12494 [12:02<26:39,  5.31it/s]

EarlyStopping counter: 33 out of 10000


Epoch 1: CE 2.689655:  36%|████████████████████████████████████████████████████▉                                                                                              | 4501/12494 [13:33<21:43,  6.13it/s]

EarlyStopping counter: 34 out of 10000


Epoch 1: CE 2.688804:  40%|██████████████████████████████████████████████████████████▊                                                                                        | 5002/12494 [15:03<21:45,  5.74it/s]

EarlyStopping counter: 35 out of 10000


Epoch 1: CE 2.687303:  44%|████████████████████████████████████████████████████████████████▋                                                                                  | 5502/12494 [16:33<19:51,  5.87it/s]

EarlyStopping counter: 36 out of 10000
Epoch   287: reducing learning rate of group 0 to 8.4631e-05.


Epoch 1: CE 2.686150:  48%|██████████████████████████████████████████████████████████████████████▌                                                                            | 6002/12494 [18:05<19:08,  5.65it/s]

EarlyStopping counter: 37 out of 10000


Epoch 1: CE 2.685734:  52%|████████████████████████████████████████████████████████████████████████████▌                                                                      | 6502/12494 [19:36<16:51,  5.92it/s]

EarlyStopping counter: 38 out of 10000


Epoch 1: CE 2.684117:  56%|██████████████████████████████████████████████████████████████████████████████████▍                                                                | 7002/12494 [21:06<16:19,  5.60it/s]

EarlyStopping counter: 39 out of 10000


Epoch 1: CE 2.684135:  60%|████████████████████████████████████████████████████████████████████████████████████████▎                                                          | 7502/12494 [22:38<14:43,  5.65it/s]

EarlyStopping counter: 40 out of 10000


Epoch 1: CE 2.681714:  64%|██████████████████████████████████████████████████████████████████████████████████████████████▏                                                    | 8001/12494 [24:08<12:09,  6.16it/s]

EarlyStopping counter: 41 out of 10000


Epoch 1: CE 2.680412:  68%|████████████████████████████████████████████████████████████████████████████████████████████████████                                               | 8502/12494 [25:40<11:35,  5.74it/s]

EarlyStopping counter: 42 out of 10000
Epoch   293: reducing learning rate of group 0 to 8.1246e-05.


Epoch 1: CE 2.678893:  72%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                         | 9002/12494 [27:11<10:29,  5.55it/s]

EarlyStopping counter: 43 out of 10000


Epoch 1: CE 2.677048:  76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                   | 9502/12494 [28:43<11:24,  4.37it/s]

EarlyStopping counter: 44 out of 10000


Epoch 1: CE 2.674389:  80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                             | 10002/12494 [30:13<07:37,  5.45it/s]

EarlyStopping counter: 45 out of 10000


Epoch 1: CE 2.672838:  84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                       | 10502/12494 [31:43<06:20,  5.24it/s]

EarlyStopping counter: 46 out of 10000


Epoch 1: CE 2.670956:  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                 | 11001/12494 [33:14<04:21,  5.71it/s]

EarlyStopping counter: 47 out of 10000


Epoch 1: CE 2.669057:  92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍           | 11502/12494 [34:43<03:13,  5.13it/s]

EarlyStopping counter: 48 out of 10000
Epoch   299: reducing learning rate of group 0 to 7.7996e-05.


Epoch 1: CE 2.666979:  96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎     | 12002/12494 [36:15<01:27,  5.63it/s]

EarlyStopping counter: 49 out of 10000


Epoch 1: CE 2.665224: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12494/12494 [37:44<00:00,  5.52it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [02:59<00:00, 44.97s/it]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 624695/624695 [01:17<00:00, 8014.29it/s]
Epoch 1: CE 2.645897:   4%|█████▉                                                                                                                                              | 502/12494 [01:29<35:27,  5.64it/s]

EarlyStopping counter: 1 out of 10000


Epoch 1: CE 2.642171:   8%|███████████▊                                                                                                                                       | 1002/12494 [03:00<32:09,  5.96it/s]

EarlyStopping counter: 2 out of 10000


Epoch 1: CE 2.643199:  12%|█████████████████▋                                                                                                                                 | 1502/12494 [04:30<32:37,  5.62it/s]

EarlyStopping counter: 3 out of 10000


Epoch 1: CE 2.642996:  16%|███████████████████████▌                                                                                                                           | 2002/12494 [06:02<32:34,  5.37it/s]

EarlyStopping counter: 4 out of 10000


Epoch 1: CE 2.641509:  20%|█████████████████████████████▍                                                                                                                     | 2502/12494 [07:33<33:26,  4.98it/s]

EarlyStopping counter: 5 out of 10000


Epoch 1: CE 2.638326:  24%|███████████████████████████████████▎                                                                                                               | 3002/12494 [09:05<26:47,  5.91it/s]

EarlyStopping counter: 6 out of 10000
Epoch   307: reducing learning rate of group 0 to 7.4876e-05.


Epoch 1: CE 2.638547:  28%|█████████████████████████████████████████▏                                                                                                         | 3502/12494 [10:36<30:10,  4.97it/s]

EarlyStopping counter: 7 out of 10000


Epoch 1: CE 2.636913:  32%|███████████████████████████████████████████████                                                                                                    | 4002/12494 [12:07<23:48,  5.94it/s]

EarlyStopping counter: 8 out of 10000


Epoch 1: CE 2.634749:  36%|████████████████████████████████████████████████████▉                                                                                              | 4502/12494 [13:37<24:02,  5.54it/s]

EarlyStopping counter: 9 out of 10000


Epoch 1: CE 2.630246:  40%|██████████████████████████████████████████████████████████▊                                                                                        | 5002/12494 [15:07<20:55,  5.97it/s]

EarlyStopping counter: 10 out of 10000


Epoch 1: CE 2.629074:  44%|████████████████████████████████████████████████████████████████▋                                                                                  | 5502/12494 [16:38<21:10,  5.50it/s]

EarlyStopping counter: 11 out of 10000


Epoch 1: CE 2.627192:  48%|██████████████████████████████████████████████████████████████████████▌                                                                            | 6002/12494 [18:08<19:26,  5.57it/s]

EarlyStopping counter: 12 out of 10000
Epoch   313: reducing learning rate of group 0 to 7.1881e-05.


Epoch 1: CE 2.625844:  52%|████████████████████████████████████████████████████████████████████████████▌                                                                      | 6502/12494 [19:39<19:28,  5.13it/s]

EarlyStopping counter: 13 out of 10000


Epoch 1: CE 2.624098:  56%|██████████████████████████████████████████████████████████████████████████████████▍                                                                | 7002/12494 [21:11<16:45,  5.46it/s]

EarlyStopping counter: 14 out of 10000


Epoch 1: CE 2.623145:  60%|████████████████████████████████████████████████████████████████████████████████████████▎                                                          | 7502/12494 [22:42<14:05,  5.91it/s]

EarlyStopping counter: 15 out of 10000


Epoch 1: CE 2.622277:  64%|██████████████████████████████████████████████████████████████████████████████████████████████▏                                                    | 8001/12494 [24:12<14:35,  5.13it/s]

EarlyStopping counter: 16 out of 10000


Epoch 1: CE 2.621201:  68%|████████████████████████████████████████████████████████████████████████████████████████████████████                                               | 8502/12494 [25:41<12:04,  5.51it/s]

EarlyStopping counter: 17 out of 10000


Epoch 1: CE 2.620450:  72%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                         | 9002/12494 [27:13<10:28,  5.56it/s]

EarlyStopping counter: 18 out of 10000
Epoch   319: reducing learning rate of group 0 to 6.9006e-05.


Epoch 1: CE 2.618520:  76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                   | 9502/12494 [28:43<08:28,  5.88it/s]

EarlyStopping counter: 19 out of 10000


Epoch 1: CE 2.616419:  80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                             | 10002/12494 [30:12<07:07,  5.83it/s]

EarlyStopping counter: 20 out of 10000


Epoch 1: CE 2.614641:  84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                       | 10502/12494 [31:43<06:02,  5.49it/s]

EarlyStopping counter: 21 out of 10000


Epoch 1: CE 2.613521:  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                 | 11001/12494 [33:13<04:13,  5.89it/s]

EarlyStopping counter: 22 out of 10000


Epoch 1: CE 2.611929:  92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍           | 11502/12494 [34:44<02:48,  5.89it/s]

EarlyStopping counter: 23 out of 10000


Epoch 1: CE 2.610070:  96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 12001/12494 [36:14<01:32,  5.30it/s]

EarlyStopping counter: 24 out of 10000
Epoch   325: reducing learning rate of group 0 to 6.6246e-05.


Epoch 1: CE 2.608991: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12494/12494 [37:43<00:00,  5.52it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [02:29<00:00, 37.47s/it]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 624675/624675 [01:13<00:00, 8495.95it/s]
Epoch 1: CE 2.915187:   0%|                                                                                                                                                      | 2/12493 [00:00<45:04,  4.62it/s]

EarlyStopping counter: 25 out of 10000


Epoch 1: CE 2.584054:   4%|█████▉                                                                                                                                              | 502/12493 [01:30<34:20,  5.82it/s]

EarlyStopping counter: 26 out of 10000


Epoch 1: CE 2.577267:   8%|███████████▊                                                                                                                                       | 1002/12493 [03:01<34:44,  5.51it/s]

EarlyStopping counter: 27 out of 10000


Epoch 1: CE 2.571391:  12%|█████████████████▋                                                                                                                                 | 1502/12493 [04:32<33:03,  5.54it/s]

EarlyStopping counter: 28 out of 10000


Epoch 1: CE 2.572627:  16%|███████████████████████▌                                                                                                                           | 2001/12493 [06:02<30:25,  5.75it/s]

EarlyStopping counter: 29 out of 10000


Epoch 1: CE 2.571399:  20%|█████████████████████████████▍                                                                                                                     | 2502/12493 [07:34<26:58,  6.17it/s]

EarlyStopping counter: 30 out of 10000
Epoch   331: reducing learning rate of group 0 to 6.3596e-05.


Epoch 1: CE 2.570831:  24%|███████████████████████████████████▎                                                                                                               | 3002/12493 [09:04<27:29,  5.75it/s]

EarlyStopping counter: 31 out of 10000


Epoch 1: CE 2.566811:  28%|█████████████████████████████████████████▏                                                                                                         | 3502/12493 [10:33<25:49,  5.80it/s]

EarlyStopping counter: 32 out of 10000


Epoch 1: CE 2.565708:  32%|███████████████████████████████████████████████                                                                                                    | 4002/12493 [12:05<24:54,  5.68it/s]

EarlyStopping counter: 33 out of 10000


Epoch 1: CE 2.565352:  36%|████████████████████████████████████████████████████▉                                                                                              | 4502/12493 [13:36<23:36,  5.64it/s]

EarlyStopping counter: 34 out of 10000


Epoch 1: CE 2.562725:  40%|██████████████████████████████████████████████████████████▊                                                                                        | 5002/12493 [15:07<20:43,  6.03it/s]

EarlyStopping counter: 35 out of 10000


Epoch 1: CE 2.563217:  44%|████████████████████████████████████████████████████████████████▋                                                                                  | 5502/12493 [16:37<18:20,  6.35it/s]

EarlyStopping counter: 36 out of 10000
Epoch   337: reducing learning rate of group 0 to 6.1052e-05.


Epoch 1: CE 2.561629:  48%|██████████████████████████████████████████████████████████████████████▌                                                                            | 6002/12493 [18:08<19:04,  5.67it/s]

EarlyStopping counter: 37 out of 10000


Epoch 1: CE 2.560423:  52%|████████████████████████████████████████████████████████████████████████████▍                                                                      | 6501/12493 [19:38<19:19,  5.17it/s]

EarlyStopping counter: 38 out of 10000


Epoch 1: CE 2.559359:  56%|██████████████████████████████████████████████████████████████████████████████████▍                                                                | 7002/12493 [21:09<16:19,  5.60it/s]

EarlyStopping counter: 39 out of 10000


Epoch 1: CE 2.557549:  60%|████████████████████████████████████████████████████████████████████████████████████████▎                                                          | 7502/12493 [22:40<13:16,  6.27it/s]

EarlyStopping counter: 40 out of 10000


Epoch 1: CE 2.557193:  64%|██████████████████████████████████████████████████████████████████████████████████████████████▏                                                    | 8002/12493 [24:10<13:09,  5.69it/s]

EarlyStopping counter: 41 out of 10000


Epoch 1: CE 2.555180:  68%|████████████████████████████████████████████████████████████████████████████████████████████████████                                               | 8501/12493 [25:40<15:22,  4.33it/s]

EarlyStopping counter: 42 out of 10000
Epoch   343: reducing learning rate of group 0 to 5.8610e-05.


Epoch 1: CE 2.553759:  72%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                         | 9002/12493 [27:11<09:52,  5.89it/s]

EarlyStopping counter: 43 out of 10000


Epoch 1: CE 2.551956:  76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                   | 9501/12493 [28:42<09:52,  5.05it/s]

EarlyStopping counter: 44 out of 10000


Epoch 1: CE 2.550723:  80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                             | 10002/12493 [30:12<06:53,  6.03it/s]

EarlyStopping counter: 45 out of 10000


Epoch 1: CE 2.549808:  84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                       | 10502/12493 [31:43<05:48,  5.71it/s]

EarlyStopping counter: 46 out of 10000


Epoch 1: CE 2.548594:  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                 | 11002/12493 [33:13<04:30,  5.51it/s]

EarlyStopping counter: 47 out of 10000


Epoch 1: CE 2.547268:  92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍           | 11502/12493 [34:43<02:49,  5.83it/s]

EarlyStopping counter: 48 out of 10000
Epoch   349: reducing learning rate of group 0 to 5.6265e-05.


Epoch 1: CE 2.546679:  96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎     | 12002/12493 [36:14<01:32,  5.29it/s]

EarlyStopping counter: 49 out of 10000


Epoch 1: CE 2.545131: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12493/12493 [37:42<00:00,  5.52it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [02:36<00:00, 39.10s/it]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 624707/624707 [01:12<00:00, 8586.78it/s]
Epoch 1: CE 2.368197:   0%|                                                                                                                                                      | 2/12494 [00:00<39:03,  5.33it/s]

EarlyStopping counter: 50 out of 10000


Epoch 1: CE 2.519649:   4%|█████▉                                                                                                                                              | 502/12494 [01:31<35:37,  5.61it/s]

EarlyStopping counter: 51 out of 10000


Epoch 1: CE 2.507854:   8%|███████████▊                                                                                                                                       | 1002/12494 [03:00<32:53,  5.82it/s]

EarlyStopping counter: 52 out of 10000


Epoch 1: CE 2.507529:  12%|█████████████████▋                                                                                                                                 | 1502/12494 [04:31<29:45,  6.16it/s]

EarlyStopping counter: 53 out of 10000


Epoch 1: CE 2.510278:  16%|███████████████████████▌                                                                                                                           | 2002/12494 [06:02<31:11,  5.61it/s]

EarlyStopping counter: 54 out of 10000
Epoch   355: reducing learning rate of group 0 to 5.4015e-05.


Epoch 1: CE 2.517002:  20%|█████████████████████████████▍                                                                                                                     | 2502/12494 [07:34<30:58,  5.38it/s]

EarlyStopping counter: 55 out of 10000


Epoch 1: CE 2.514521:  24%|███████████████████████████████████▎                                                                                                               | 3002/12494 [09:06<26:51,  5.89it/s]

EarlyStopping counter: 56 out of 10000


Epoch 1: CE 2.513270:  28%|█████████████████████████████████████████▏                                                                                                         | 3502/12494 [10:37<25:58,  5.77it/s]

EarlyStopping counter: 57 out of 10000


Epoch 1: CE 2.509360:  32%|███████████████████████████████████████████████                                                                                                    | 4002/12494 [12:08<26:30,  5.34it/s]

EarlyStopping counter: 58 out of 10000


Epoch 1: CE 2.507003:  36%|████████████████████████████████████████████████████▉                                                                                              | 4502/12494 [13:39<23:11,  5.74it/s]

EarlyStopping counter: 59 out of 10000


Epoch 1: CE 2.507482:  40%|██████████████████████████████████████████████████████████▊                                                                                        | 5002/12494 [15:11<21:36,  5.78it/s]

EarlyStopping counter: 60 out of 10000
Epoch   361: reducing learning rate of group 0 to 5.1854e-05.


Epoch 1: CE 2.507094:  44%|████████████████████████████████████████████████████████████████▋                                                                                  | 5502/12494 [16:41<20:07,  5.79it/s]

EarlyStopping counter: 61 out of 10000


Epoch 1: CE 2.507429:  48%|██████████████████████████████████████████████████████████████████████▌                                                                            | 6002/12494 [18:11<18:48,  5.75it/s]

EarlyStopping counter: 62 out of 10000


Epoch 1: CE 2.505506:  52%|████████████████████████████████████████████████████████████████████████████▌                                                                      | 6502/12494 [19:43<17:44,  5.63it/s]

EarlyStopping counter: 63 out of 10000


Epoch 1: CE 2.504145:  56%|██████████████████████████████████████████████████████████████████████████████████▍                                                                | 7002/12494 [21:13<15:46,  5.80it/s]

EarlyStopping counter: 64 out of 10000


Epoch 1: CE 2.502275:  60%|████████████████████████████████████████████████████████████████████████████████████████▎                                                          | 7502/12494 [22:43<15:51,  5.25it/s]

EarlyStopping counter: 65 out of 10000


Epoch 1: CE 2.502001:  64%|██████████████████████████████████████████████████████████████████████████████████████████████▏                                                    | 8002/12494 [24:14<13:59,  5.35it/s]

EarlyStopping counter: 66 out of 10000
Epoch   367: reducing learning rate of group 0 to 4.9780e-05.


Epoch 1: CE 2.500648:  68%|████████████████████████████████████████████████████████████████████████████████████████████████████                                               | 8502/12494 [25:44<12:07,  5.49it/s]

EarlyStopping counter: 67 out of 10000


Epoch 1: CE 2.499843:  72%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                         | 9001/12494 [27:15<10:35,  5.50it/s]

EarlyStopping counter: 68 out of 10000


Epoch 1: CE 2.500043:  76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                   | 9502/12494 [28:46<08:34,  5.82it/s]

EarlyStopping counter: 69 out of 10000


Epoch 1: CE 2.498807:  80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                             | 10002/12494 [30:16<06:30,  6.38it/s]

EarlyStopping counter: 70 out of 10000


Epoch 1: CE 2.497181:  84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                       | 10502/12494 [31:47<06:38,  5.00it/s]

EarlyStopping counter: 71 out of 10000


Epoch 1: CE 2.495594:  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                 | 11002/12494 [33:17<04:12,  5.91it/s]

EarlyStopping counter: 72 out of 10000
Epoch   373: reducing learning rate of group 0 to 4.7789e-05.


Epoch 1: CE 2.494790:  92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍           | 11502/12494 [34:49<03:42,  4.46it/s]

EarlyStopping counter: 73 out of 10000


Epoch 1: CE 2.493793:  96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎     | 12002/12494 [36:19<01:26,  5.66it/s]

EarlyStopping counter: 74 out of 10000


Epoch 1: CE 2.492316: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12494/12494 [37:49<00:00,  5.51it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [02:37<00:00, 39.49s/it]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 624700/624700 [01:14<00:00, 8415.35it/s]
Epoch 1: CE 2.452336:   4%|█████▉                                                                                                                                              | 502/12494 [01:30<36:16,  5.51it/s]

EarlyStopping counter: 1 out of 10000


Epoch 1: CE 2.470079:   8%|███████████▊                                                                                                                                       | 1002/12494 [03:01<34:04,  5.62it/s]

EarlyStopping counter: 2 out of 10000


Epoch 1: CE 2.472199:  12%|█████████████████▋                                                                                                                                 | 1502/12494 [04:31<32:04,  5.71it/s]

EarlyStopping counter: 3 out of 10000


Epoch 1: CE 2.469904:  16%|███████████████████████▌                                                                                                                           | 2002/12494 [06:02<31:05,  5.62it/s]

EarlyStopping counter: 4 out of 10000


Epoch 1: CE 2.466093:  20%|█████████████████████████████▍                                                                                                                     | 2502/12494 [07:32<32:15,  5.16it/s]

EarlyStopping counter: 5 out of 10000


Epoch 1: CE 2.465953:  24%|███████████████████████████████████▎                                                                                                               | 3002/12494 [09:03<28:36,  5.53it/s]

EarlyStopping counter: 6 out of 10000
Epoch   382: reducing learning rate of group 0 to 4.5877e-05.


Epoch 1: CE 2.465810:  28%|█████████████████████████████████████████▏                                                                                                         | 3502/12494 [10:34<25:34,  5.86it/s]

EarlyStopping counter: 7 out of 10000


Epoch 1: CE 2.462126:  32%|███████████████████████████████████████████████                                                                                                    | 4002/12494 [12:03<23:49,  5.94it/s]

EarlyStopping counter: 8 out of 10000


Epoch 1: CE 2.463456:  36%|████████████████████████████████████████████████████▉                                                                                              | 4502/12494 [13:34<23:53,  5.57it/s]

EarlyStopping counter: 9 out of 10000


Epoch 1: CE 2.461947:  40%|██████████████████████████████████████████████████████████▊                                                                                        | 5002/12494 [15:04<23:20,  5.35it/s]

EarlyStopping counter: 10 out of 10000


Epoch 1: CE 2.460754:  44%|████████████████████████████████████████████████████████████████▋                                                                                  | 5502/12494 [16:34<21:17,  5.47it/s]

EarlyStopping counter: 11 out of 10000


Epoch 1: CE 2.459655:  48%|██████████████████████████████████████████████████████████████████████▌                                                                            | 6002/12494 [18:04<17:43,  6.10it/s]

EarlyStopping counter: 12 out of 10000
Epoch   388: reducing learning rate of group 0 to 4.4042e-05.


Epoch 1: CE 2.459213:  52%|████████████████████████████████████████████████████████████████████████████▍                                                                      | 6501/12494 [19:36<17:37,  5.67it/s]

EarlyStopping counter: 13 out of 10000


Epoch 1: CE 2.459706:  56%|██████████████████████████████████████████████████████████████████████████████████▎                                                                | 7001/12494 [21:08<16:21,  5.60it/s]

EarlyStopping counter: 14 out of 10000


Epoch 1: CE 2.458771:  60%|████████████████████████████████████████████████████████████████████████████████████████▎                                                          | 7502/12494 [22:39<13:25,  6.20it/s]

EarlyStopping counter: 15 out of 10000


Epoch 1: CE 2.457892:  64%|██████████████████████████████████████████████████████████████████████████████████████████████▏                                                    | 8002/12494 [24:09<12:39,  5.91it/s]

EarlyStopping counter: 16 out of 10000


Epoch 1: CE 2.457221:  68%|████████████████████████████████████████████████████████████████████████████████████████████████████                                               | 8501/12494 [25:40<12:09,  5.48it/s]

EarlyStopping counter: 17 out of 10000


Epoch 1: CE 2.456039:  72%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                         | 9002/12494 [27:10<09:42,  6.00it/s]

EarlyStopping counter: 18 out of 10000
Epoch   394: reducing learning rate of group 0 to 4.2281e-05.


Epoch 1: CE 2.455389:  76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                   | 9501/12494 [28:40<08:34,  5.82it/s]

EarlyStopping counter: 19 out of 10000


Epoch 1: CE 2.455313:  80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                             | 10002/12494 [30:13<07:40,  5.41it/s]

EarlyStopping counter: 20 out of 10000


Epoch 1: CE 2.455205:  84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                       | 10502/12494 [31:45<05:40,  5.85it/s]

EarlyStopping counter: 21 out of 10000


Epoch 1: CE 2.454438:  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                 | 11002/12494 [33:15<04:09,  5.99it/s]

EarlyStopping counter: 22 out of 10000


Epoch 1: CE 2.453333:  92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍           | 11502/12494 [34:46<02:45,  6.01it/s]

EarlyStopping counter: 23 out of 10000


Epoch 1: CE 2.453001:  96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎     | 12002/12494 [36:17<01:21,  6.04it/s]

EarlyStopping counter: 24 out of 10000
Epoch   400: reducing learning rate of group 0 to 4.0589e-05.


Epoch 1: CE 2.451589: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12494/12494 [37:46<00:00,  5.51it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [02:44<00:00, 41.07s/it]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 624707/624707 [01:15<00:00, 8299.00it/s]
Epoch 2: CE 2.600560:   0%|                                                                                                                                                      | 2/12494 [00:00<44:26,  4.68it/s]

EarlyStopping counter: 25 out of 10000


Epoch 2: CE 2.420051:   4%|█████▉                                                                                                                                              | 502/12494 [01:31<34:39,  5.77it/s]

EarlyStopping counter: 26 out of 10000


Epoch 2: CE 2.419051:   8%|███████████▊                                                                                                                                       | 1002/12494 [03:00<32:11,  5.95it/s]

EarlyStopping counter: 27 out of 10000


Epoch 2: CE 2.423138:  12%|█████████████████▋                                                                                                                                 | 1501/12494 [04:31<33:24,  5.48it/s]

EarlyStopping counter: 28 out of 10000


Epoch 2: CE 2.428914:  16%|███████████████████████▌                                                                                                                           | 2002/12494 [06:02<32:46,  5.33it/s]

EarlyStopping counter: 29 out of 10000


Epoch 2: CE 2.426420:  20%|█████████████████████████████▍                                                                                                                     | 2501/12494 [07:31<29:49,  5.59it/s]

EarlyStopping counter: 30 out of 10000
Epoch   406: reducing learning rate of group 0 to 3.8966e-05.


Epoch 2: CE 2.426239:  24%|███████████████████████████████████▎                                                                                                               | 3002/12494 [09:02<25:53,  6.11it/s]

EarlyStopping counter: 31 out of 10000


Epoch 2: CE 2.425565:  28%|█████████████████████████████████████████▏                                                                                                         | 3502/12494 [10:33<27:45,  5.40it/s]

EarlyStopping counter: 32 out of 10000


Epoch 2: CE 2.424202:  32%|███████████████████████████████████████████████                                                                                                    | 4002/12494 [12:03<25:00,  5.66it/s]

EarlyStopping counter: 33 out of 10000


Epoch 2: CE 2.424736:  36%|████████████████████████████████████████████████████▉                                                                                              | 4502/12494 [13:34<22:46,  5.85it/s]

EarlyStopping counter: 34 out of 10000


Epoch 2: CE 2.422792:  40%|██████████████████████████████████████████████████████████▊                                                                                        | 5002/12494 [15:05<21:07,  5.91it/s]

EarlyStopping counter: 35 out of 10000


Epoch 2: CE 2.421219:  44%|████████████████████████████████████████████████████████████████▋                                                                                  | 5501/12494 [16:36<21:44,  5.36it/s]

EarlyStopping counter: 36 out of 10000
Epoch   412: reducing learning rate of group 0 to 3.7407e-05.


Epoch 2: CE 2.420707:  48%|██████████████████████████████████████████████████████████████████████▌                                                                            | 6002/12494 [18:08<17:35,  6.15it/s]

EarlyStopping counter: 37 out of 10000


Epoch 2: CE 2.420644:  52%|████████████████████████████████████████████████████████████████████████████▌                                                                      | 6502/12494 [19:38<18:53,  5.29it/s]

EarlyStopping counter: 38 out of 10000


Epoch 2: CE 2.420596:  56%|██████████████████████████████████████████████████████████████████████████████████▍                                                                | 7002/12494 [21:10<17:24,  5.26it/s]

EarlyStopping counter: 39 out of 10000


Epoch 2: CE 2.420565:  60%|████████████████████████████████████████████████████████████████████████████████████████▎                                                          | 7502/12494 [22:43<14:48,  5.62it/s]

EarlyStopping counter: 40 out of 10000


Epoch 2: CE 2.420036:  64%|██████████████████████████████████████████████████████████████████████████████████████████████▏                                                    | 8002/12494 [24:13<13:26,  5.57it/s]

EarlyStopping counter: 41 out of 10000


Epoch 2: CE 2.420119:  68%|████████████████████████████████████████████████████████████████████████████████████████████████████                                               | 8502/12494 [25:43<12:19,  5.40it/s]

EarlyStopping counter: 42 out of 10000
Epoch   418: reducing learning rate of group 0 to 3.5911e-05.


Epoch 2: CE 2.419178:  72%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                         | 9002/12494 [27:13<10:17,  5.65it/s]

EarlyStopping counter: 43 out of 10000


Epoch 2: CE 2.418237:  76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                   | 9502/12494 [28:43<08:41,  5.73it/s]

EarlyStopping counter: 44 out of 10000


Epoch 2: CE 2.417769:  80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                             | 10002/12494 [30:14<07:30,  5.53it/s]

EarlyStopping counter: 45 out of 10000


Epoch 2: CE 2.416964:  84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                       | 10502/12494 [31:44<06:07,  5.42it/s]

EarlyStopping counter: 46 out of 10000


Epoch 2: CE 2.416179:  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                 | 11001/12494 [33:15<05:13,  4.76it/s]

EarlyStopping counter: 47 out of 10000


Epoch 2: CE 2.415495:  92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍           | 11502/12494 [34:47<02:44,  6.02it/s]

EarlyStopping counter: 48 out of 10000
Epoch   424: reducing learning rate of group 0 to 3.4474e-05.


Epoch 2: CE 2.415012:  96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 12001/12494 [36:18<01:29,  5.54it/s]

EarlyStopping counter: 49 out of 10000


Epoch 2: CE 2.414502: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12494/12494 [37:48<00:00,  5.51it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [02:50<00:00, 42.59s/it]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 624699/624699 [00:51<00:00, 12216.77it/s]
Epoch 2: CE 2.376211:   4%|█████▉                                                                                                                                              | 502/12494 [01:30<33:47,  5.91it/s]

EarlyStopping counter: 1 out of 10000


Epoch 2: CE 2.399786:   8%|███████████▊                                                                                                                                       | 1002/12494 [03:01<31:23,  6.10it/s]

EarlyStopping counter: 2 out of 10000


Epoch 2: CE 2.393507:  12%|█████████████████▋                                                                                                                                 | 1502/12494 [04:31<32:22,  5.66it/s]

EarlyStopping counter: 3 out of 10000


Epoch 2: CE 2.397130:  16%|███████████████████████▌                                                                                                                           | 2002/12494 [06:03<29:51,  5.86it/s]

EarlyStopping counter: 4 out of 10000


Epoch 2: CE 2.396590:  20%|█████████████████████████████▍                                                                                                                     | 2502/12494 [07:34<29:06,  5.72it/s]

EarlyStopping counter: 5 out of 10000


Epoch 2: CE 2.399817:  24%|███████████████████████████████████▎                                                                                                               | 3002/12494 [09:05<27:48,  5.69it/s]

EarlyStopping counter: 6 out of 10000
Epoch   432: reducing learning rate of group 0 to 3.3095e-05.


Epoch 2: CE 2.398557:  28%|█████████████████████████████████████████▏                                                                                                         | 3502/12494 [10:35<25:54,  5.78it/s]

EarlyStopping counter: 7 out of 10000


Epoch 2: CE 2.399776:  32%|███████████████████████████████████████████████                                                                                                    | 4002/12494 [12:06<25:56,  5.46it/s]

EarlyStopping counter: 8 out of 10000


Epoch 2: CE 2.396785:  36%|████████████████████████████████████████████████████▉                                                                                              | 4502/12494 [13:36<25:06,  5.30it/s]

EarlyStopping counter: 9 out of 10000


Epoch 2: CE 2.396469:  40%|██████████████████████████████████████████████████████████▊                                                                                        | 5002/12494 [15:09<22:14,  5.61it/s]

EarlyStopping counter: 10 out of 10000


Epoch 2: CE 2.394633:  44%|████████████████████████████████████████████████████████████████▋                                                                                  | 5502/12494 [16:40<21:22,  5.45it/s]

EarlyStopping counter: 11 out of 10000


Epoch 2: CE 2.394832:  48%|██████████████████████████████████████████████████████████████████████▌                                                                            | 6002/12494 [18:11<18:48,  5.75it/s]

EarlyStopping counter: 12 out of 10000
Epoch   438: reducing learning rate of group 0 to 3.1772e-05.


Epoch 2: CE 2.395155:  52%|████████████████████████████████████████████████████████████████████████████▍                                                                      | 6501/12494 [19:40<17:12,  5.80it/s]

EarlyStopping counter: 13 out of 10000


Epoch 2: CE 2.393615:  56%|██████████████████████████████████████████████████████████████████████████████████▍                                                                | 7002/12494 [21:10<17:14,  5.31it/s]

EarlyStopping counter: 14 out of 10000


Epoch 2: CE 2.394043:  60%|████████████████████████████████████████████████████████████████████████████████████████▎                                                          | 7502/12494 [22:41<15:44,  5.28it/s]

EarlyStopping counter: 15 out of 10000


Epoch 2: CE 2.392697:  64%|██████████████████████████████████████████████████████████████████████████████████████████████▏                                                    | 8002/12494 [24:11<15:12,  4.92it/s]

EarlyStopping counter: 16 out of 10000


Epoch 2: CE 2.391428:  68%|████████████████████████████████████████████████████████████████████████████████████████████████████                                               | 8502/12494 [25:41<11:37,  5.72it/s]

EarlyStopping counter: 17 out of 10000


Epoch 2: CE 2.391242:  72%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                         | 9002/12494 [27:12<10:12,  5.70it/s]

EarlyStopping counter: 18 out of 10000
Epoch   444: reducing learning rate of group 0 to 3.0501e-05.


Epoch 2: CE 2.390520:  76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                   | 9501/12494 [28:43<08:35,  5.81it/s]

EarlyStopping counter: 19 out of 10000


Epoch 2: CE 2.389441:  80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                             | 10002/12494 [30:12<07:08,  5.81it/s]

EarlyStopping counter: 20 out of 10000


Epoch 2: CE 2.387999:  84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                       | 10502/12494 [31:43<05:48,  5.71it/s]

EarlyStopping counter: 21 out of 10000


Epoch 2: CE 2.387526:  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                 | 11002/12494 [33:14<04:37,  5.38it/s]

EarlyStopping counter: 22 out of 10000


Epoch 2: CE 2.386495:  92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍           | 11502/12494 [34:44<03:01,  5.48it/s]

EarlyStopping counter: 23 out of 10000


Epoch 2: CE 2.385449:  96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎     | 12002/12494 [36:13<01:23,  5.92it/s]

EarlyStopping counter: 24 out of 10000
Epoch   450: reducing learning rate of group 0 to 2.9281e-05.


Epoch 2: CE 2.384435: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12494/12494 [37:41<00:00,  5.52it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [03:00<00:00, 45.12s/it]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 624674/624674 [00:50<00:00, 12317.95it/s]
Epoch 2: CE 2.376266:   0%|                                                                                                                                                      | 2/12493 [00:00<40:28,  5.14it/s]

EarlyStopping counter: 25 out of 10000


Epoch 2: CE 2.394187:   4%|█████▉                                                                                                                                              | 501/12493 [01:31<33:34,  5.95it/s]

EarlyStopping counter: 26 out of 10000


Epoch 2: CE 2.374047:   8%|███████████▊                                                                                                                                       | 1002/12493 [03:02<33:55,  5.64it/s]

EarlyStopping counter: 27 out of 10000


Epoch 2: CE 2.363869:  12%|█████████████████▋                                                                                                                                 | 1502/12493 [04:32<33:49,  5.41it/s]

EarlyStopping counter: 28 out of 10000


Epoch 2: CE 2.366574:  16%|███████████████████████▌                                                                                                                           | 2002/12493 [06:02<28:12,  6.20it/s]

EarlyStopping counter: 29 out of 10000


Epoch 2: CE 2.366618:  20%|█████████████████████████████▍                                                                                                                     | 2501/12493 [07:32<30:41,  5.43it/s]

EarlyStopping counter: 30 out of 10000
Epoch   456: reducing learning rate of group 0 to 2.8109e-05.


Epoch 2: CE 2.365690:  24%|███████████████████████████████████▎                                                                                                               | 3002/12493 [09:02<26:37,  5.94it/s]

EarlyStopping counter: 31 out of 10000


Epoch 2: CE 2.372008:  28%|█████████████████████████████████████████▏                                                                                                         | 3501/12493 [10:35<29:40,  5.05it/s]

EarlyStopping counter: 32 out of 10000


Epoch 2: CE 2.367763:  32%|███████████████████████████████████████████████                                                                                                    | 4002/12493 [12:06<30:53,  4.58it/s]

EarlyStopping counter: 33 out of 10000


Epoch 2: CE 2.366306:  36%|████████████████████████████████████████████████████▉                                                                                              | 4502/12493 [13:36<25:52,  5.15it/s]

EarlyStopping counter: 34 out of 10000


Epoch 2: CE 2.366919:  40%|██████████████████████████████████████████████████████████▊                                                                                        | 5002/12493 [15:08<21:17,  5.86it/s]

EarlyStopping counter: 35 out of 10000


Epoch 2: CE 2.364885:  44%|████████████████████████████████████████████████████████████████▋                                                                                  | 5502/12493 [16:38<20:06,  5.79it/s]

EarlyStopping counter: 36 out of 10000
Epoch   462: reducing learning rate of group 0 to 2.6985e-05.


Epoch 2: CE 2.365235:  48%|██████████████████████████████████████████████████████████████████████▌                                                                            | 6002/12493 [18:08<19:12,  5.63it/s]

EarlyStopping counter: 37 out of 10000


Epoch 2: CE 2.365024:  52%|████████████████████████████████████████████████████████████████████████████▌                                                                      | 6502/12493 [19:38<18:33,  5.38it/s]

EarlyStopping counter: 38 out of 10000


Epoch 2: CE 2.364205:  56%|██████████████████████████████████████████████████████████████████████████████████▍                                                                | 7002/12493 [21:08<16:04,  5.70it/s]

EarlyStopping counter: 39 out of 10000


Epoch 2: CE 2.364698:  60%|████████████████████████████████████████████████████████████████████████████████████████▎                                                          | 7502/12493 [22:39<13:58,  5.96it/s]

EarlyStopping counter: 40 out of 10000


Epoch 2: CE 2.364059:  64%|██████████████████████████████████████████████████████████████████████████████████████████████▏                                                    | 8001/12493 [24:09<13:17,  5.63it/s]

EarlyStopping counter: 41 out of 10000


Epoch 2: CE 2.363698:  68%|████████████████████████████████████████████████████████████████████████████████████████████████████                                               | 8501/12493 [25:39<11:41,  5.69it/s]

EarlyStopping counter: 42 out of 10000
Epoch   468: reducing learning rate of group 0 to 2.5906e-05.


Epoch 2: CE 2.362516:  72%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                         | 9002/12493 [27:09<09:35,  6.07it/s]

EarlyStopping counter: 43 out of 10000


Epoch 2: CE 2.360715:  76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                   | 9502/12493 [28:40<08:39,  5.76it/s]

EarlyStopping counter: 44 out of 10000


Epoch 2: CE 2.360143:  80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                             | 10002/12493 [30:11<07:10,  5.78it/s]

EarlyStopping counter: 45 out of 10000


Epoch 2: CE 2.360040:  84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                       | 10501/12493 [31:41<06:08,  5.40it/s]

EarlyStopping counter: 46 out of 10000


Epoch 2: CE 2.359611:  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                 | 11001/12493 [33:13<04:21,  5.70it/s]

EarlyStopping counter: 47 out of 10000


Epoch 2: CE 2.358957:  92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍           | 11502/12493 [34:44<02:53,  5.71it/s]

EarlyStopping counter: 48 out of 10000
Epoch   474: reducing learning rate of group 0 to 2.4869e-05.


Epoch 2: CE 2.358447:  96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎     | 12002/12493 [36:14<01:36,  5.11it/s]

EarlyStopping counter: 49 out of 10000


Epoch 2: CE 2.357544: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12493/12493 [37:41<00:00,  5.52it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [02:48<00:00, 42.17s/it]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 624693/624693 [01:17<00:00, 8010.43it/s]
Epoch 2: CE 2.335959:   4%|█████▉                                                                                                                                              | 502/12494 [01:31<35:33,  5.62it/s]

EarlyStopping counter: 1 out of 10000


Epoch 2: CE 2.333251:   8%|███████████▊                                                                                                                                       | 1002/12494 [03:01<35:15,  5.43it/s]

EarlyStopping counter: 2 out of 10000


Epoch 2: CE 2.333885:  12%|█████████████████▋                                                                                                                                 | 1502/12494 [04:31<31:21,  5.84it/s]

EarlyStopping counter: 3 out of 10000


Epoch 2: CE 2.332389:  16%|███████████████████████▌                                                                                                                           | 2002/12494 [06:01<30:23,  5.75it/s]

EarlyStopping counter: 4 out of 10000


Epoch 2: CE 2.332971:  20%|█████████████████████████████▍                                                                                                                     | 2502/12494 [07:30<28:45,  5.79it/s]

EarlyStopping counter: 5 out of 10000


Epoch 2: CE 2.333711:  24%|███████████████████████████████████▎                                                                                                               | 3002/12494 [09:00<28:03,  5.64it/s]

EarlyStopping counter: 6 out of 10000
Epoch   482: reducing learning rate of group 0 to 2.3875e-05.


Epoch 2: CE 2.337401:  28%|█████████████████████████████████████████▏                                                                                                         | 3502/12494 [10:32<28:52,  5.19it/s]

EarlyStopping counter: 7 out of 10000


Epoch 2: CE 2.338199:  32%|███████████████████████████████████████████████                                                                                                    | 4002/12494 [12:03<27:26,  5.16it/s]

EarlyStopping counter: 8 out of 10000


Epoch 2: CE 2.337992:  36%|████████████████████████████████████████████████████▉                                                                                              | 4501/12494 [13:33<24:21,  5.47it/s]

EarlyStopping counter: 9 out of 10000


Epoch 2: CE 2.337743:  40%|██████████████████████████████████████████████████████████▊                                                                                        | 5001/12494 [15:04<27:20,  4.57it/s]

EarlyStopping counter: 10 out of 10000


Epoch 2: CE 2.337636:  44%|████████████████████████████████████████████████████████████████▋                                                                                  | 5502/12494 [16:35<20:49,  5.60it/s]

EarlyStopping counter: 11 out of 10000


Epoch 2: CE 2.337948:  48%|██████████████████████████████████████████████████████████████████████▌                                                                            | 6002/12494 [18:05<18:13,  5.94it/s]

EarlyStopping counter: 12 out of 10000
Epoch   488: reducing learning rate of group 0 to 2.2920e-05.


Epoch 2: CE 2.337498:  52%|████████████████████████████████████████████████████████████████████████████▍                                                                      | 6501/12494 [19:36<17:09,  5.82it/s]

EarlyStopping counter: 13 out of 10000


Epoch 2: CE 2.336475:  56%|██████████████████████████████████████████████████████████████████████████████████▍                                                                | 7002/12494 [21:07<15:15,  6.00it/s]

EarlyStopping counter: 14 out of 10000


Epoch 2: CE 2.334683:  60%|████████████████████████████████████████████████████████████████████████████████████████▎                                                          | 7502/12494 [22:36<15:16,  5.45it/s]

EarlyStopping counter: 15 out of 10000


Epoch 2: CE 2.334879:  64%|██████████████████████████████████████████████████████████████████████████████████████████████▏                                                    | 8001/12494 [24:06<14:46,  5.07it/s]

EarlyStopping counter: 16 out of 10000


Epoch 2: CE 2.334311:  68%|████████████████████████████████████████████████████████████████████████████████████████████████████                                               | 8502/12494 [25:37<11:09,  5.96it/s]

EarlyStopping counter: 17 out of 10000


Epoch 2: CE 2.333887:  72%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                         | 9002/12494 [27:08<10:15,  5.68it/s]

EarlyStopping counter: 18 out of 10000
Epoch   494: reducing learning rate of group 0 to 2.2003e-05.


Epoch 2: CE 2.333733:  76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                   | 9502/12494 [28:39<07:59,  6.25it/s]

EarlyStopping counter: 19 out of 10000


Epoch 2: CE 2.334402:  80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                             | 10001/12494 [30:11<07:39,  5.43it/s]

EarlyStopping counter: 20 out of 10000


Epoch 2: CE 2.334320:  84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                       | 10502/12494 [31:43<05:27,  6.09it/s]

EarlyStopping counter: 21 out of 10000


Epoch 2: CE 2.333848:  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                 | 11001/12494 [33:14<04:31,  5.50it/s]

EarlyStopping counter: 22 out of 10000


Epoch 2: CE 2.333596:  92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍           | 11502/12494 [34:45<02:50,  5.83it/s]

EarlyStopping counter: 23 out of 10000


Epoch 2: CE 2.334034:  96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎     | 12002/12494 [36:18<01:23,  5.88it/s]

EarlyStopping counter: 24 out of 10000
Epoch   500: reducing learning rate of group 0 to 2.1123e-05.


Epoch 2: CE 2.333056: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12494/12494 [37:48<00:00,  5.51it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [02:28<00:00, 37.04s/it]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 624697/624697 [01:14<00:00, 8418.79it/s]
Epoch 2: CE 2.324207:   0%|                                                                                                                                                      | 2/12494 [00:00<37:13,  5.59it/s]

EarlyStopping counter: 25 out of 10000


Epoch 2: CE 2.324711:   4%|█████▉                                                                                                                                              | 502/12494 [01:31<35:58,  5.56it/s]

EarlyStopping counter: 26 out of 10000


Epoch 2: CE 2.318116:   8%|███████████▊                                                                                                                                       | 1002/12494 [03:02<33:47,  5.67it/s]

EarlyStopping counter: 27 out of 10000


Epoch 2: CE 2.314486:  12%|█████████████████▋                                                                                                                                 | 1502/12494 [04:32<35:19,  5.19it/s]

EarlyStopping counter: 28 out of 10000


Epoch 2: CE 2.314805:  16%|███████████████████████▌                                                                                                                           | 2002/12494 [06:04<36:10,  4.83it/s]

EarlyStopping counter: 29 out of 10000


Epoch 2: CE 2.317584:  20%|█████████████████████████████▍                                                                                                                     | 2502/12494 [07:34<27:53,  5.97it/s]

EarlyStopping counter: 30 out of 10000
Epoch   506: reducing learning rate of group 0 to 2.0278e-05.


Epoch 2: CE 2.318700:  24%|███████████████████████████████████▎                                                                                                               | 3002/12494 [09:04<29:16,  5.41it/s]

EarlyStopping counter: 31 out of 10000


Epoch 2: CE 2.316117:  28%|█████████████████████████████████████████▏                                                                                                         | 3502/12494 [10:33<26:48,  5.59it/s]

EarlyStopping counter: 32 out of 10000


Epoch 2: CE 2.317346:  32%|███████████████████████████████████████████████                                                                                                    | 4002/12494 [12:04<24:17,  5.82it/s]

EarlyStopping counter: 33 out of 10000


Epoch 2: CE 2.319026:  36%|████████████████████████████████████████████████████▉                                                                                              | 4502/12494 [13:36<25:36,  5.20it/s]

EarlyStopping counter: 34 out of 10000


Epoch 2: CE 2.316504:  40%|██████████████████████████████████████████████████████████▊                                                                                        | 5002/12494 [15:05<22:53,  5.45it/s]

EarlyStopping counter: 35 out of 10000


Epoch 2: CE 2.314236:  44%|████████████████████████████████████████████████████████████████▋                                                                                  | 5502/12494 [16:35<20:05,  5.80it/s]

EarlyStopping counter: 36 out of 10000
Epoch   512: reducing learning rate of group 0 to 1.9467e-05.


Epoch 2: CE 2.313259:  48%|██████████████████████████████████████████████████████████████████████▌                                                                            | 6002/12494 [18:06<19:41,  5.50it/s]

EarlyStopping counter: 37 out of 10000


Epoch 2: CE 2.313489:  52%|████████████████████████████████████████████████████████████████████████████▌                                                                      | 6502/12494 [19:37<17:40,  5.65it/s]

EarlyStopping counter: 38 out of 10000


Epoch 2: CE 2.313278:  56%|██████████████████████████████████████████████████████████████████████████████████▍                                                                | 7002/12494 [21:09<16:33,  5.53it/s]

EarlyStopping counter: 39 out of 10000


Epoch 2: CE 2.314943:  60%|████████████████████████████████████████████████████████████████████████████████████████▎                                                          | 7502/12494 [22:42<16:06,  5.17it/s]

EarlyStopping counter: 40 out of 10000


Epoch 2: CE 2.313775:  64%|██████████████████████████████████████████████████████████████████████████████████████████████▏                                                    | 8002/12494 [24:13<13:35,  5.51it/s]

EarlyStopping counter: 41 out of 10000


Epoch 2: CE 2.313701:  68%|████████████████████████████████████████████████████████████████████████████████████████████████████                                               | 8502/12494 [25:44<12:12,  5.45it/s]

EarlyStopping counter: 42 out of 10000
Epoch   518: reducing learning rate of group 0 to 1.8688e-05.


Epoch 2: CE 2.314120:  72%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                         | 9002/12494 [27:14<10:09,  5.73it/s]

EarlyStopping counter: 43 out of 10000


Epoch 2: CE 2.313196:  76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                   | 9502/12494 [28:44<08:51,  5.63it/s]

EarlyStopping counter: 44 out of 10000


Epoch 2: CE 2.312648:  80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                             | 10002/12494 [30:14<07:00,  5.93it/s]

EarlyStopping counter: 45 out of 10000


Epoch 2: CE 2.312297:  84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                       | 10502/12494 [31:44<05:49,  5.70it/s]

EarlyStopping counter: 46 out of 10000


Epoch 2: CE 2.312592:  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                 | 11002/12494 [33:15<04:19,  5.75it/s]

EarlyStopping counter: 47 out of 10000


Epoch 2: CE 2.312218:  92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍           | 11502/12494 [34:46<02:49,  5.85it/s]

EarlyStopping counter: 48 out of 10000
Epoch   524: reducing learning rate of group 0 to 1.7941e-05.


Epoch 2: CE 2.312466:  96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎     | 12002/12494 [36:15<01:23,  5.87it/s]

EarlyStopping counter: 49 out of 10000


Epoch 2: CE 2.312388: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12494/12494 [37:46<00:00,  5.51it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [02:38<00:00, 39.71s/it]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 624708/624708 [01:13<00:00, 8555.39it/s]
Epoch 2: CE 1.758833:   0%|                                                                                                                                                      | 2/12494 [00:00<39:19,  5.29it/s]

EarlyStopping counter: 50 out of 10000


Epoch 2: CE 2.328824:   4%|█████▉                                                                                                                                              | 502/12494 [01:30<38:21,  5.21it/s]

EarlyStopping counter: 51 out of 10000


Epoch 2: CE 2.316140:   8%|███████████▊                                                                                                                                       | 1002/12494 [03:00<34:06,  5.62it/s]

EarlyStopping counter: 52 out of 10000


Epoch 2: CE 2.304688:  12%|█████████████████▋                                                                                                                                 | 1502/12494 [04:31<31:53,  5.75it/s]

EarlyStopping counter: 53 out of 10000


Epoch 2: CE 2.303091:  16%|███████████████████████▌                                                                                                                           | 2002/12494 [06:01<29:22,  5.95it/s]

EarlyStopping counter: 54 out of 10000
Epoch   530: reducing learning rate of group 0 to 1.7223e-05.


Epoch 2: CE 2.303071:  20%|█████████████████████████████▍                                                                                                                     | 2501/12494 [07:31<28:48,  5.78it/s]

EarlyStopping counter: 55 out of 10000


Epoch 2: CE 2.303444:  24%|███████████████████████████████████▎                                                                                                               | 3002/12494 [09:01<30:06,  5.26it/s]

EarlyStopping counter: 56 out of 10000


Epoch 2: CE 2.302140:  28%|█████████████████████████████████████████▏                                                                                                         | 3502/12494 [10:32<27:18,  5.49it/s]

EarlyStopping counter: 57 out of 10000


Epoch 2: CE 2.300977:  32%|███████████████████████████████████████████████                                                                                                    | 4002/12494 [12:01<23:59,  5.90it/s]

EarlyStopping counter: 58 out of 10000


Epoch 2: CE 2.299282:  36%|████████████████████████████████████████████████████▉                                                                                              | 4501/12494 [13:30<21:35,  6.17it/s]

EarlyStopping counter: 59 out of 10000


Epoch 2: CE 2.298832:  40%|██████████████████████████████████████████████████████████▊                                                                                        | 5002/12494 [15:01<21:52,  5.71it/s]

EarlyStopping counter: 60 out of 10000
Epoch   536: reducing learning rate of group 0 to 1.6534e-05.


Epoch 2: CE 2.298779:  44%|████████████████████████████████████████████████████████████████▋                                                                                  | 5501/12494 [16:31<25:31,  4.57it/s]

EarlyStopping counter: 61 out of 10000


Epoch 2: CE 2.299217:  48%|██████████████████████████████████████████████████████████████████████▌                                                                            | 6002/12494 [18:03<19:42,  5.49it/s]

EarlyStopping counter: 62 out of 10000


Epoch 2: CE 2.296584:  52%|████████████████████████████████████████████████████████████████████████████▌                                                                      | 6502/12494 [19:32<17:12,  5.80it/s]

EarlyStopping counter: 63 out of 10000


Epoch 2: CE 2.295041:  56%|██████████████████████████████████████████████████████████████████████████████████▍                                                                | 7002/12494 [21:02<16:35,  5.52it/s]

EarlyStopping counter: 64 out of 10000


Epoch 2: CE 2.294533:  60%|████████████████████████████████████████████████████████████████████████████████████████▎                                                          | 7502/12494 [22:34<14:45,  5.64it/s]

EarlyStopping counter: 65 out of 10000


Epoch 2: CE 2.294084:  64%|██████████████████████████████████████████████████████████████████████████████████████████████▏                                                    | 8002/12494 [24:04<13:19,  5.62it/s]

EarlyStopping counter: 66 out of 10000
Epoch   542: reducing learning rate of group 0 to 1.5873e-05.


Epoch 2: CE 2.294781:  68%|████████████████████████████████████████████████████████████████████████████████████████████████████                                               | 8501/12494 [25:34<10:49,  6.15it/s]

EarlyStopping counter: 67 out of 10000


Epoch 2: CE 2.294716:  72%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                         | 9002/12494 [27:05<09:12,  6.32it/s]

EarlyStopping counter: 68 out of 10000


Epoch 2: CE 2.294981:  76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                   | 9502/12494 [28:37<08:55,  5.59it/s]

EarlyStopping counter: 69 out of 10000


Epoch 2: CE 2.294360:  80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                             | 10002/12494 [30:08<07:15,  5.72it/s]

EarlyStopping counter: 70 out of 10000


Epoch 2: CE 2.294063:  84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                       | 10502/12494 [31:39<05:49,  5.70it/s]

EarlyStopping counter: 71 out of 10000


Epoch 2: CE 2.293500:  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                 | 11002/12494 [33:09<04:03,  6.12it/s]

EarlyStopping counter: 72 out of 10000
Epoch   548: reducing learning rate of group 0 to 1.5238e-05.


Epoch 2: CE 2.292308:  92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍           | 11502/12494 [34:40<03:01,  5.45it/s]

EarlyStopping counter: 73 out of 10000


Epoch 2: CE 2.291553:  96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 12001/12494 [36:11<01:25,  5.75it/s]

EarlyStopping counter: 74 out of 10000


Epoch 2: CE 2.291917: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12494/12494 [37:41<00:00,  5.52it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [02:35<00:00, 38.97s/it]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 624695/624695 [01:13<00:00, 8508.57it/s]
Epoch 2: CE 2.360631:   0%|                                                                                                                                                    | 1/12494 [00:00<1:29:35,  2.32it/s]

EarlyStopping counter: 75 out of 10000


Epoch 2: CE 2.302589:   4%|█████▉                                                                                                                                              | 502/12494 [01:31<37:07,  5.38it/s]

EarlyStopping counter: 76 out of 10000


Epoch 2: CE 2.290771:   8%|███████████▊                                                                                                                                       | 1002/12494 [03:02<31:34,  6.07it/s]

EarlyStopping counter: 77 out of 10000


Epoch 2: CE 2.291843:  12%|█████████████████▋                                                                                                                                 | 1501/12494 [04:33<31:47,  5.76it/s]

EarlyStopping counter: 78 out of 10000
Epoch   554: reducing learning rate of group 0 to 1.4628e-05.


Epoch 2: CE 2.289980:  16%|███████████████████████▌                                                                                                                           | 2002/12494 [06:03<30:30,  5.73it/s]

EarlyStopping counter: 79 out of 10000


Epoch 2: CE 2.285577:  20%|█████████████████████████████▍                                                                                                                     | 2501/12494 [07:33<27:18,  6.10it/s]

EarlyStopping counter: 80 out of 10000


Epoch 2: CE 2.283683:  24%|███████████████████████████████████▎                                                                                                               | 3001/12494 [09:04<26:10,  6.05it/s]

EarlyStopping counter: 81 out of 10000


Epoch 2: CE 2.281081:  28%|█████████████████████████████████████████▏                                                                                                         | 3502/12494 [10:33<27:34,  5.44it/s]

EarlyStopping counter: 82 out of 10000


Epoch 2: CE 2.282970:  32%|███████████████████████████████████████████████                                                                                                    | 4002/12494 [12:04<25:12,  5.61it/s]

EarlyStopping counter: 83 out of 10000


Epoch 2: CE 2.283719:  36%|████████████████████████████████████████████████████▉                                                                                              | 4501/12494 [13:34<23:08,  5.76it/s]

EarlyStopping counter: 84 out of 10000
Epoch   560: reducing learning rate of group 0 to 1.4043e-05.


Epoch 2: CE 2.283683:  40%|██████████████████████████████████████████████████████████▊                                                                                        | 5002/12494 [15:04<19:28,  6.41it/s]

EarlyStopping counter: 85 out of 10000


Epoch 2: CE 2.283605:  44%|████████████████████████████████████████████████████████████████▋                                                                                  | 5502/12494 [16:36<19:42,  5.91it/s]

EarlyStopping counter: 86 out of 10000


Epoch 2: CE 2.283360:  48%|██████████████████████████████████████████████████████████████████████▌                                                                            | 6002/12494 [18:07<20:38,  5.24it/s]

EarlyStopping counter: 87 out of 10000


Epoch 2: CE 2.282837:  52%|████████████████████████████████████████████████████████████████████████████▌                                                                      | 6502/12494 [19:38<16:54,  5.90it/s]

EarlyStopping counter: 88 out of 10000


Epoch 2: CE 2.282654:  56%|██████████████████████████████████████████████████████████████████████████████████▍                                                                | 7002/12494 [21:09<16:44,  5.47it/s]

EarlyStopping counter: 89 out of 10000


Epoch 2: CE 2.282665:  60%|████████████████████████████████████████████████████████████████████████████████████████▎                                                          | 7502/12494 [22:41<14:43,  5.65it/s]

EarlyStopping counter: 90 out of 10000
Epoch   566: reducing learning rate of group 0 to 1.3481e-05.


Epoch 2: CE 2.282961:  64%|██████████████████████████████████████████████████████████████████████████████████████████████▏                                                    | 8001/12494 [24:12<14:24,  5.19it/s]

EarlyStopping counter: 91 out of 10000


Epoch 2: CE 2.281607:  68%|████████████████████████████████████████████████████████████████████████████████████████████████████                                               | 8502/12494 [25:45<11:00,  6.05it/s]

EarlyStopping counter: 92 out of 10000


Epoch 2: CE 2.281505:  72%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                         | 9002/12494 [27:15<09:55,  5.86it/s]

EarlyStopping counter: 93 out of 10000


Epoch 2: CE 2.280425:  76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                   | 9502/12494 [28:46<08:50,  5.64it/s]

EarlyStopping counter: 94 out of 10000


Epoch 2: CE 2.279845:  80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                             | 10001/12494 [30:16<08:44,  4.75it/s]

EarlyStopping counter: 95 out of 10000


Epoch 2: CE 2.279452:  84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                       | 10502/12494 [31:47<05:49,  5.70it/s]

EarlyStopping counter: 96 out of 10000
Epoch   572: reducing learning rate of group 0 to 1.2942e-05.


Epoch 2: CE 2.279012:  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                 | 11002/12494 [33:18<04:44,  5.25it/s]

EarlyStopping counter: 97 out of 10000


Epoch 2: CE 2.279351:  92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍           | 11502/12494 [34:48<02:49,  5.84it/s]

EarlyStopping counter: 98 out of 10000


Epoch 2: CE 2.279511:  96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎     | 12002/12494 [36:18<01:27,  5.65it/s]

EarlyStopping counter: 99 out of 10000


Epoch 2: CE 2.278568: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12494/12494 [37:48<00:00,  5.51it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [03:02<00:00, 45.51s/it]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 624684/624684 [00:51<00:00, 12139.69it/s]
Epoch 2: CE 2.347965:   0%|                                                                                                                                                      | 2/12493 [00:00<39:09,  5.32it/s]

EarlyStopping counter: 100 out of 10000


Epoch 2: CE 2.276364:   4%|█████▉                                                                                                                                              | 502/12493 [01:30<35:57,  5.56it/s]

EarlyStopping counter: 101 out of 10000


Epoch 2: CE 2.279013:   8%|███████████▊                                                                                                                                       | 1002/12493 [03:01<33:30,  5.71it/s]

EarlyStopping counter: 102 out of 10000
Epoch   578: reducing learning rate of group 0 to 1.2424e-05.


Epoch 2: CE 2.275975:  12%|█████████████████▋                                                                                                                                 | 1502/12493 [04:32<33:19,  5.50it/s]

EarlyStopping counter: 103 out of 10000


Epoch 2: CE 2.272576:  16%|███████████████████████▌                                                                                                                           | 2002/12493 [06:03<30:14,  5.78it/s]

EarlyStopping counter: 104 out of 10000


Epoch 2: CE 2.273167:  20%|█████████████████████████████▍                                                                                                                     | 2502/12493 [07:34<31:06,  5.35it/s]

EarlyStopping counter: 105 out of 10000


Epoch 2: CE 2.273125:  24%|███████████████████████████████████▎                                                                                                               | 3002/12493 [09:04<28:11,  5.61it/s]

EarlyStopping counter: 106 out of 10000


Epoch 2: CE 2.271625:  28%|█████████████████████████████████████████▏                                                                                                         | 3502/12493 [10:35<29:08,  5.14it/s]

EarlyStopping counter: 107 out of 10000


Epoch 2: CE 2.270026:  32%|███████████████████████████████████████████████                                                                                                    | 4001/12493 [12:05<24:40,  5.74it/s]

EarlyStopping counter: 108 out of 10000
Epoch   584: reducing learning rate of group 0 to 1.1927e-05.


Epoch 2: CE 2.269935:  36%|████████████████████████████████████████████████████▉                                                                                              | 4502/12493 [13:36<21:59,  6.06it/s]

EarlyStopping counter: 109 out of 10000


Epoch 2: CE 2.269962:  40%|██████████████████████████████████████████████████████████▊                                                                                        | 5002/12493 [15:06<23:46,  5.25it/s]

EarlyStopping counter: 110 out of 10000


Epoch 2: CE 2.270478:  44%|████████████████████████████████████████████████████████████████▋                                                                                  | 5502/12493 [16:37<21:04,  5.53it/s]

EarlyStopping counter: 111 out of 10000


Epoch 2: CE 2.270365:  48%|██████████████████████████████████████████████████████████████████████▌                                                                            | 6002/12493 [18:08<20:37,  5.24it/s]

EarlyStopping counter: 112 out of 10000


Epoch 2: CE 2.269727:  52%|████████████████████████████████████████████████████████████████████████████▌                                                                      | 6502/12493 [19:39<16:58,  5.88it/s]

EarlyStopping counter: 113 out of 10000


Epoch 2: CE 2.269467:  56%|██████████████████████████████████████████████████████████████████████████████████▍                                                                | 7002/12493 [21:10<18:18,  5.00it/s]

EarlyStopping counter: 114 out of 10000
Epoch   590: reducing learning rate of group 0 to 1.1450e-05.


Epoch 2: CE 2.270012:  60%|████████████████████████████████████████████████████████████████████████████████████████▎                                                          | 7502/12493 [22:42<14:44,  5.64it/s]

EarlyStopping counter: 115 out of 10000


Epoch 2: CE 2.268905:  64%|██████████████████████████████████████████████████████████████████████████████████████████████▏                                                    | 8002/12493 [24:13<12:50,  5.83it/s]

EarlyStopping counter: 116 out of 10000


Epoch 2: CE 2.268344:  68%|████████████████████████████████████████████████████████████████████████████████████████████████████                                               | 8502/12493 [25:43<11:53,  5.59it/s]

EarlyStopping counter: 117 out of 10000


Epoch 2: CE 2.267275:  72%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                         | 9002/12493 [27:12<10:01,  5.80it/s]

EarlyStopping counter: 118 out of 10000


Epoch 2: CE 2.266481:  76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                   | 9502/12493 [28:43<09:02,  5.52it/s]

EarlyStopping counter: 119 out of 10000


Epoch 2: CE 2.266680:  80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                             | 10002/12493 [30:14<07:06,  5.84it/s]

EarlyStopping counter: 120 out of 10000
Epoch   596: reducing learning rate of group 0 to 1.0992e-05.


Epoch 2: CE 2.265381:  84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                       | 10502/12493 [31:44<05:49,  5.70it/s]

EarlyStopping counter: 121 out of 10000


Epoch 2: CE 2.264860:  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                 | 11002/12493 [33:14<04:18,  5.77it/s]

EarlyStopping counter: 122 out of 10000


Epoch 2: CE 2.265457:  92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍           | 11502/12493 [34:47<02:55,  5.66it/s]

EarlyStopping counter: 123 out of 10000


Epoch 2: CE 2.264982:  96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎     | 12002/12493 [36:18<01:25,  5.72it/s]

EarlyStopping counter: 124 out of 10000


Epoch 2: CE 2.264821: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12493/12493 [37:47<00:00,  5.51it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [02:48<00:00, 42.03s/it]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 624704/624704 [00:49<00:00, 12496.46it/s]
Epoch 2: CE 2.176520:   0%|                                                                                                                                                      | 2/12494 [00:00<36:52,  5.65it/s]

EarlyStopping counter: 125 out of 10000


Epoch 2: CE 2.259933:   4%|█████▉                                                                                                                                              | 502/12494 [01:31<36:55,  5.41it/s]

EarlyStopping counter: 126 out of 10000
Epoch   602: reducing learning rate of group 0 to 1.0553e-05.


Epoch 2: CE 2.250844:   8%|███████████▊                                                                                                                                       | 1002/12494 [03:01<30:36,  6.26it/s]

EarlyStopping counter: 127 out of 10000


Epoch 2: CE 2.248240:  12%|█████████████████▋                                                                                                                                 | 1501/12494 [04:31<31:50,  5.75it/s]

EarlyStopping counter: 128 out of 10000


Epoch 2: CE 2.252425:  16%|███████████████████████▌                                                                                                                           | 2002/12494 [06:02<32:00,  5.46it/s]

EarlyStopping counter: 129 out of 10000


Epoch 2: CE 2.247911:  20%|█████████████████████████████▍                                                                                                                     | 2502/12494 [07:34<27:10,  6.13it/s]

EarlyStopping counter: 130 out of 10000


Epoch 2: CE 2.250585:  24%|███████████████████████████████████▎                                                                                                               | 3002/12494 [09:04<29:14,  5.41it/s]

EarlyStopping counter: 131 out of 10000


Epoch 2: CE 2.250239:  28%|█████████████████████████████████████████▏                                                                                                         | 3502/12494 [10:35<26:28,  5.66it/s]

EarlyStopping counter: 132 out of 10000
Epoch   608: reducing learning rate of group 0 to 1.0131e-05.


Epoch 2: CE 2.250577:  32%|███████████████████████████████████████████████                                                                                                    | 4002/12494 [12:05<23:35,  6.00it/s]

EarlyStopping counter: 133 out of 10000


Epoch 2: CE 2.250710:  36%|████████████████████████████████████████████████████▉                                                                                              | 4501/12494 [13:36<24:30,  5.44it/s]

EarlyStopping counter: 134 out of 10000


Epoch 2: CE 2.249026:  40%|██████████████████████████████████████████████████████████▊                                                                                        | 5002/12494 [15:05<23:31,  5.31it/s]

EarlyStopping counter: 135 out of 10000


Epoch 2: CE 2.250558:  44%|████████████████████████████████████████████████████████████████▋                                                                                  | 5502/12494 [16:36<18:31,  6.29it/s]

EarlyStopping counter: 136 out of 10000


Epoch 2: CE 2.251134:  48%|██████████████████████████████████████████████████████████████████████▌                                                                            | 6002/12494 [18:08<18:12,  5.94it/s]

EarlyStopping counter: 137 out of 10000


Epoch 2: CE 2.251518:  52%|████████████████████████████████████████████████████████████████████████████▌                                                                      | 6502/12494 [19:38<16:46,  5.95it/s]

EarlyStopping counter: 138 out of 10000
Epoch   614: reducing learning rate of group 0 to 9.7253e-06.


Epoch 2: CE 2.252729:  56%|██████████████████████████████████████████████████████████████████████████████████▍                                                                | 7002/12494 [21:09<15:35,  5.87it/s]

EarlyStopping counter: 139 out of 10000


Epoch 2: CE 2.252623:  60%|████████████████████████████████████████████████████████████████████████████████████████▎                                                          | 7501/12494 [22:39<15:48,  5.26it/s]

EarlyStopping counter: 140 out of 10000


Epoch 2: CE 2.252596:  64%|██████████████████████████████████████████████████████████████████████████████████████████████▏                                                    | 8002/12494 [24:11<14:07,  5.30it/s]

EarlyStopping counter: 141 out of 10000


Epoch 2: CE 2.252034:  68%|████████████████████████████████████████████████████████████████████████████████████████████████████                                               | 8502/12494 [25:42<10:57,  6.08it/s]

EarlyStopping counter: 142 out of 10000


Epoch 2: CE 2.252908:  72%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                         | 9002/12494 [27:13<09:54,  5.87it/s]

EarlyStopping counter: 143 out of 10000


Epoch 2: CE 2.252811:  76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                   | 9502/12494 [28:45<08:32,  5.84it/s]

EarlyStopping counter: 144 out of 10000
Epoch   620: reducing learning rate of group 0 to 9.3363e-06.


Epoch 2: CE 2.252895:  80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                             | 10002/12494 [30:16<07:08,  5.81it/s]

EarlyStopping counter: 145 out of 10000


Epoch 2: CE 2.252639:  84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                       | 10501/12494 [31:46<05:57,  5.57it/s]

EarlyStopping counter: 146 out of 10000


Epoch 2: CE 2.253227:  88%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                 | 11002/12494 [33:18<04:29,  5.54it/s]

EarlyStopping counter: 147 out of 10000


Epoch 2: CE 2.252958:  92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍           | 11501/12494 [34:49<02:46,  5.97it/s]

EarlyStopping counter: 148 out of 10000


Epoch 2: CE 2.251885:  96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎     | 12002/12494 [36:20<01:26,  5.67it/s]

EarlyStopping counter: 149 out of 10000


Epoch 2: CE 2.251869: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 12494/12494 [37:49<00:00,  5.50it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4/4 [03:06<00:00, 46.67s/it]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 624701/624701 [00:50<00:00, 12453.40it/s]
Epoch 2: CE 2.069011:   0%|                                                                                                                                                      | 2/12494 [00:00<37:36,  5.54it/s]

EarlyStopping counter: 150 out of 10000
Epoch   626: reducing learning rate of group 0 to 8.9629e-06.


Epoch 2: CE 2.253059:   4%|█████▉                                                                                                                                              | 502/12494 [01:31<36:32,  5.47it/s]

EarlyStopping counter: 151 out of 10000


Epoch 2: CE 2.255399:   8%|███████████▊                                                                                                                                       | 1002/12494 [03:02<34:19,  5.58it/s]

EarlyStopping counter: 152 out of 10000


Epoch 2: CE 2.254665:  12%|█████████████████▋                                                                                                                                 | 1502/12494 [04:32<32:49,  5.58it/s]

EarlyStopping counter: 153 out of 10000


Epoch 2: CE 2.255549:  16%|███████████████████████▌                                                                                                                           | 2002/12494 [06:04<28:01,  6.24it/s]

EarlyStopping counter: 154 out of 10000


Epoch 2: CE 2.254218:  20%|█████████████████████████████▍                                                                                                                     | 2502/12494 [07:34<28:18,  5.88it/s]

EarlyStopping counter: 155 out of 10000


Epoch 2: CE 2.252438:  24%|███████████████████████████████████▎                                                                                                               | 3001/12494 [09:04<27:46,  5.70it/s]

EarlyStopping counter: 156 out of 10000
Epoch   632: reducing learning rate of group 0 to 8.6044e-06.


Epoch 2: CE 2.252285:  27%|███████████████████████████████████████▏                                                                                                           | 3327/12494 [10:03<27:42,  5.51it/s]


keyboard interrupt caught
