In [1]:
%load_ext autoreload
%autoreload 2

In [2]:
import json
import numpy as np
from torch.utils.data import Dataset, DataLoader
import glob
import wandb
import os
import torch.optim as optimizers

In [3]:
import dfs_code
from torch_geometric.data import InMemoryDataset, Data
import pickle
import torch
import torch.nn as nn
import tqdm
import copy
import pandas as pd
#torch.multiprocessing.set_sharing_strategy('file_system') # this is important on local machine
#def set_worker_sharing_strategy(worker_id: int) -> None:
#    torch.multiprocessing.set_sharing_strategy('file_system')

In [4]:
import sys
sys.path = ['../../../src'] + sys.path
from dfs_transformer import EarlyStopping, DFSCodeSeq2SeqFC, smiles2graph

Using backend: pytorch
2021-09-10 11:44:34.267237: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'libcudart.so.11.0'; dlerror: libcudart.so.11.0: cannot open shared object file: No such file or directory; LD_LIBRARY_PATH: :/opt/cuda/extras/CUPTI/lib64/:/opt/intel/lib:/opt/intel/mkl/lib/intel64:/opt/intel:/opt/ibm/ILOG/CPLEX_Studio1210/cplex/bin/x86-64_linux:/opt/ibm/ILOG/CPLEX_Studio1210/cplex/python/3.7/x86-64_linux:/opt/intel/clck_latest/lib:/opt/intel/daal/lib:/opt/intel/intelpython3/lib:/opt/intel/ipp/lib:/opt/intel/itac_2019/lib:/opt/intel/itac_latest/lib:/opt/intel/mkl/lib:/opt/intel/mkl_/lib:/opt/intel/mpirt/lib:/opt/intel/tbb/lib:/opt/intel/clck/2019.0/lib:/opt/intel/compilers_and_libraries_2019/linux/lib:/opt/intel/compilers_and_libraries/linux/lib:/opt/intel/itac/2019.0.018/lib:/opt/intel/itac_2019/intel64/lib:/opt/intel/itac_latest/intel64/lib:/opt/intel/parallel_studio_xe_2019.0.045/clck_2019/lib:/opt/intel/parallel_studio_xe

In [5]:
wandb.init(project='pubchem', entity='chrisxx', name='bert10k')

config = wandb.config
config.mode = "min2min" #rnd2rnd
config.fraction_missing = 0.25
config.n_atoms = 118
config.n_bonds = 5
config.emb_dim = 120
config.nhead = 12
config.nlayers = 6
config.max_nodes = 250
config.max_edges = 500
config.dim_feedforward = 2048
config.n_files = 10
config.n_splits = 1
config.n_iter_per_split = 10000
config.lr = 0.0003
config.n_epochs = 10000
config.lr_adjustment_period = 500
config.patience = 5
config.factor = 0.96
config.minimal_lr = 6e-8
config.batch_size = 50
config.accumulate_grads = 4
config.valid_patience = 10000
config.valid_minimal_improvement=0.00
config.model_dir = "../../../models/pubchem_mini/features_selfattention/medium/"
#config.data_dir = "/mnt/project/pubchem_noH/"
config.data_dir = "../../../results/pubchem/mini10k/"
config.pretrained_dir = None#"../../models/chembl/better_transformer/medium/"
config.num_workers = 0
config.prefetch_factor = 2
config.persistent_workers = False
config.load_last = False


ERROR:wandb.jupyter:Failed to detect the name of this notebook, you can set it manually with the WANDB_NOTEBOOK_NAME environment variable to enable code saving.
[34m[1mwandb[0m: Currently logged in as: [33mchrisxx[0m (use `wandb login --relogin` to force relogin)
[34m[1mwandb[0m: wandb version 0.12.1 is available!  To upgrade, please run:
[34m[1mwandb[0m:  $ pip install wandb --upgrade
2021-09-10 11:44:36.939318: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'libcudart.so.11.0'; dlerror: libcudart.so.11.0: cannot open shared object file: No such file or directory; LD_LIBRARY_PATH: :/opt/cuda/extras/CUPTI/lib64/:/opt/intel/lib:/opt/intel/mkl/lib/intel64:/opt/intel:/opt/ibm/ILOG/CPLEX_Studio1210/cplex/bin/x86-64_linux:/opt/ibm/ILOG/CPLEX_Studio1210/cplex/python/3.7/x86-64_linux:/opt/intel/clck_latest/lib:/opt/intel/daal/lib:/opt/intel/intelpython3/lib:/opt/intel/ipp/lib:/opt/intel/itac_2019/lib:/opt/intel/itac_latest/lib:/opt/in

In [6]:
os.makedirs(config.model_dir, exist_ok=True)

In [7]:
path = config.data_dir

In [8]:
class PubChem(Dataset):
    """PubChem dataset of molecules and minimal DFS codes."""
    def __init__(self, path=path, n_used = 8, n_splits = 64, max_nodes=config.max_nodes,
                 max_edges=config.max_edges, useHs=False, addLoops=False, memoryEfficient=False,
                 transform=None, n_mols_per_dataset=np.inf, node_feature_key='x', edge_feature_key='edge_attr'):
        self.path = path
        self.data = []
        self.path = path
        self.n_used = n_used
        self.n_splits = n_splits
        self.useHs = useHs
        self.addLoops = addLoops
        self.memoryEfficient = memoryEfficient
        self.n_mols_per_dataset = n_mols_per_dataset
        self.max_nodes = max_nodes
        self.max_edges = max_edges
        self.node_feature_key = node_feature_key
        self.edge_feature_key = edge_feature_key
        self.prepare()
        
        
    def prepare(self):
        codes_all = {}
        d_all = {}
        i2didx = {}
        perm = np.random.permutation(self.n_splits)
        for i in tqdm.tqdm(perm[:self.n_used]):
            dname = glob.glob(self.path+"/%d/min_dfs_codes_split*.json"%(i+1))[0]
            didx = int(dname.split("split")[-1][:-5])
            dname2 = self.path+"/%d/data_split%d.json"%(i+1, didx)
            with open(dname, 'r') as f:
                codes = json.load(f)
                for key, val in codes.items():
                    codes_all[key] = val
            with open(dname2, 'r') as f:
                d_dict = json.load(f)
                for key, val in d_dict.items():
                    d_all[key] = val
        
        for smiles, code in tqdm.tqdm(codes_all.items()):
            if len(self.data) > self.n_mols_per_dataset:
                break
            if code['min_dfs_code'] is not None and len(code['min_dfs_code']) > 1:
                d = d_all[smiles]
                #d = smiles2graph(smiles, useHs=self.useHs, addLoops=self.addLoops, skipCliqueCheck=False)
                if len(d['z']) > self.max_nodes:
                    continue
                if len(d['edge_attr']) > 2*self.max_edges:
                    continue
                
                
                z = torch.tensor(d['z'], dtype=torch.long)
                x = torch.tensor(d['x'], dtype=torch.float32)
                
                
                data_ = Data(x=x,
                             z=z,
                             edge_attr=torch.tensor(d['edge_attr']),
                             edge_index=torch.tensor(d['edge_index'], dtype=torch.long),
                             min_dfs_code=torch.tensor(code['min_dfs_code']),
                             min_dfs_index=torch.tensor(code['dfs_index'], dtype=torch.long),
                             smiles=smiles,
                             node_features=torch.tensor(d['atom_features'], dtype=torch.float32),
                             edge_features=torch.tensor(d['bond_features'], dtype=torch.float32))
                self.data += [data_]   
        
    def __len__(self):
        return len(self.data)

    def __getitem__(self, idx):
        return self.data[idx]

In [9]:
def collate_fn_features(dlist):
    node_batch = [] 
    edge_batch = []
    rnd_code_batch = []
    min_code_batch = []
    for d in dlist:
        rnd_code, rnd_index = dfs_code.rnd_dfs_code_from_torch_geometric(d, 
                                                                         d.z.numpy().tolist(), 
                                                                         np.argmax(d.edge_attr.numpy(), axis=1))
        node_batch += [d.node_features]
        edge_batch += [d.edge_features]
        rnd_code_batch += [torch.tensor(rnd_code)]
        min_code_batch += [d.min_dfs_code]
    return rnd_code_batch, node_batch, edge_batch, min_code_batch

In [10]:
ngpu=1
device = torch.device('cuda:0' if (torch.cuda.is_available() and ngpu > 0) else 'cpu')

In [11]:
to_cuda = lambda T: [t.to(device) for t in T]

In [12]:
dataset = PubChem(n_used = 1, n_splits=config.n_files)
loader = DataLoader(dataset, batch_size=config.batch_size, shuffle=True, pin_memory=False, collate_fn=collate_fn_features,
                   num_workers=config.num_workers, prefetch_factor=config.prefetch_factor, 
                    persistent_workers=config.persistent_workers)

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  1.01it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 997/997 [00:00<00:00, 8307.52it/s]


In [13]:
data = next(iter(loader))

In [14]:
n_node_features = data[1][0].shape[1]
n_edge_features = data[2][0].shape[1]

In [15]:
print(n_node_features, n_edge_features)

133 14


In [16]:
codes = data[-1]

In [17]:
codes

[tensor([[ 0,  1,  6,  0,  6,  3,  6,  1],
         [ 1,  2,  6,  0,  6,  1,  4,  4],
         [ 2,  3,  6,  0,  6,  4,  8,  5],
         [ 3,  4,  6,  0,  7,  5, 12,  7],
         [ 4,  5,  7,  0,  6,  7, 16, 15],
         [ 5,  6,  6,  0,  6, 15, 33, 16],
         [ 6,  7,  6,  0,  7, 16, 35, 17],
         [ 7,  2,  7,  0,  6, 17, 36,  4],
         [ 7,  8,  7,  0,  6, 17, 38, 18],
         [ 8,  9,  6,  0,  8, 18, 41, 20],
         [ 8, 10,  6,  1,  8, 18, 40, 19],
         [ 4, 11,  7,  0,  6,  7, 15,  8],
         [11, 12,  6,  2,  6,  8, 18,  9],
         [12, 13,  6,  2,  6,  9, 21, 10],
         [13, 14,  6,  2,  6, 10, 23, 11],
         [14, 15,  6,  0,  8, 11, 25, 12],
         [14, 16,  6,  2,  6, 11, 26, 13],
         [16, 17,  6,  2,  6, 13, 29, 14],
         [17, 11,  6,  2,  6, 14, 30,  8],
         [ 3, 18,  6,  1,  8,  5, 11,  6],
         [ 1, 19,  6,  0,  6,  1,  1,  0],
         [ 1, 20,  6,  0,  6,  1,  2,  2]]),
 tensor([[ 0,  1,  6,  0,  6,  6, 13,  7],
         

In [18]:
def BERTize(codes):
    inputs = []
    targets = []
    for code in codes:
        n = len(code)
        perm = np.random.permutation(n)
        target_idx = perm[:int(config.fraction_missing*n)]
        input_idx = perm[int(config.fraction_missing*n):]
        inp = code.clone()
        target = code.clone()
        target[input_idx] = -1
        inp[target_idx] = -1
        inputs += [inp]
        targets += [target]
    return inputs, targets

In [19]:
inputs, targets = BERTize(codes)

In [20]:
inputs

[tensor([[ 0,  1,  6,  0,  6,  3,  6,  1],
         [ 1,  2,  6,  0,  6,  1,  4,  4],
         [ 2,  3,  6,  0,  6,  4,  8,  5],
         [ 3,  4,  6,  0,  7,  5, 12,  7],
         [-1, -1, -1, -1, -1, -1, -1, -1],
         [ 5,  6,  6,  0,  6, 15, 33, 16],
         [ 6,  7,  6,  0,  7, 16, 35, 17],
         [ 7,  2,  7,  0,  6, 17, 36,  4],
         [ 7,  8,  7,  0,  6, 17, 38, 18],
         [ 8,  9,  6,  0,  8, 18, 41, 20],
         [ 8, 10,  6,  1,  8, 18, 40, 19],
         [-1, -1, -1, -1, -1, -1, -1, -1],
         [-1, -1, -1, -1, -1, -1, -1, -1],
         [12, 13,  6,  2,  6,  9, 21, 10],
         [13, 14,  6,  2,  6, 10, 23, 11],
         [14, 15,  6,  0,  8, 11, 25, 12],
         [14, 16,  6,  2,  6, 11, 26, 13],
         [-1, -1, -1, -1, -1, -1, -1, -1],
         [-1, -1, -1, -1, -1, -1, -1, -1],
         [ 3, 18,  6,  1,  8,  5, 11,  6],
         [ 1, 19,  6,  0,  6,  1,  1,  0],
         [ 1, 20,  6,  0,  6,  1,  2,  2]]),
 tensor([[ 0,  1,  6,  0,  6,  6, 13,  7],
         

In [21]:
targets

[tensor([[-1, -1, -1, -1, -1, -1, -1, -1],
         [-1, -1, -1, -1, -1, -1, -1, -1],
         [-1, -1, -1, -1, -1, -1, -1, -1],
         [-1, -1, -1, -1, -1, -1, -1, -1],
         [ 4,  5,  7,  0,  6,  7, 16, 15],
         [-1, -1, -1, -1, -1, -1, -1, -1],
         [-1, -1, -1, -1, -1, -1, -1, -1],
         [-1, -1, -1, -1, -1, -1, -1, -1],
         [-1, -1, -1, -1, -1, -1, -1, -1],
         [-1, -1, -1, -1, -1, -1, -1, -1],
         [-1, -1, -1, -1, -1, -1, -1, -1],
         [ 4, 11,  7,  0,  6,  7, 15,  8],
         [11, 12,  6,  2,  6,  8, 18,  9],
         [-1, -1, -1, -1, -1, -1, -1, -1],
         [-1, -1, -1, -1, -1, -1, -1, -1],
         [-1, -1, -1, -1, -1, -1, -1, -1],
         [-1, -1, -1, -1, -1, -1, -1, -1],
         [16, 17,  6,  2,  6, 13, 29, 14],
         [17, 11,  6,  2,  6, 14, 30,  8],
         [-1, -1, -1, -1, -1, -1, -1, -1],
         [-1, -1, -1, -1, -1, -1, -1, -1],
         [-1, -1, -1, -1, -1, -1, -1, -1]]),
 tensor([[-1, -1, -1, -1, -1, -1, -1, -1],
         

In [22]:
model = DFSCodeSeq2SeqFC(n_atoms=config.n_atoms,
                         n_bonds=config.n_bonds, 
                         emb_dim=config.emb_dim, 
                         nhead=config.nhead, 
                         nlayers=config.nlayers, 
                         max_nodes=config.max_nodes, 
                         max_edges=config.max_edges,
                         atom_encoder=nn.Linear(n_node_features, config.emb_dim), 
                         bond_encoder=nn.Linear(n_edge_features, config.emb_dim))

In [23]:
if config.pretrained_dir is not None:
    model.load_state_dict(torch.load(config.pretrained_dir+'checkpoint.pt'))

In [24]:
if config.load_last:
    model.load_state_dict(torch.load(config.model_dir+'checkpoint.pt'))

In [25]:
optim = optimizers.Adam(model.parameters(), lr=config.lr)

lr_scheduler = optimizers.lr_scheduler.ReduceLROnPlateau(optim, mode='min', verbose=True, patience=config.patience, factor=config.factor)
#lr_scheduler = optimizers.lr_scheduler.ExponentialLR(optim, gamma=config.factor)

early_stopping = EarlyStopping(patience=config.valid_patience, delta=config.valid_minimal_improvement,
                              path=config.model_dir+'checkpoint.pt')
bce = torch.nn.BCEWithLogitsLoss()
ce = torch.nn.CrossEntropyLoss(ignore_index=-1)
softmax = nn.Softmax(dim=2)

In [26]:
model.to(device)

DFSCodeSeq2SeqFC(
  (encoder): DFSCodeEncoder(
    (emb_dfs): PositionalEncoding(
      (dropout): Dropout(p=0, inplace=False)
    )
    (emb_seq): PositionalEncoding(
      (dropout): Dropout(p=0.1, inplace=False)
    )
    (emb_atom): Linear(in_features=133, out_features=120, bias=True)
    (emb_bond): Linear(in_features=14, out_features=120, bias=True)
    (mixer): Linear(in_features=600, out_features=600, bias=True)
    (enc): TransformerEncoder(
      (layers): ModuleList(
        (0): TransformerEncoderLayer(
          (self_attn): MultiheadAttention(
            (out_proj): NonDynamicallyQuantizableLinear(in_features=600, out_features=600, bias=True)
          )
          (linear1): Linear(in_features=600, out_features=2048, bias=True)
          (dropout): Dropout(p=0.1, inplace=False)
          (linear2): Linear(in_features=2048, out_features=600, bias=True)
          (norm1): LayerNorm((600,), eps=1e-05, elementwise_affine=True)
          (norm2): LayerNorm((600,), eps=1e-05, 

In [None]:
try:
    for epoch in range(config.n_epochs):
        epoch_loss = 0
        for split in range(config.n_splits):
            
            n_ids = config.n_files//config.n_splits
            dataset = PubChem(n_used = n_ids, n_splits = config.n_files)
            loader = DataLoader(dataset, batch_size=config.batch_size, shuffle=True, pin_memory=False, 
                                collate_fn=collate_fn_features,
                   num_workers=config.num_workers, prefetch_factor=config.prefetch_factor, 
                    persistent_workers=config.persistent_workers)
            for j in range(config.n_iter_per_split):
                pbar = tqdm.tqdm(loader)
                for i, data in enumerate(pbar):
                    if i % config.accumulate_grads == 0: #bei 0 wollen wir das
                        optim.zero_grad()
                    rndc, nattr, eattr, minc = data
                    if config.mode == "min2min":
                        code = to_cuda(minc)
                    elif config.mode == "rnd2rnd":
                        code = to_cuda(rndc)
                    else:
                        raise ValueError("unrecognized config.mode")
                    nattr = to_cuda(nattr)
                    eattr = to_cuda(eattr)
                    #prepare inputs
                    inputs, targets = BERTize(code)
                    #prepare labels
                    targetc = [torch.cat((c, (-1)*torch.ones((1, 8), dtype=torch.long, device=device)), dim=0) for c in targets]
                    targetc_seq = nn.utils.rnn.pad_sequence(targetc, padding_value=-1)
                    #prediction
                    dfs1, dfs2, atm1, atm2, bnd, eos = model(inputs, nattr, eattr)
                    pred_dfs1 = torch.reshape(dfs1, (-1, config.max_nodes))
                    pred_dfs2 = torch.reshape(dfs2, (-1, config.max_nodes))
                    pred_atm1 = torch.reshape(atm1, (-1, config.n_atoms))
                    pred_atm2 = torch.reshape(atm2, (-1, config.n_atoms))
                    pred_bnd = torch.reshape(bnd, (-1, config.n_bonds))
                    tgt_dfs1 = targetc_seq[:, :, 0].view(-1)
                    tgt_dfs2 = targetc_seq[:, :, 1].view(-1)
                    tgt_atm1 = targetc_seq[:, :, 2].view(-1)
                    tgt_atm2 = targetc_seq[:, :, 4].view(-1)
                    tgt_bnd = targetc_seq[:, :, 3].view(-1)
                    loss = ce(pred_dfs1, tgt_dfs1) 
                    loss += ce(pred_dfs2, tgt_dfs2)
                    loss += ce(pred_atm1, tgt_atm1)
                    loss += ce(pred_bnd, tgt_bnd)
                    loss += ce(pred_atm2, tgt_atm2)
                    loss.backward()
                    torch.nn.utils.clip_grad_norm_(model.parameters(), 0.5)
                    if (i+1) % config.accumulate_grads == 0:
                        optim.step() # bei 2 wollen wir das
                    epoch_loss = (epoch_loss*i + loss.item())/(i+1)
                    mask = tgt_dfs1 != -1
                    n_tgts = torch.sum(mask)
                    acc_dfs1 = (torch.argmax(pred_dfs1[mask], axis=1) == tgt_dfs1[mask]).sum()/n_tgts
                    acc_dfs2 = (torch.argmax(pred_dfs2[mask], axis=1) == tgt_dfs2[mask]).sum()/n_tgts
                    acc_atm1 = (torch.argmax(pred_atm1[mask], axis=1) == tgt_atm1[mask]).sum()/n_tgts
                    acc_atm2 = (torch.argmax(pred_atm2[mask], axis=1) == tgt_atm2[mask]).sum()/n_tgts
                    acc_bnd = (torch.argmax(pred_bnd[mask], axis=1) == tgt_bnd[mask]).sum()/n_tgts
                    curr_lr = list(optim.param_groups)[0]['lr']
                    wandb.log({'loss':epoch_loss, 'learning rate':curr_lr})
                    pbar.set_description('Epoch %d: CE %2.6f accs: %2.2f %2.2f %2.2f %2.2f %2.2f'%(epoch+1, 
                                                                                                   epoch_loss, 
                                                                                                   100*acc_dfs1,
                                                                                                   100*acc_dfs2,
                                                                                                   100*acc_atm1,
                                                                                                   100*acc_bnd,
                                                                                                   100*acc_atm2))

                    if i % config.lr_adjustment_period == 0:
                        early_stopping(epoch_loss, model)
                        lr_scheduler.step(epoch_loss)
                        if early_stopping.early_stop:
                            break

                        if curr_lr < config.minimal_lr:
                            break
                
                
            del dataset
            del loader
        

except KeyboardInterrupt:
    torch.save(model.state_dict(), config.model_dir+'_keyboardinterrupt.pt')
    print('keyboard interrupt caught')


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:08<00:00,  1.13it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 9982/9982 [00:00<00:00, 10907.08it/s]
Epoch 1: CE 10.274009 accs: 1.87 3.27 89.25 50.00 77.57: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [01:03<00:00,  3.14it/s]
Epoch 1: CE 9.632325 accs: 4.07 4.47 83.33 40.65 76.02: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [01:03<00:00,  3.17it/s]
Epoch 1: CE 9.429267 accs: 3.41 6.25 82.39 54.55 77.27: 100%|███████████████████████████████████████████████████████████████████████████████████████████

EarlyStopping counter: 1 out of 10000


Epoch 1: CE 9.236657 accs: 8.06 3.23 79.03 44.09 81.18: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [01:01<00:00,  3.23it/s]
Epoch 1: CE 9.207441 accs: 5.49 4.40 84.07 51.65 74.73: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [01:03<00:00,  3.16it/s]
Epoch 1: CE 9.192378 accs: 4.17 3.12 87.50 67.19 78.65: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [01:03<00:00,  3.17it/s]
Epoch 1: CE 9.326738 accs: 4.85 3.94 83.33 60.00 71.82:   0%|▌                                                                                                                     | 1/200 [00:00<01:16,  2.59it/s]

EarlyStopping counter: 1 out of 10000


Epoch 1: CE 9.178184 accs: 6.86 5.88 82.35 50.98 67.16: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [01:01<00:00,  3.25it/s]
Epoch 1: CE 9.247464 accs: 6.62 4.30 80.79 47.68 71.85:   0%|▌                                                                                                                     | 1/200 [00:00<01:00,  3.27it/s]

EarlyStopping counter: 2 out of 10000


Epoch 1: CE 9.132669 accs: 6.77 4.17 82.81 53.65 72.40: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [01:01<00:00,  3.26it/s]
Epoch 1: CE 9.131854 accs: 4.25 3.27 81.37 57.84 74.84:   0%|▌                                                                                                                     | 1/200 [00:00<00:59,  3.32it/s]

EarlyStopping counter: 3 out of 10000


Epoch 1: CE 9.123068 accs: 3.38 2.90 80.19 53.14 70.05: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [01:01<00:00,  3.26it/s]
Epoch 1: CE 9.467451 accs: 4.41 2.06 84.71 54.41 72.65:   0%|▌                                                                                                                     | 1/200 [00:00<01:06,  3.00it/s]

EarlyStopping counter: 4 out of 10000


Epoch 1: CE 9.095018 accs: 3.61 6.19 82.47 62.37 81.96: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:59<00:00,  3.33it/s]
Epoch 1: CE 9.115725 accs: 3.72 5.41 78.04 57.43 71.28:   0%|▌                                                                                                                     | 1/200 [00:00<01:01,  3.23it/s]

EarlyStopping counter: 5 out of 10000


Epoch 1: CE 9.075402 accs: 5.39 5.99 88.62 52.69 75.45: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [01:00<00:00,  3.30it/s]
Epoch 1: CE 9.412848 accs: 6.80 3.88 76.70 55.66 71.20:   0%|▌                                                                                                                     | 1/200 [00:00<01:10,  2.84it/s]

EarlyStopping counter: 6 out of 10000
Epoch    13: reducing learning rate of group 0 to 2.8800e-04.


Epoch 1: CE 9.058732 accs: 6.06 3.03 82.83 63.13 75.76: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [01:00<00:00,  3.32it/s]
Epoch 1: CE 9.064345 accs: 5.21 7.29 80.21 63.02 76.04: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [01:01<00:00,  3.26it/s]
Epoch 1: CE 9.537962 accs: 3.29 3.84 80.82 58.36 75.07:   0%|▌                                                                                                                     | 1/200 [00:00<01:26,  2.30it/s]

EarlyStopping counter: 1 out of 10000


Epoch 1: CE 9.068173 accs: 7.77 5.70 81.87 69.95 72.02: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [01:00<00:00,  3.31it/s]
Epoch 1: CE 9.033176 accs: 3.15 4.05 83.33 58.56 74.77: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [01:01<00:00,  3.26it/s]
Epoch 1: CE 9.252758 accs: 5.18 3.66 82.93 57.32 74.09:   0%|▌                                                                                                                     | 1/200 [00:00<01:04,  3.09it/s]

EarlyStopping counter: 1 out of 10000


Epoch 1: CE 9.053100 accs: 6.15 3.08 85.13 56.92 70.77: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [01:00<00:00,  3.28it/s]
Epoch 1: CE 9.027147 accs: 5.58 4.57 80.71 52.79 79.19: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [01:01<00:00,  3.25it/s]
Epoch 1: CE 8.776332 accs: 3.46 5.54 84.08 54.67 76.47:   0%|▌                                                                                                                     | 1/200 [00:00<00:43,  4.52it/s]

EarlyStopping counter: 1 out of 10000


Epoch 1: CE 9.006688 accs: 6.33 4.07 79.64 60.63 66.97: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [01:00<00:00,  3.30it/s]
Epoch 1: CE 8.998006 accs: 4.69 5.16 83.57 61.97 81.69: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [01:02<00:00,  3.21it/s]
Epoch 1: CE 9.143635 accs: 5.17 3.95 83.28 62.92 78.72:   0%|▌                                                                                                                     | 1/200 [00:00<01:03,  3.12it/s]

EarlyStopping counter: 1 out of 10000


Epoch 1: CE 9.004119 accs: 4.57 6.09 83.25 65.99 80.71: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [01:00<00:00,  3.30it/s]
Epoch 1: CE 9.173455 accs: 6.61 3.90 81.98 60.36 75.38:   0%|▌                                                                                                                     | 1/200 [00:00<00:54,  3.62it/s]

EarlyStopping counter: 2 out of 10000


Epoch 1: CE 8.934357 accs: 5.83 4.85 83.50 64.08 74.76: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [01:00<00:00,  3.30it/s]
Epoch 1: CE 8.909603 accs: 6.63 7.23 83.73 64.16 76.51:   0%|▌                                                                                                                     | 1/200 [00:00<01:05,  3.03it/s]

EarlyStopping counter: 3 out of 10000


Epoch 1: CE 8.948852 accs: 7.33 8.90 83.25 60.73 79.06: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:59<00:00,  3.33it/s]
Epoch 1: CE 9.219909 accs: 7.49 3.58 81.76 53.09 75.24:   0%|▌                                                                                                                     | 1/200 [00:00<01:02,  3.21it/s]

EarlyStopping counter: 4 out of 10000


Epoch 1: CE 8.927191 accs: 6.67 5.24 87.62 58.57 73.81: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [01:00<00:00,  3.31it/s]
Epoch 1: CE 9.186317 accs: 6.34 6.92 83.57 60.52 76.08:   0%|▌                                                                                                                     | 1/200 [00:00<01:00,  3.27it/s]

EarlyStopping counter: 5 out of 10000


Epoch 1: CE 8.902184 accs: 7.54 6.53 86.93 59.30 70.35: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [01:00<00:00,  3.32it/s]
Epoch 1: CE 8.940276 accs: 8.47 7.17 84.36 57.65 76.87:   0%|▌                                                                                                                     | 1/200 [00:00<01:24,  2.37it/s]

EarlyStopping counter: 6 out of 10000
Epoch    26: reducing learning rate of group 0 to 2.7648e-04.


Epoch 1: CE 8.824892 accs: 6.56 7.10 83.06 60.11 72.13: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [01:00<00:00,  3.29it/s]
Epoch 1: CE 8.741700 accs: 10.06 6.71 83.54 60.37 77.74:   0%|▌                                                                                                                    | 1/200 [00:00<00:55,  3.58it/s]

EarlyStopping counter: 7 out of 10000


Epoch 1: CE 8.808598 accs: 11.73 8.38 80.45 65.92 74.30: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [01:00<00:00,  3.30it/s]
Epoch 1: CE 8.904949 accs: 6.78 7.08 86.73 57.23 79.94:   0%|▌                                                                                                                     | 1/200 [00:00<01:07,  2.95it/s]

EarlyStopping counter: 8 out of 10000


Epoch 1: CE 8.774845 accs: 8.44 7.11 78.67 61.78 78.22: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [01:00<00:00,  3.33it/s]
Epoch 1: CE 8.821830 accs: 9.27 5.75 84.35 57.19 73.48:   0%|▌                                                                                                                     | 1/200 [00:00<00:58,  3.37it/s]

EarlyStopping counter: 9 out of 10000


Epoch 1: CE 8.698184 accs: 7.10 7.65 78.14 59.56 75.41: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [01:00<00:00,  3.33it/s]
Epoch 1: CE 8.599038 accs: 12.75 8.33 79.41 55.88 75.98: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [01:02<00:00,  3.21it/s]
Epoch 1: CE 9.087808 accs: 7.20 8.93 82.71 52.45 74.93:   0%|▌                                                                                                                     | 1/200 [00:00<01:12,  2.75it/s]

EarlyStopping counter: 1 out of 10000


Epoch 1: CE 8.567908 accs: 12.70 13.76 84.13 55.56 72.49: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [01:00<00:00,  3.31it/s]
Epoch 1: CE 8.380799 accs: 13.19 12.64 84.07 65.93 70.33: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [01:01<00:00,  3.25it/s]
Epoch 1: CE 8.134366 accs: 12.29 12.63 83.28 63.48 76.79:   0%|▌                                                                                                                   | 1/200 [00:00<00:59,  3.32it/s]

EarlyStopping counter: 1 out of 10000


Epoch 1: CE 8.275101 accs: 12.31 13.33 77.95 56.92 71.79: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [01:00<00:00,  3.33it/s]
Epoch 1: CE 8.198749 accs: 15.09 16.04 81.13 59.75 73.58:   0%|▌                                                                                                                   | 1/200 [00:00<00:57,  3.48it/s]

EarlyStopping counter: 2 out of 10000


Epoch 1: CE 8.117303 accs: 13.89 15.28 84.72 60.65 74.54: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:59<00:00,  3.34it/s]
Epoch 1: CE 7.805134 accs: 17.95 18.32 79.49 62.27 71.79:   0%|▌                                                                                                                   | 1/200 [00:00<00:52,  3.79it/s]

EarlyStopping counter: 3 out of 10000


Epoch 1: CE 7.954045 accs: 16.84 15.79 83.16 74.21 75.79: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [01:00<00:00,  3.30it/s]
Epoch 1: CE 8.059267 accs: 14.09 16.78 84.23 63.76 73.83:   0%|▌                                                                                                                   | 1/200 [00:00<00:59,  3.35it/s]

EarlyStopping counter: 4 out of 10000


Epoch 1: CE 7.757653 accs: 13.88 18.66 86.60 72.73 73.68: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [01:00<00:00,  3.31it/s]
Epoch 1: CE 7.568948 accs: 16.16 18.34 86.90 69.87 80.35: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [01:01<00:00,  3.25it/s]
Epoch 1: CE 7.454007 accs: 20.81 23.35 78.17 71.07 73.10: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [01:01<00:00,  3.26it/s]
Epoch 1: CE 7.330007 accs: 21.76 21.24 82.90 65.28 73.58: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [01:01<00:00,  3.26it/s]
Epoch 1: CE 7.273962 accs: 20.75 22.01 81.45 68.87 72.01:   0%|▌                                                                                        

EarlyStopping counter: 1 out of 10000


Epoch 1: CE 7.300236 accs: 22.33 26.70 81.55 62.14 77.18: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [01:00<00:00,  3.32it/s]
Epoch 1: CE 7.190935 accs: 29.28 27.62 84.53 66.85 81.22: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [01:01<00:00,  3.24it/s]
Epoch 1: CE 7.064209 accs: 26.10 29.56 82.39 68.87 72.96:   0%|▌                                                                                                                   | 1/200 [00:00<01:03,  3.11it/s]

EarlyStopping counter: 1 out of 10000


Epoch 1: CE 7.045805 accs: 23.70 27.96 83.41 67.77 71.56: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [01:01<00:00,  3.28it/s]
Epoch 1: CE 6.972766 accs: 26.60 29.29 82.83 64.98 71.72:   0%|▌                                                                                                                   | 1/200 [00:00<00:56,  3.55it/s]

EarlyStopping counter: 2 out of 10000


Epoch 1: CE 6.871975 accs: 31.98 37.21 82.56 63.37 75.00: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [01:01<00:00,  3.28it/s]
Epoch 1: CE 7.088585 accs: 27.49 31.58 83.63 64.91 72.81:   0%|▌                                                                                                                   | 1/200 [00:00<01:07,  2.93it/s]

EarlyStopping counter: 3 out of 10000


Epoch 1: CE 6.539819 accs: 38.58 37.06 86.80 70.56 72.59: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [01:00<00:00,  3.31it/s]
Epoch 1: CE 6.339390 accs: 44.13 45.81 81.56 54.19 70.95: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [01:01<00:00,  3.24it/s]
Epoch 1: CE 6.126060 accs: 36.14 39.60 83.17 64.85 75.74: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [01:01<00:00,  3.25it/s]
Epoch 1: CE 6.010069 accs: 42.11 44.02 83.25 66.51 74.64: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [01:02<00:00,  3.21it/s]
Epoch 1: CE 5.765151 accs: 43.81 46.91 82.47 73.20 77.32: 100%|█████████████████████████████████████████████████████████████████████████████████████████

EarlyStopping counter: 1 out of 10000


Epoch 1: CE 5.576845 accs: 50.75 51.24 84.08 67.16 77.11: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:59<00:00,  3.34it/s]
Epoch 1: CE 5.521384 accs: 45.89 49.76 84.54 75.36 79.23: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [01:02<00:00,  3.22it/s]
Epoch 1: CE 5.390683 accs: 53.26 59.78 84.78 67.93 77.72: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [01:01<00:00,  3.26it/s]
Epoch 1: CE 5.434688 accs: 45.93 49.84 77.52 68.40 78.18:   0%|▌                                                                                                                   | 1/200 [00:00<01:01,  3.23it/s]

EarlyStopping counter: 1 out of 10000


Epoch 1: CE 5.331935 accs: 46.73 49.25 81.41 61.31 74.87: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [01:00<00:00,  3.32it/s]
Epoch 1: CE 5.193529 accs: 44.55 50.47 88.47 69.16 77.26:   0%|▌                                                                                                                   | 1/200 [00:00<00:58,  3.43it/s]

EarlyStopping counter: 2 out of 10000


Epoch 1: CE 5.233434 accs: 46.19 51.78 83.76 78.68 76.14: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [01:00<00:00,  3.31it/s]
Epoch 1: CE 5.273851 accs: 48.59 52.98 83.07 71.16 72.10:   0%|▌                                                                                                                   | 1/200 [00:00<00:47,  4.22it/s]

EarlyStopping counter: 3 out of 10000


Epoch 1: CE 5.098063 accs: 57.92 62.84 82.51 75.41 77.60: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [01:00<00:00,  3.32it/s]
Epoch 1: CE 5.170687 accs: 46.15 55.03 84.62 71.30 78.11:   0%|▌                                                                                                                   | 1/200 [00:00<01:06,  3.01it/s]

EarlyStopping counter: 4 out of 10000


Epoch 1: CE 5.011002 accs: 39.60 51.49 84.16 71.29 74.26: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [01:02<00:00,  3.19it/s]
Epoch 1: CE 5.786041 accs: 42.27 44.33 82.73 73.20 76.55:   0%|▌                                                                                                                   | 1/200 [00:00<01:21,  2.43it/s]

EarlyStopping counter: 5 out of 10000


Epoch 1: CE 4.875858 accs: 58.03 63.73 84.46 76.68 75.13: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [01:02<00:00,  3.22it/s]
Epoch 1: CE 4.910755 accs: 54.17 62.50 81.77 75.00 71.88: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [01:06<00:00,  3.02it/s]
Epoch 1: CE 4.773179 accs: 54.92 57.78 82.54 70.79 77.78:   0%|▌                                                                                                                   | 1/200 [00:00<01:04,  3.11it/s]

EarlyStopping counter: 1 out of 10000


Epoch 1: CE 4.779265 accs: 59.78 64.67 85.87 69.57 80.43: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [01:02<00:00,  3.18it/s]
Epoch 1: CE 4.802041 accs: 53.42 58.96 82.74 68.08 76.22:   0%|▌                                                                                                                   | 1/200 [00:00<00:56,  3.50it/s]

EarlyStopping counter: 2 out of 10000


Epoch 1: CE 4.668788 accs: 49.50 59.00 80.50 70.00 71.00: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [01:02<00:00,  3.20it/s]
Epoch 1: CE 4.624463 accs: 61.19 59.70 85.07 76.12 78.61: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [01:05<00:00,  3.06it/s]
Epoch 1: CE 4.535808 accs: 44.27 48.47 79.77 69.85 75.57: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [01:05<00:00,  3.05it/s]
Epoch 1: CE 4.447890 accs: 57.19 68.42 79.65 69.82 74.74:   0%|▌                                                                                                                   | 1/200 [00:00<00:56,  3.53it/s]

EarlyStopping counter: 1 out of 10000


Epoch 1: CE 4.479551 accs: 63.07 71.02 83.52 75.57 77.84: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [01:05<00:00,  3.06it/s]
Epoch 1: CE 4.467540 accs: 56.18 63.48 85.39 72.47 69.10: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [01:00<00:00,  3.30it/s]
Epoch 1: CE 4.533046 accs: 54.76 60.54 86.73 73.81 76.19:   0%|▌                                                                                                                   | 1/200 [00:00<00:49,  4.00it/s]

EarlyStopping counter: 1 out of 10000


Epoch 1: CE 4.388162 accs: 55.00 63.50 80.00 76.00 75.00: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:48<00:00,  4.12it/s]
Epoch 1: CE 4.319401 accs: 49.59 53.28 81.15 77.46 77.87: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:49<00:00,  4.05it/s]
Epoch 1: CE 4.614725 accs: 55.63 62.25 80.46 73.84 74.17:   0%|▌                                                                                                                   | 1/200 [00:00<00:47,  4.22it/s]

EarlyStopping counter: 1 out of 10000


Epoch 1: CE 4.355571 accs: 60.68 61.54 80.34 70.94 75.21: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:55<00:00,  3.61it/s]
Epoch 1: CE 4.700278 accs: 53.54 63.38 82.15 76.00 73.54:   0%|▌                                                                                                                   | 1/200 [00:00<00:58,  3.42it/s]

EarlyStopping counter: 2 out of 10000


Epoch 1: CE 4.229004 accs: 61.78 68.59 84.29 72.25 78.01: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:54<00:00,  3.69it/s]
Epoch 1: CE 4.108194 accs: 65.78 67.11 83.06 71.43 76.08:   0%|▌                                                                                                                   | 1/200 [00:00<00:37,  5.27it/s]

EarlyStopping counter: 3 out of 10000


Epoch 1: CE 4.171826 accs: 59.60 61.62 78.28 77.78 75.76: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:53<00:00,  3.72it/s]
Epoch 1: CE 4.442221 accs: 56.36 60.30 86.36 76.36 74.55:   0%|▌                                                                                                                   | 1/200 [00:00<00:59,  3.35it/s]

EarlyStopping counter: 4 out of 10000


Epoch 1: CE 4.111903 accs: 57.53 66.21 82.19 77.17 74.89: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:57<00:00,  3.46it/s]
Epoch 1: CE 4.285369 accs: 59.74 70.96 81.52 75.91 72.61:   0%|▌                                                                                                                   | 1/200 [00:00<00:44,  4.44it/s]

EarlyStopping counter: 5 out of 10000


Epoch 1: CE 4.058097 accs: 69.19 73.23 85.35 81.82 74.75: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:57<00:00,  3.49it/s]
Epoch 1: CE 3.965762 accs: 56.74 62.79 83.26 80.00 75.81: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:59<00:00,  3.37it/s]
Epoch 1: CE 4.421696 accs: 54.23 62.38 85.58 78.06 73.35:   0%|▌                                                                                                                   | 1/200 [00:00<00:58,  3.41it/s]

EarlyStopping counter: 1 out of 10000


Epoch 1: CE 3.907297 accs: 58.25 65.53 80.10 74.76 73.79: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:59<00:00,  3.39it/s]
Epoch 1: CE 3.859213 accs: 64.02 73.36 81.78 77.57 75.23: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:59<00:00,  3.35it/s]
Epoch 1: CE 3.853042 accs: 64.71 69.93 82.35 79.08 76.47:   0%|▌                                                                                                                   | 1/200 [00:00<00:53,  3.75it/s]

EarlyStopping counter: 1 out of 10000


Epoch 1: CE 3.778492 accs: 70.83 77.08 85.94 76.56 77.08: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:57<00:00,  3.48it/s]
Epoch 1: CE 3.802560 accs: 61.34 70.93 83.14 80.52 79.36:   0%|▌                                                                                                                   | 1/200 [00:00<01:01,  3.26it/s]

EarlyStopping counter: 2 out of 10000


Epoch 1: CE 3.744210 accs: 73.47 78.06 81.12 81.12 77.55: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:59<00:00,  3.35it/s]
Epoch 1: CE 3.562995 accs: 64.19 74.52 86.13 76.45 76.13:   0%|▌                                                                                                                   | 1/200 [00:00<01:00,  3.29it/s]

EarlyStopping counter: 3 out of 10000


Epoch 1: CE 3.716743 accs: 61.67 66.52 81.94 81.06 77.53: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:57<00:00,  3.50it/s]
Epoch 1: CE 3.746778 accs: 61.51 74.23 85.22 80.76 70.45:   0%|▌                                                                                                                   | 1/200 [00:00<00:48,  4.09it/s]

EarlyStopping counter: 4 out of 10000


Epoch 1: CE 3.687214 accs: 70.10 70.62 87.63 80.93 80.41: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:46<00:00,  4.30it/s]
Epoch 1: CE 4.187734 accs: 62.06 66.88 83.60 80.39 72.03:   0%|▌                                                                                                                   | 1/200 [00:00<00:54,  3.64it/s]

EarlyStopping counter: 5 out of 10000


Epoch 1: CE 3.613101 accs: 68.04 73.20 88.14 78.87 76.29: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:46<00:00,  4.27it/s]
Epoch 1: CE 3.656791 accs: 67.69 74.83 86.05 80.61 75.17:   0%|▌                                                                                                                   | 1/200 [00:00<00:49,  4.00it/s]

EarlyStopping counter: 6 out of 10000
Epoch    79: reducing learning rate of group 0 to 2.6542e-04.


Epoch 1: CE 3.578174 accs: 62.96 68.25 77.25 78.84 75.66: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:47<00:00,  4.24it/s]
Epoch 1: CE 3.957746 accs: 61.54 66.67 81.73 80.77 75.64:   0%|▌                                                                                                                   | 1/200 [00:00<00:48,  4.08it/s]

EarlyStopping counter: 7 out of 10000


Epoch 1: CE 3.499167 accs: 60.59 71.43 87.19 85.71 77.83: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:47<00:00,  4.24it/s]
Epoch 1: CE 3.631450 accs: 65.00 69.67 87.00 78.00 77.33:   0%|▌                                                                                                                   | 1/200 [00:00<00:44,  4.48it/s]

EarlyStopping counter: 8 out of 10000


Epoch 1: CE 3.371602 accs: 65.05 73.30 84.95 75.24 79.13: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:58<00:00,  3.41it/s]
Epoch 1: CE 3.526894 accs: 66.67 76.24 85.15 81.19 74.59:   0%|▌                                                                                                                   | 1/200 [00:00<00:51,  3.85it/s]

EarlyStopping counter: 9 out of 10000


Epoch 1: CE 3.345084 accs: 69.90 80.10 85.71 81.63 81.12: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:57<00:00,  3.50it/s]
Epoch 1: CE 3.823534 accs: 67.31 70.33 83.24 77.47 78.57:   0%|▌                                                                                                                   | 1/200 [00:00<00:46,  4.31it/s]

EarlyStopping counter: 10 out of 10000


Epoch 1: CE 3.233194 accs: 66.94 68.06 91.11 83.61 82.78:  16%|██████████████████▍                                                                                                | 32/200 [00:08<00:56,  2.95it/s]