In [1]:
import os
import tqdm
import json
import torch
import pickle
import numpy as np

from torch import nn
from torch.utils.data import DataLoader
from torch.optim import AdamW

import networks

class Dataset:
    def __init__(self, path, domain):
        target_data = pickle.load(open(path, 'rb'))[domain]

        self.pos_data = []
        self.neg_data = []
        
        for data in target_data:
            first_emb = data['first_party']
            second_emb = data['second_party']
            fact_emb = data['facts']

            if len(first_emb.shape) > 1:
                first_emb = first_emb[0]
                second_emb = second_emb[0]
                fact_emb = fact_emb[0]
            
            if data['output'] == 'Victory':
                self.pos_data.append([first_emb, second_emb, fact_emb, 0])
                self.neg_data.append([second_emb, first_emb, fact_emb, 1])
            else:
                self.pos_data.append([second_emb, first_emb, fact_emb, 0])
                self.neg_data.append([first_emb, second_emb, fact_emb, 1])

        self.dataset = self.pos_data + self.neg_data

    def balance_sampling(self):
        np.random.shuffle(self.pos_data)
        np.random.shuffle(self.neg_data)

        min_length = min(len(self.pos_data), len(self.neg_data))
        self.dataset = self.pos_data[:min_length] + self.neg_data[:min_length]

        return self.pos_data[min_length:], self.neg_data[min_length:]
    
    def add_data(self, pos_data, neg_data):
        print('[Before] {}, {}'.format(len(self.pos_data), len(self.neg_data)))

        self.pos_data += pos_data
        self.neg_data += neg_data

        print('[After] {}, {}'.format(len(self.pos_data), len(self.neg_data)))
        print()

    def __len__(self):
        return len(self.dataset)
    
    def __getitem__(self, index):
        first, second, fact, label = self.dataset[index]
        return first.astype(np.float32), second.astype(np.float32), fact.astype(np.float32), label

class Evaluator_For_Single_Label_Classification:
    def __init__(self, class_names):
        self.class_names = class_names
        self.num_classes = len(self.class_names)
        
        self.clear()

    def add(self, data):
        pred, gt_index = data

        pred_index = np.argmax(pred)

        correct = int(pred_index == gt_index)
        self.meter_dict['correct'][gt_index] += correct
        self.meter_dict['count'][gt_index] += 1

    def get(self, detail=False, clear=True):
        accuracies = self.meter_dict['correct'] / self.meter_dict['count'] * 100
        accuracy = np.mean(accuracies)

        if clear:
            self.clear()
        
        if detail:
            return accuracy, accuracies
        else:
            return accuracy
    
    def clear(self):
        self.meter_dict = {
            'correct': np.zeros(self.num_classes, dtype=np.float32),
            'count': np.zeros(self.num_classes, dtype=np.float32)
        }

class _Scheduler:
    def __init__(self, optimizer, max_iterations):
        self.optimizer = optimizer

        self.iteration = 1
        self.max_iterations = max_iterations

    def state_dict(self) -> dict:
        return {
            'iteration': self.iteration
        }
    
    def load_state_dict(self, state_dict: dict) -> None:
        self.iteration = state_dict['iteration']

    def get_learning_rate(self):
        return [group['lr'] for group in self.optimizer.param_groups]
    
    def set_learning_rate(self, lrs):
        if isinstance(lrs, float):
            lrs = [lrs for _ in range(len(self.optimizer.param_groups))]
        
        for lr, group in zip(lrs, self.optimizer.param_groups):
            group['lr'] = lr

class PolyLR(_Scheduler):
    def __init__(self, optimizer, max_iterations, power=0.9):
        super().__init__(optimizer, max_iterations)
        
        self.power = power
        self.init_lrs = self.get_learning_rate()
    
    def step(self):
        if self.iteration < self.max_iterations:
            lr_mult = (1 - self.iteration / self.max_iterations) ** self.power

            lrs = [lr * lr_mult for lr in self.init_lrs]
            self.set_learning_rate(lrs)

            self.iteration += 1

class SimilarityLoss(nn.Module):
    def __init__(self):
        super().__init__()

    def forward(self, cos_dists, targets):
        pos_indices = torch.sum(targets, dim=1) > 0
        neg_indices = torch.sum(targets, dim=1) == 0

        if torch.sum(pos_indices).item() > 0:
            pos_dists = cos_dists[pos_indices]
            pos_loss = -torch.log(pos_dists + 1e-5).mean()
        else:
            pos_loss = torch.zeros(1, dtype=torch.float32).cuda()

        if torch.sum(neg_indices).item() > 0:
            neg_dists = cos_dists[neg_indices]
            neg_loss = -torch.log(1. - neg_dists + 1e-5).mean()
        else:
            neg_loss = torch.zeros(1, dtype=torch.float32).cuda()

        return pos_loss, neg_loss

In [2]:
if __name__ == '__main__':

    model_name = 'KoBERT'

    np.random.seed(0)

    train_dataset = Dataset(f'./embeddings/trainval_{model_name}.pkl', 'train')
    valid_dataset = Dataset(f'./embeddings/trainval_{model_name}.pkl', 'validation')

    train_loader = DataLoader(train_dataset, batch_size=1024, shuffle=True, num_workers=0, drop_last=True) # num_workers=16
    valid_loader = DataLoader(valid_dataset, batch_size=64, shuffle=False, num_workers=0, drop_last=False)
    
    model = networks.CosClassifier(768) 
    model.cuda()
    model.train()

    iteration = 0
    log_iterations = 10
    val_iterations = 50
    max_iterations = 2000

    max_epochs = max_iterations // len(train_loader)

    optimizer = AdamW(model.parameters(), lr=1e-3, weight_decay=1e-2)
    scheduler = PolyLR(optimizer, max_iterations)
    
    loss_fn = nn.CrossEntropyLoss().cuda()

    train_losses = []
    pbar = tqdm.tqdm(total=max_iterations)

    best_val_th, best_val_acc, best_val_name = 0, 0, None
    evaluator = Evaluator_For_Single_Label_Classification(['first', 'second'])

    pth_dir = f'./weights/'
    if not os.path.isdir(pth_dir): os.makedirs(pth_dir)

    for epoch in range(1, max_epochs+1):
        train_dataset.balance_sampling()
        
        for first_embs, second_embs, fact_embs, labels in train_loader:
            first_embs = first_embs.cuda()
            second_embs = second_embs.cuda()
            fact_embs = fact_embs.cuda()
            labels = labels.cuda()
            
            logits = model(first_embs, second_embs, fact_embs)

            loss = loss_fn(logits, labels)

            train_losses.append(loss.item())

            optimizer.zero_grad()
            loss.backward()
            optimizer.step()
            scheduler.step()

            pbar.update(1)
            iteration += 1

            if iteration % log_iterations == 0:
                train_loss = np.mean(train_losses)
                print(f'Iter: {iteration:05d}, Loss: {train_loss:.04f}')
                train_losses = []

            if iteration % val_iterations == 0:
                model.eval()

                with torch.no_grad():
                    for first_embs, second_embs, fact_embs, labels in valid_loader:
                        first_embs = first_embs.cuda()
                        second_embs = second_embs.cuda()
                        fact_embs = fact_embs.cuda()
                        labels = labels.cuda()

                        probs = model(first_embs, second_embs, fact_embs)
                        probs = probs.cpu().detach().numpy()
                        
                        for prob, label in zip(probs, labels):
                            evaluator.add([prob, label.item()])

                    val_acc = evaluator.get(clear=True)
                    
                if best_val_acc < val_acc:
                    best_val_th = 0.
                    best_val_acc = val_acc

                    if best_val_name is not None:
                        os.remove(pth_dir + best_val_name)

                    best_val_name = f'{model_name}_val_I={iteration:05d}_T={best_val_th:.02f}_Acc={best_val_acc:.02f}.pth'
                    torch.save(model.state_dict(), pth_dir + best_val_name)

                    print(f'Iter: {iteration:05d}, [Validation, Best] T: {best_val_th:.02f}, Acc: {best_val_acc:.02f}, Length: {len(valid_dataset)}')
                
                print(f'Iter: {iteration:05d}, [Validation] T: {0.:.02f}, Acc: {val_acc:.02f}, Length: {len(valid_dataset)}')
                
                model.train()
    
    pbar.close()

  1%|▊                                                                                            | 18/2000 [00:00<00:46, 42.82it/s]

Iter: 00010, Loss: 0.6914
Iter: 00020, Loss: 0.6856


  2%|█▋                                                                                           | 35/2000 [00:00<00:40, 48.75it/s]

Iter: 00030, Loss: 0.6796
Iter: 00040, Loss: 0.6727


  2%|██▏                                                                                          | 47/2000 [00:01<00:38, 50.93it/s]

Iter: 00050, Loss: 0.6617
Iter: 00050, [Validation, Best] T: 0.00, Acc: 22.04, Length: 2758
Iter: 00050, [Validation] T: 0.00, Acc: 22.04, Length: 2758


  3%|███                                                                                          | 65/2000 [00:01<00:47, 40.43it/s]

Iter: 00060, Loss: 0.6516
Iter: 00070, Loss: 0.6432


  4%|████▏                                                                                        | 89/2000 [00:02<00:38, 49.27it/s]

Iter: 00080, Loss: 0.6349
Iter: 00090, Loss: 0.6276


  5%|████▍                                                                                        | 95/2000 [00:02<00:38, 49.92it/s]

Iter: 00100, Loss: 0.6203


  5%|████▉                                                                                       | 107/2000 [00:02<00:51, 36.60it/s]

Iter: 00100, [Validation, Best] T: 0.00, Acc: 35.39, Length: 2758
Iter: 00100, [Validation] T: 0.00, Acc: 35.39, Length: 2758


  6%|█████▍                                                                                      | 117/2000 [00:02<00:50, 37.62it/s]

Iter: 00110, Loss: 0.6120
Iter: 00120, Loss: 0.6053


  7%|██████▏                                                                                     | 135/2000 [00:03<00:39, 46.71it/s]

Iter: 00130, Loss: 0.5991
Iter: 00140, Loss: 0.5912


  7%|██████▊                                                                                     | 147/2000 [00:03<00:37, 49.55it/s]

Iter: 00150, Loss: 0.5859


  8%|███████▎                                                                                    | 159/2000 [00:03<00:50, 36.80it/s]

Iter: 00150, [Validation, Best] T: 0.00, Acc: 78.75, Length: 2758
Iter: 00150, [Validation] T: 0.00, Acc: 78.75, Length: 2758
Iter: 00160, Loss: 0.5787


  9%|████████                                                                                    | 176/2000 [00:04<00:40, 45.20it/s]

Iter: 00170, Loss: 0.5717
Iter: 00180, Loss: 0.5655


 10%|████████▉                                                                                   | 194/2000 [00:04<00:36, 49.97it/s]

Iter: 00190, Loss: 0.5599


 10%|█████████▏                                                                                  | 200/2000 [00:04<00:35, 51.06it/s]

Iter: 00200, Loss: 0.5537


 10%|█████████▍                                                                                  | 206/2000 [00:05<00:52, 33.92it/s]

Iter: 00200, [Validation] T: 0.00, Acc: 45.76, Length: 2758
Iter: 00210, Loss: 0.5468


 11%|██████████▎                                                                                 | 224/2000 [00:05<00:40, 44.40it/s]

Iter: 00220, Loss: 0.5409


 12%|██████████▊                                                                                 | 236/2000 [00:05<00:36, 48.55it/s]

Iter: 00230, Loss: 0.5352
Iter: 00240, Loss: 0.5297


 12%|███████████▍                                                                                | 248/2000 [00:05<00:34, 50.93it/s]

Iter: 00250, Loss: 0.5235


 13%|███████████▋                                                                                | 254/2000 [00:06<00:51, 33.58it/s]

Iter: 00250, [Validation, Best] T: 0.00, Acc: 78.83, Length: 2758
Iter: 00250, [Validation] T: 0.00, Acc: 78.83, Length: 2758


 13%|████████████▏                                                                               | 266/2000 [00:06<00:42, 41.25it/s]

Iter: 00260, Loss: 0.5169
Iter: 00270, Loss: 0.5105


 14%|█████████████                                                                               | 284/2000 [00:06<00:36, 46.55it/s]

Iter: 00280, Loss: 0.5063


 15%|█████████████▌                                                                              | 296/2000 [00:06<00:34, 48.75it/s]

Iter: 00290, Loss: 0.4986
Iter: 00300, Loss: 0.4923


 15%|██████████████▏                                                                             | 308/2000 [00:07<00:46, 36.04it/s]

Iter: 00300, [Validation, Best] T: 0.00, Acc: 82.52, Length: 2758
Iter: 00300, [Validation] T: 0.00, Acc: 82.52, Length: 2758


 16%|██████████████▍                                                                             | 313/2000 [00:07<00:45, 36.90it/s]

Iter: 00310, Loss: 0.4868


 16%|██████████████▉                                                                             | 324/2000 [00:07<00:39, 42.63it/s]

Iter: 00320, Loss: 0.4809


 17%|███████████████▍                                                                            | 336/2000 [00:07<00:35, 47.24it/s]

Iter: 00330, Loss: 0.4773
Iter: 00340, Loss: 0.4695


 17%|████████████████                                                                            | 348/2000 [00:08<00:33, 49.14it/s]

Iter: 00350, Loss: 0.4676


 18%|████████████████▎                                                                           | 354/2000 [00:08<00:51, 32.23it/s]

Iter: 00350, [Validation] T: 0.00, Acc: 79.41, Length: 2758


 18%|████████████████▊                                                                           | 365/2000 [00:08<00:41, 39.10it/s]

Iter: 00360, Loss: 0.4615


 19%|█████████████████▎                                                                          | 376/2000 [00:08<00:36, 44.49it/s]

Iter: 00370, Loss: 0.4561
Iter: 00380, Loss: 0.4502


 20%|██████████████████                                                                          | 394/2000 [00:09<00:32, 49.38it/s]

Iter: 00390, Loss: 0.4475


 20%|██████████████████▍                                                                         | 400/2000 [00:09<00:36, 44.33it/s]

Iter: 00400, Loss: 0.4393
Iter: 00400, [Validation] T: 0.00, Acc: 55.55, Length: 2758


 21%|███████████████████                                                                         | 415/2000 [00:10<00:42, 37.14it/s]

Iter: 00410, Loss: 0.4359


 21%|███████████████████▋                                                                        | 427/2000 [00:10<00:35, 43.88it/s]

Iter: 00420, Loss: 0.4296
Iter: 00430, Loss: 0.4266


 22%|████████████████████▍                                                                       | 445/2000 [00:10<00:31, 49.26it/s]

Iter: 00440, Loss: 0.4221
Iter: 00450, Loss: 0.4161
Iter: 00450, [Validation] T: 0.00, Acc: 42.35, Length: 2758


 23%|█████████████████████▌                                                                      | 469/2000 [00:11<00:35, 43.39it/s]

Iter: 00460, Loss: 0.4138
Iter: 00470, Loss: 0.4062


 24%|██████████████████████▎                                                                     | 486/2000 [00:11<00:31, 48.60it/s]

Iter: 00480, Loss: 0.4025
Iter: 00490, Loss: 0.4011


 25%|██████████████████████▉                                                                     | 498/2000 [00:11<00:29, 50.19it/s]

Iter: 00500, Loss: 0.3952


 25%|███████████████████████▏                                                                    | 504/2000 [00:12<00:45, 32.55it/s]

Iter: 00500, [Validation] T: 0.00, Acc: 79.99, Length: 2758


 26%|███████████████████████▉                                                                    | 520/2000 [00:12<00:35, 41.44it/s]

Iter: 00510, Loss: 0.3919


 26%|████████████████████████▏                                                                   | 525/2000 [00:12<00:33, 43.48it/s]

Iter: 00520, Loss: 0.3853


 27%|████████████████████████▋                                                                   | 536/2000 [00:12<00:32, 45.66it/s]

Iter: 00530, Loss: 0.3806
Iter: 00540, Loss: 0.3801


 27%|█████████████████████████▏                                                                  | 547/2000 [00:13<00:30, 47.99it/s]

Iter: 00550, Loss: 0.3770


 28%|█████████████████████████▋                                                                  | 558/2000 [00:13<00:40, 35.80it/s]

Iter: 00550, [Validation, Best] T: 0.00, Acc: 82.96, Length: 2758
Iter: 00550, [Validation] T: 0.00, Acc: 82.96, Length: 2758
Iter: 00560, Loss: 0.3739


 29%|██████████████████████████▍                                                                 | 576/2000 [00:13<00:31, 45.72it/s]

Iter: 00570, Loss: 0.3696
Iter: 00580, Loss: 0.3668


 30%|███████████████████████████▎                                                                | 594/2000 [00:14<00:28, 50.15it/s]

Iter: 00590, Loss: 0.3618


 30%|███████████████████████████▌                                                                | 600/2000 [00:14<00:27, 51.07it/s]

Iter: 00600, Loss: 0.3568


 30%|███████████████████████████▉                                                                | 606/2000 [00:14<00:42, 33.02it/s]

Iter: 00600, [Validation, Best] T: 0.00, Acc: 84.12, Length: 2758
Iter: 00600, [Validation] T: 0.00, Acc: 84.12, Length: 2758
Iter: 00610, Loss: 0.3505


 31%|████████████████████████████▉                                                               | 628/2000 [00:15<00:31, 44.07it/s]

Iter: 00620, Loss: 0.3485
Iter: 00630, Loss: 0.3436


 32%|█████████████████████████████▋                                                              | 645/2000 [00:15<00:27, 48.73it/s]

Iter: 00640, Loss: 0.3428
Iter: 00650, Loss: 0.3381
Iter: 00650, [Validation] T: 0.00, Acc: 66.21, Length: 2758


 33%|██████████████████████████████▍                                                             | 663/2000 [00:15<00:33, 40.45it/s]

Iter: 00660, Loss: 0.3356


 34%|███████████████████████████████                                                             | 675/2000 [00:16<00:31, 41.77it/s]

Iter: 00670, Loss: 0.3332


 34%|███████████████████████████████▌                                                            | 686/2000 [00:16<00:28, 46.13it/s]

Iter: 00680, Loss: 0.3276
Iter: 00690, Loss: 0.3259


 35%|████████████████████████████████                                                            | 698/2000 [00:16<00:26, 48.98it/s]

Iter: 00700, Loss: 0.3217


 35%|████████████████████████████████▍                                                           | 704/2000 [00:16<00:39, 32.67it/s]

Iter: 00700, [Validation] T: 0.00, Acc: 78.61, Length: 2758


 36%|████████████████████████████████▉                                                           | 716/2000 [00:17<00:31, 40.71it/s]

Iter: 00710, Loss: 0.3199
Iter: 00720, Loss: 0.3170


 37%|█████████████████████████████████▊                                                          | 734/2000 [00:17<00:26, 47.90it/s]

Iter: 00730, Loss: 0.3164


 37%|██████████████████████████████████▎                                                         | 746/2000 [00:17<00:25, 49.26it/s]

Iter: 00740, Loss: 0.3130
Iter: 00750, Loss: 0.3113


 38%|██████████████████████████████████▊                                                         | 757/2000 [00:18<00:35, 34.93it/s]

Iter: 00750, [Validation, Best] T: 0.00, Acc: 86.22, Length: 2758
Iter: 00750, [Validation] T: 0.00, Acc: 86.22, Length: 2758
Iter: 00760, Loss: 0.3108


 39%|███████████████████████████████████▊                                                        | 779/2000 [00:18<00:26, 46.29it/s]

Iter: 00770, Loss: 0.3063
Iter: 00780, Loss: 0.3050


 40%|████████████████████████████████████▋                                                       | 797/2000 [00:18<00:23, 50.48it/s]

Iter: 00790, Loss: 0.3004
Iter: 00800, Loss: 0.2974


 40%|█████████████████████████████████████▏                                                      | 809/2000 [00:19<00:32, 36.78it/s]

Iter: 00800, [Validation] T: 0.00, Acc: 78.75, Length: 2758
Iter: 00810, Loss: 0.2923


 41%|██████████████████████████████████████                                                      | 827/2000 [00:19<00:25, 45.22it/s]

Iter: 00820, Loss: 0.2917
Iter: 00830, Loss: 0.2934


 42%|██████████████████████████████████████▊                                                     | 845/2000 [00:20<00:23, 49.07it/s]

Iter: 00840, Loss: 0.2890
Iter: 00850, Loss: 0.2846


 43%|███████████████████████████████████████▍                                                    | 857/2000 [00:20<00:31, 36.70it/s]

Iter: 00850, [Validation] T: 0.00, Acc: 81.29, Length: 2758
Iter: 00860, Loss: 0.2853


 44%|████████████████████████████████████████▎                                                   | 875/2000 [00:20<00:24, 45.27it/s]

Iter: 00870, Loss: 0.2830
Iter: 00880, Loss: 0.2772


 45%|█████████████████████████████████████████▎                                                  | 899/2000 [00:21<00:22, 49.94it/s]

Iter: 00890, Loss: 0.2777
Iter: 00900, Loss: 0.2735


 45%|█████████████████████████████████████████▋                                                  | 905/2000 [00:21<00:33, 33.12it/s]

Iter: 00900, [Validation] T: 0.00, Acc: 81.15, Length: 2758
Iter: 00910, Loss: 0.2705


 46%|██████████████████████████████████████████▋                                                 | 929/2000 [00:22<00:23, 46.31it/s]

Iter: 00920, Loss: 0.2695
Iter: 00930, Loss: 0.2670


 47%|███████████████████████████████████████████▎                                                | 941/2000 [00:22<00:21, 48.44it/s]

Iter: 00940, Loss: 0.2640


 47%|███████████████████████████████████████████▌                                                | 947/2000 [00:22<00:24, 43.57it/s]

Iter: 00950, Loss: 0.2619


 48%|████████████████████████████████████████████                                                | 958/2000 [00:23<00:29, 34.92it/s]

Iter: 00950, [Validation] T: 0.00, Acc: 84.19, Length: 2758
Iter: 00960, Loss: 0.2630


 49%|████████████████████████████████████████████▉                                               | 978/2000 [00:23<00:23, 44.03it/s]

Iter: 00970, Loss: 0.2595
Iter: 00980, Loss: 0.2599


 50%|█████████████████████████████████████████████▊                                              | 996/2000 [00:23<00:20, 49.41it/s]

Iter: 00990, Loss: 0.2579
Iter: 01000, Loss: 0.2547


 50%|█████████████████████████████████████████████▊                                             | 1008/2000 [00:24<00:26, 36.82it/s]

Iter: 01000, [Validation] T: 0.00, Acc: 79.19, Length: 2758
Iter: 01010, Loss: 0.2535


 51%|██████████████████████████████████████████████▋                                            | 1026/2000 [00:24<00:21, 45.40it/s]

Iter: 01020, Loss: 0.2534
Iter: 01030, Loss: 0.2517


 52%|███████████████████████████████████████████████▌                                           | 1044/2000 [00:24<00:19, 49.95it/s]

Iter: 01040, Loss: 0.2474


 52%|███████████████████████████████████████████████▊                                           | 1050/2000 [00:25<00:18, 50.92it/s]

Iter: 01050, Loss: 0.2476
Iter: 01050, [Validation] T: 0.00, Acc: 79.19, Length: 2758


 53%|████████████████████████████████████████████████▌                                          | 1068/2000 [00:25<00:22, 40.60it/s]

Iter: 01060, Loss: 0.2480
Iter: 01070, Loss: 0.2447


 54%|█████████████████████████████████████████████████▎                                         | 1085/2000 [00:25<00:19, 47.15it/s]

Iter: 01080, Loss: 0.2424
Iter: 01090, Loss: 0.2438


 55%|█████████████████████████████████████████████████▉                                         | 1097/2000 [00:26<00:18, 49.97it/s]

Iter: 01100, Loss: 0.2443


 55%|██████████████████████████████████████████████████▏                                        | 1103/2000 [00:26<00:27, 33.03it/s]

Iter: 01100, [Validation] T: 0.00, Acc: 75.56, Length: 2758


 56%|██████████████████████████████████████████████████▋                                        | 1115/2000 [00:26<00:21, 40.23it/s]

Iter: 01110, Loss: 0.2420


 56%|███████████████████████████████████████████████████▏                                       | 1126/2000 [00:26<00:19, 43.91it/s]

Iter: 01120, Loss: 0.2388


 57%|███████████████████████████████████████████████████▋                                       | 1137/2000 [00:27<00:18, 47.16it/s]

Iter: 01130, Loss: 0.2366
Iter: 01140, Loss: 0.2336


 57%|████████████████████████████████████████████████████▏                                      | 1148/2000 [00:27<00:17, 48.75it/s]

Iter: 01150, Loss: 0.2341


 58%|████████████████████████████████████████████████████▍                                      | 1153/2000 [00:27<00:27, 30.51it/s]

Iter: 01150, [Validation, Best] T: 0.00, Acc: 87.67, Length: 2758
Iter: 01150, [Validation] T: 0.00, Acc: 87.67, Length: 2758


 58%|█████████████████████████████████████████████████████▏                                     | 1169/2000 [00:27<00:20, 41.09it/s]

Iter: 01160, Loss: 0.2338
Iter: 01170, Loss: 0.2302


 59%|█████████████████████████████████████████████████████▉                                     | 1186/2000 [00:28<00:16, 48.06it/s]

Iter: 01180, Loss: 0.2296
Iter: 01190, Loss: 0.2296


 60%|██████████████████████████████████████████████████████▌                                    | 1198/2000 [00:28<00:15, 50.34it/s]

Iter: 01200, Loss: 0.2258


 60%|██████████████████████████████████████████████████████▊                                    | 1204/2000 [00:28<00:24, 32.49it/s]

Iter: 01200, [Validation] T: 0.00, Acc: 86.22, Length: 2758


 61%|███████████████████████████████████████████████████████▎                                   | 1215/2000 [00:29<00:22, 35.52it/s]

Iter: 01210, Loss: 0.2237


 61%|███████████████████████████████████████████████████████▊                                   | 1227/2000 [00:29<00:18, 42.85it/s]

Iter: 01220, Loss: 0.2231
Iter: 01230, Loss: 0.2221


 62%|████████████████████████████████████████████████████████▊                                  | 1249/2000 [00:29<00:15, 48.44it/s]

Iter: 01240, Loss: 0.2220
Iter: 01250, Loss: 0.2214


 63%|█████████████████████████████████████████████████████████                                  | 1254/2000 [00:30<00:23, 31.13it/s]

Iter: 01250, [Validation] T: 0.00, Acc: 86.95, Length: 2758


 63%|█████████████████████████████████████████████████████████▌                                 | 1265/2000 [00:30<00:18, 38.88it/s]

Iter: 01260, Loss: 0.2214


 64%|██████████████████████████████████████████████████████████                                 | 1276/2000 [00:30<00:16, 43.69it/s]

Iter: 01270, Loss: 0.2216
Iter: 01280, Loss: 0.2194


 65%|███████████████████████████████████████████████████████████                                | 1299/2000 [00:31<00:14, 48.84it/s]

Iter: 01290, Loss: 0.2166
Iter: 01300, Loss: 0.2151


 65%|███████████████████████████████████████████████████████████▎                               | 1304/2000 [00:31<00:21, 32.07it/s]

Iter: 01300, [Validation] T: 0.00, Acc: 81.00, Length: 2758


 66%|███████████████████████████████████████████████████████████▉                               | 1316/2000 [00:31<00:17, 40.23it/s]

Iter: 01310, Loss: 0.2146
Iter: 01320, Loss: 0.2134


 67%|████████████████████████████████████████████████████████████▉                              | 1339/2000 [00:31<00:13, 48.01it/s]

Iter: 01330, Loss: 0.2144
Iter: 01340, Loss: 0.2130


 68%|█████████████████████████████████████████████████████████████▍                             | 1350/2000 [00:32<00:13, 49.29it/s]

Iter: 01350, Loss: 0.2119
Iter: 01350, [Validation] T: 0.00, Acc: 81.65, Length: 2758


 68%|██████████████████████████████████████████████████████████████▏                            | 1368/2000 [00:32<00:15, 40.13it/s]

Iter: 01360, Loss: 0.2126
Iter: 01370, Loss: 0.2107


 69%|███████████████████████████████████████████████████████████████                            | 1386/2000 [00:33<00:12, 47.30it/s]

Iter: 01380, Loss: 0.2106
Iter: 01390, Loss: 0.2083


 70%|███████████████████████████████████████████████████████████████▌                           | 1398/2000 [00:33<00:12, 48.78it/s]

Iter: 01400, Loss: 0.2069


 70%|███████████████████████████████████████████████████████████████▉                           | 1404/2000 [00:33<00:18, 31.92it/s]

Iter: 01400, [Validation, Best] T: 0.00, Acc: 89.05, Length: 2758
Iter: 01400, [Validation] T: 0.00, Acc: 89.05, Length: 2758


 71%|████████████████████████████████████████████████████████████████▍                          | 1415/2000 [00:33<00:15, 38.07it/s]

Iter: 01410, Loss: 0.2068


 71%|████████████████████████████████████████████████████████████████▉                          | 1426/2000 [00:34<00:13, 42.92it/s]

Iter: 01420, Loss: 0.2058


 72%|█████████████████████████████████████████████████████████████████▍                         | 1438/2000 [00:34<00:11, 47.06it/s]

Iter: 01430, Loss: 0.2054
Iter: 01440, Loss: 0.2039


 72%|█████████████████████████████████████████████████████████████████▉                         | 1449/2000 [00:34<00:11, 49.06it/s]

Iter: 01450, Loss: 0.2019


 73%|██████████████████████████████████████████████████████████████████▏                        | 1455/2000 [00:34<00:16, 32.24it/s]

Iter: 01450, [Validation] T: 0.00, Acc: 87.31, Length: 2758
Iter: 01460, Loss: 0.2016


 74%|███████████████████████████████████████████████████████████████████▏                       | 1478/2000 [00:35<00:11, 44.88it/s]

Iter: 01470, Loss: 0.2021
Iter: 01480, Loss: 0.2003


 75%|████████████████████████████████████████████████████████████████████                       | 1496/2000 [00:35<00:10, 49.54it/s]

Iter: 01490, Loss: 0.2004
Iter: 01500, Loss: 0.2005


 75%|████████████████████████████████████████████████████████████████████▎                      | 1502/2000 [00:36<00:16, 29.83it/s]

Iter: 01500, [Validation] T: 0.00, Acc: 81.29, Length: 2758


 76%|████████████████████████████████████████████████████████████████████▉                      | 1514/2000 [00:36<00:12, 37.98it/s]

Iter: 01510, Loss: 0.2001


 76%|█████████████████████████████████████████████████████████████████████▍                     | 1526/2000 [00:36<00:10, 44.20it/s]

Iter: 01520, Loss: 0.1987
Iter: 01530, Loss: 0.1967


 77%|██████████████████████████████████████████████████████████████████████▎                    | 1544/2000 [00:36<00:09, 48.03it/s]

Iter: 01540, Loss: 0.1978


 78%|██████████████████████████████████████████████████████████████████████▌                    | 1550/2000 [00:37<00:09, 49.02it/s]

Iter: 01550, Loss: 0.1969


 78%|██████████████████████████████████████████████████████████████████████▊                    | 1556/2000 [00:37<00:14, 31.56it/s]

Iter: 01550, [Validation] T: 0.00, Acc: 77.08, Length: 2758


 78%|███████████████████████████████████████████████████████████████████████▎                   | 1566/2000 [00:37<00:11, 37.07it/s]

Iter: 01560, Loss: 0.1971
Iter: 01570, Loss: 0.1954


 79%|████████████████████████████████████████████████████████████████████████▎                  | 1588/2000 [00:38<00:08, 46.62it/s]

Iter: 01580, Loss: 0.1963
Iter: 01590, Loss: 0.1946


 80%|████████████████████████████████████████████████████████████████████████▊                  | 1600/2000 [00:38<00:08, 48.66it/s]

Iter: 01600, Loss: 0.1940


 80%|█████████████████████████████████████████████████████████████████████████                  | 1605/2000 [00:38<00:12, 31.25it/s]

Iter: 01600, [Validation] T: 0.00, Acc: 87.09, Length: 2758
Iter: 01610, Loss: 0.1936


 81%|██████████████████████████████████████████████████████████████████████████                 | 1629/2000 [00:39<00:08, 45.28it/s]

Iter: 01620, Loss: 0.1916
Iter: 01630, Loss: 0.1919


 82%|██████████████████████████████████████████████████████████████████████████▉                | 1646/2000 [00:39<00:07, 48.53it/s]

Iter: 01640, Loss: 0.1930
Iter: 01650, Loss: 0.1921


 83%|███████████████████████████████████████████████████████████████████████████▍               | 1657/2000 [00:39<00:09, 35.96it/s]

Iter: 01650, [Validation] T: 0.00, Acc: 84.48, Length: 2758
Iter: 01660, Loss: 0.1907


 84%|████████████████████████████████████████████████████████████████████████████▏              | 1675/2000 [00:40<00:07, 44.89it/s]

Iter: 01670, Loss: 0.1885
Iter: 01680, Loss: 0.1903


 85%|█████████████████████████████████████████████████████████████████████████████▎             | 1699/2000 [00:40<00:06, 49.75it/s]

Iter: 01690, Loss: 0.1902
Iter: 01700, Loss: 0.1895


 85%|█████████████████████████████████████████████████████████████████████████████▌             | 1705/2000 [00:40<00:08, 32.97it/s]

Iter: 01700, [Validation] T: 0.00, Acc: 79.84, Length: 2758
Iter: 01710, Loss: 0.1894


 86%|██████████████████████████████████████████████████████████████████████████████▌            | 1727/2000 [00:41<00:06, 44.40it/s]

Iter: 01720, Loss: 0.1876
Iter: 01730, Loss: 0.1878


 87%|███████████████████████████████████████████████████████████████████████████████▌           | 1749/2000 [00:41<00:05, 48.85it/s]

Iter: 01740, Loss: 0.1866
Iter: 01750, Loss: 0.1865


 88%|███████████████████████████████████████████████████████████████████████████████▊           | 1754/2000 [00:42<00:08, 30.71it/s]

Iter: 01750, [Validation, Best] T: 0.00, Acc: 89.92, Length: 2758
Iter: 01750, [Validation] T: 0.00, Acc: 89.92, Length: 2758


 88%|████████████████████████████████████████████████████████████████████████████████▎          | 1765/2000 [00:42<00:06, 38.41it/s]

Iter: 01760, Loss: 0.1863


 89%|████████████████████████████████████████████████████████████████████████████████▊          | 1775/2000 [00:42<00:06, 37.38it/s]

Iter: 01770, Loss: 0.1853


 89%|█████████████████████████████████████████████████████████████████████████████████▎         | 1786/2000 [00:42<00:04, 43.35it/s]

Iter: 01780, Loss: 0.1854
Iter: 01790, Loss: 0.1857


 90%|█████████████████████████████████████████████████████████████████████████████████▊         | 1798/2000 [00:43<00:04, 47.78it/s]

Iter: 01800, Loss: 0.1861


 90%|██████████████████████████████████████████████████████████████████████████████████▎        | 1809/2000 [00:43<00:05, 35.24it/s]

Iter: 01800, [Validation] T: 0.00, Acc: 87.31, Length: 2758
Iter: 01810, Loss: 0.1853


 91%|███████████████████████████████████████████████████████████████████████████████████        | 1826/2000 [00:43<00:03, 44.50it/s]

Iter: 01820, Loss: 0.1843
Iter: 01830, Loss: 0.1845


 92%|███████████████████████████████████████████████████████████████████████████████████▉       | 1844/2000 [00:44<00:03, 48.83it/s]

Iter: 01840, Loss: 0.1838


 92%|████████████████████████████████████████████████████████████████████████████████████▏      | 1850/2000 [00:44<00:02, 50.36it/s]

Iter: 01850, Loss: 0.1839


 93%|████████████████████████████████████████████████████████████████████████████████████▍      | 1856/2000 [00:44<00:04, 32.04it/s]

Iter: 01850, [Validation, Best] T: 0.00, Acc: 90.72, Length: 2758
Iter: 01850, [Validation] T: 0.00, Acc: 90.72, Length: 2758
Iter: 01860, Loss: 0.1827


 94%|█████████████████████████████████████████████████████████████████████████████████████▍     | 1877/2000 [00:45<00:02, 43.23it/s]

Iter: 01870, Loss: 0.1834
Iter: 01880, Loss: 0.1827


 95%|██████████████████████████████████████████████████████████████████████████████████████▏    | 1894/2000 [00:45<00:02, 47.79it/s]

Iter: 01890, Loss: 0.1826


 95%|██████████████████████████████████████████████████████████████████████████████████████▍    | 1900/2000 [00:45<00:02, 49.16it/s]

Iter: 01900, Loss: 0.1819
Iter: 01900, [Validation, Best] T: 0.00, Acc: 91.59, Length: 2758
Iter: 01900, [Validation] T: 0.00, Acc: 91.59, Length: 2758


 96%|███████████████████████████████████████████████████████████████████████████████████████▎   | 1918/2000 [00:46<00:02, 39.79it/s]

Iter: 01910, Loss: 0.1834
Iter: 01920, Loss: 0.1811


 97%|████████████████████████████████████████████████████████████████████████████████████████   | 1935/2000 [00:46<00:01, 47.09it/s]

Iter: 01930, Loss: 0.1821


 97%|████████████████████████████████████████████████████████████████████████████████████████▌  | 1947/2000 [00:46<00:01, 49.51it/s]

Iter: 01940, Loss: 0.1810
Iter: 01950, Loss: 0.1834


 98%|█████████████████████████████████████████████████████████████████████████████████████████▏ | 1959/2000 [00:47<00:01, 37.51it/s]

Iter: 01950, [Validation] T: 0.00, Acc: 90.57, Length: 2758
Iter: 01960, Loss: 0.1814


 99%|█████████████████████████████████████████████████████████████████████████████████████████▉ | 1977/2000 [00:47<00:00, 46.29it/s]

Iter: 01970, Loss: 0.1808
Iter: 01980, Loss: 0.1821


100%|██████████████████████████████████████████████████████████████████████████████████████████▊| 1995/2000 [00:47<00:00, 50.18it/s]

Iter: 01990, Loss: 0.1813
Iter: 02000, Loss: 0.1812


100%|███████████████████████████████████████████████████████████████████████████████████████████| 2000/2000 [00:48<00:00, 41.60it/s]

Iter: 02000, [Validation] T: 0.00, Acc: 90.86, Length: 2758





# Learning