In [1]:
import time
import torch
import json
import random
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
import torchvision
import torchvision.transforms as transforms
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns
import math

from tqdm import tqdm
from PIL import Image
from sklearn import metrics
from sklearn.preprocessing import StandardScaler
from sklearn.manifold import TSNE
from sklearn.metrics import pairwise_distances_argmin_min
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix, classification_report
from sklearn.model_selection import train_test_split, StratifiedKFold
from torch.utils.data import Subset, Dataset, DataLoader
from torchvision.models.resnet import ResNet, BasicBlock, Bottleneck, ResNet18_Weights, ResNet34_Weights, resnet18
from torchvision.datasets import ImageFolder
from utils.loss_functions import tkd_kdloss

from models_package.models import Teacher, Student
import models_package
from utils.compare_tools import compare_model_size, compare_inference_time, compare_performance_metrics, plot_comparison
from utils.misc_tools import best_LR, best_LR_wider, train_teacher, train_teacher_wider, retrieve_teacher_class_weights, new_teacher_class_weights

In [2]:
# Hyperparameters
learning_rate = 0.001379 # 0.096779
num_epochs = 2 # 200
temperature = 4.0
alpha = 0.9
momentum = 0.9
num_classes = 30
step_size = 30
gamma = 0.1
patience = 7  # for early stopping
lmda = 3
batch_size = 32
num_workers = 4

class_labels = [0, 1, 3, 4, 6, 7, 11, 15, 17, 18, 19, 20, 22, 25, 27, 28, 30, 31, 33, 35, 36, 37, 39, 43, 44, 50, 51, 54, 57, 58]
class_labels_new = torch.tensor([i for i in range(len(class_labels))])



In [3]:
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')


In [4]:
len(class_labels)

30

## Test dataloader from utils

In [5]:
from data.data_loader import load_wider

train_file = ['data/wider/trainval_wider.json']
test_file = ['data/wider/test_wider.json']

class_labels = [0, 1, 3, 4, 6, 7, 11, 15, 17, 18, 19, 20, 22, 25, 27, 28, 30, 31, 33, 35, 36, 37, 39, 43, 44, 50, 51, 54, 57, 58]

trainloader, testloader  = load_wider(train_file, test_file, class_labels, batch_size, num_workers)



Compose(
    RandAugment(num_ops=2, magnitude=9, num_magnitude_bins=31, interpolation=InterpolationMode.NEAREST, fill=None)
    Resize(size=(226, 226), interpolation=bilinear, max_size=None, antialias=warn)
)
Compose(
    Resize(size=(226, 226), interpolation=bilinear, max_size=None, antialias=warn)
)


In [6]:
# from collections import Counter

# # Iterate through batches in the trainloader
# for batch_idx, batch in enumerate(trainloader):
#     # Only process the first 3 batches
#     if batch_idx >= 3:
#         break

#     # Extract labels for the current batch
#     batch_labels = batch['label']

#     # Convert batch_labels to a list if it's not already (e.g., if it's a tensor)
#     if not isinstance(batch_labels, list):
#         batch_labels = batch_labels.tolist()

#     # Count the frequency of each label in this batch
#     label_counts = Counter(batch_labels)

#     # Print the label counts for this batch
#     print(f"Batch {batch_idx + 1} class counts:")
#     for label in range(30):  # Assuming classes are labeled from 0 to 29
#         print(f"  Class {label}: {label_counts[label]} instances")
#     print("-" * 30)  # Just a separator for clarity

# Train Teacher

## Prep s3 bucket

In [7]:
# Calling the function
model_name = 'resnet32x4_wider'
model_weight_path = 'weights/wider_teacher_resnet32x4_weights.pth'
num_class = 30
data_name = 'wider'  
batch_size = 32  
bucket_name = '210bucket'  

## Load in models

### resnet32x4_wider

In [8]:
# Instantiate the models
teacher_name = 'resnet32x4_wider'
teacher_model = models_package.__dict__[teacher_name](num_class=30)
teacher_model.fc = nn.Linear(teacher_model.fc.in_features, 30)

### resnet8x4_wider

In [9]:
student_name = 'resnet8x4_wider'
student_model = models_package.__dict__[student_name](num_class=30)
student_model.fc = nn.Linear(teacher_model.fc.in_features, 30)

In [10]:
# Optimizer and scheduler for the student model
student_optimizer = optim.SGD(student_model.parameters(), lr=learning_rate, momentum=momentum)
student_scheduler = torch.optim.lr_scheduler.StepLR(student_optimizer, step_size=step_size, gamma=gamma)

# Optimizer and scheduler for the teacher model
teacher_optimizer = optim.SGD(teacher_model.parameters(), lr=learning_rate, momentum=momentum)
teacher_scheduler = torch.optim.lr_scheduler.StepLR(teacher_optimizer, step_size=step_size, gamma=gamma)

criterion = nn.CrossEntropyLoss()
# Assuming the device is a CUDA device if available
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

In [11]:
# teacher_lr = best_LR_wider('resnet32x4_lr_wider_test', teacher_model, trainloader, criterion, teacher_optimizer, teacher_scheduler, device, num_epochs=3)
# teacher_lr

In [12]:
# student_lr = best_LR_wider('resnet8x4_lr_wider_test', student_model, trainloader, criterion, student_optimizer, student_scheduler, device, num_epochs=3)
# teacher_lr

In [13]:
teacher_lr = 0.0005953788301881531
student_lr = 0.0005953788301881531

## Train Leaderboard Teacher Models

In [None]:
teacher_resnet32x4 = train_teacher_wider('resnet_32x4', teacher_model, trainloader, criterion, teacher_optimizer, teacher_scheduler, num_epochs=240, patience=5)


 31%|██████████████████████████▋                                                           | 100/323 [01:28<03:13,  1.15it/s]

[1, 100] loss: 6.326


 62%|█████████████████████████████████████████████████████▎                                | 200/323 [02:55<01:47,  1.15it/s]

[1, 200] loss: 3.349


 93%|███████████████████████████████████████████████████████████████████████████████▉      | 300/323 [04:22<00:20,  1.15it/s]

[1, 300] loss: 3.200


100%|██████████████████████████████████████████████████████████████████████████████████████| 323/323 [04:41<00:00,  1.15it/s]
 31%|██████████████████████████▋                                                           | 100/323 [01:27<03:14,  1.15it/s]

[2, 100] loss: 3.067


 62%|█████████████████████████████████████████████████████▎                                | 200/323 [02:54<01:47,  1.15it/s]

[2, 200] loss: 3.029


 93%|███████████████████████████████████████████████████████████████████████████████▉      | 300/323 [04:21<00:20,  1.15it/s]

[2, 300] loss: 2.955


100%|██████████████████████████████████████████████████████████████████████████████████████| 323/323 [04:41<00:00,  1.15it/s]
 31%|██████████████████████████▋                                                           | 100/323 [01:27<03:14,  1.15it/s]

[3, 100] loss: 2.917


 62%|█████████████████████████████████████████████████████▎                                | 200/323 [02:54<01:47,  1.15it/s]

[3, 200] loss: 2.842


 93%|███████████████████████████████████████████████████████████████████████████████▉      | 300/323 [04:21<00:20,  1.15it/s]

[3, 300] loss: 2.843


100%|██████████████████████████████████████████████████████████████████████████████████████| 323/323 [04:41<00:00,  1.15it/s]
 31%|██████████████████████████▋                                                           | 100/323 [01:27<03:14,  1.15it/s]

[4, 100] loss: 2.754


 62%|█████████████████████████████████████████████████████▎                                | 200/323 [02:54<01:47,  1.15it/s]

[4, 200] loss: 2.818


 93%|███████████████████████████████████████████████████████████████████████████████▉      | 300/323 [04:21<00:20,  1.15it/s]

[4, 300] loss: 2.770


100%|██████████████████████████████████████████████████████████████████████████████████████| 323/323 [04:41<00:00,  1.15it/s]
 31%|██████████████████████████▋                                                           | 100/323 [01:27<03:14,  1.15it/s]

[5, 100] loss: 2.743


 62%|█████████████████████████████████████████████████████▎                                | 200/323 [02:54<01:47,  1.15it/s]

[5, 200] loss: 2.724


 93%|███████████████████████████████████████████████████████████████████████████████▉      | 300/323 [04:21<00:20,  1.15it/s]

[5, 300] loss: 2.712


100%|██████████████████████████████████████████████████████████████████████████████████████| 323/323 [04:41<00:00,  1.15it/s]
 31%|██████████████████████████▋                                                           | 100/323 [01:27<03:14,  1.15it/s]

[6, 100] loss: 2.679


 62%|█████████████████████████████████████████████████████▎                                | 200/323 [02:54<01:47,  1.15it/s]

[6, 200] loss: 2.679


 93%|███████████████████████████████████████████████████████████████████████████████▉      | 300/323 [04:21<00:20,  1.15it/s]

[6, 300] loss: 2.694


100%|██████████████████████████████████████████████████████████████████████████████████████| 323/323 [04:41<00:00,  1.15it/s]
 31%|██████████████████████████▋                                                           | 100/323 [01:27<03:14,  1.15it/s]

[7, 100] loss: 2.642


 62%|█████████████████████████████████████████████████████▎                                | 200/323 [02:54<01:47,  1.15it/s]

[7, 200] loss: 2.624


 93%|███████████████████████████████████████████████████████████████████████████████▉      | 300/323 [04:21<00:20,  1.15it/s]

[7, 300] loss: 2.641


100%|██████████████████████████████████████████████████████████████████████████████████████| 323/323 [04:41<00:00,  1.15it/s]
 31%|██████████████████████████▋                                                           | 100/323 [01:27<03:14,  1.15it/s]

[8, 100] loss: 2.603


 62%|█████████████████████████████████████████████████████▎                                | 200/323 [02:54<01:47,  1.15it/s]

[8, 200] loss: 2.617


 93%|███████████████████████████████████████████████████████████████████████████████▉      | 300/323 [04:21<00:20,  1.15it/s]

[8, 300] loss: 2.587


100%|██████████████████████████████████████████████████████████████████████████████████████| 323/323 [04:41<00:00,  1.15it/s]
 31%|██████████████████████████▋                                                           | 100/323 [01:27<03:14,  1.15it/s]

[9, 100] loss: 2.584


 62%|█████████████████████████████████████████████████████▎                                | 200/323 [02:54<01:47,  1.15it/s]

[9, 200] loss: 2.542


 93%|███████████████████████████████████████████████████████████████████████████████▉      | 300/323 [04:21<00:20,  1.15it/s]

[9, 300] loss: 2.533


100%|██████████████████████████████████████████████████████████████████████████████████████| 323/323 [04:41<00:00,  1.15it/s]
 31%|██████████████████████████▋                                                           | 100/323 [01:27<03:14,  1.15it/s]

[10, 100] loss: 2.485


 62%|█████████████████████████████████████████████████████▎                                | 200/323 [02:54<01:46,  1.15it/s]

[10, 200] loss: 2.508


 93%|███████████████████████████████████████████████████████████████████████████████▉      | 300/323 [04:21<00:20,  1.15it/s]

[10, 300] loss: 2.532


100%|██████████████████████████████████████████████████████████████████████████████████████| 323/323 [04:41<00:00,  1.15it/s]
 31%|██████████████████████████▋                                                           | 100/323 [01:27<03:14,  1.15it/s]

[11, 100] loss: 2.503


 62%|█████████████████████████████████████████████████████▎                                | 200/323 [02:54<01:47,  1.15it/s]

[11, 200] loss: 2.481


 93%|███████████████████████████████████████████████████████████████████████████████▉      | 300/323 [04:21<00:20,  1.15it/s]

[11, 300] loss: 2.498


100%|██████████████████████████████████████████████████████████████████████████████████████| 323/323 [04:41<00:00,  1.15it/s]
 31%|██████████████████████████▋                                                           | 100/323 [01:27<03:14,  1.15it/s]

[12, 100] loss: 2.451


 62%|█████████████████████████████████████████████████████▎                                | 200/323 [02:54<01:47,  1.15it/s]

[12, 200] loss: 2.434


 93%|███████████████████████████████████████████████████████████████████████████████▉      | 300/323 [04:21<00:20,  1.15it/s]

[12, 300] loss: 2.474


100%|██████████████████████████████████████████████████████████████████████████████████████| 323/323 [04:41<00:00,  1.15it/s]
 31%|██████████████████████████▋                                                           | 100/323 [01:27<03:14,  1.15it/s]

[13, 100] loss: 2.375


 62%|█████████████████████████████████████████████████████▎                                | 200/323 [02:54<01:47,  1.15it/s]

[13, 200] loss: 2.430


 93%|███████████████████████████████████████████████████████████████████████████████▉      | 300/323 [04:21<00:20,  1.15it/s]

[13, 300] loss: 2.473


100%|██████████████████████████████████████████████████████████████████████████████████████| 323/323 [04:41<00:00,  1.15it/s]
 31%|██████████████████████████▋                                                           | 100/323 [01:27<03:14,  1.15it/s]

[14, 100] loss: 2.405


 62%|█████████████████████████████████████████████████████▎                                | 200/323 [02:54<01:47,  1.15it/s]

[14, 200] loss: 2.376


 93%|███████████████████████████████████████████████████████████████████████████████▉      | 300/323 [04:21<00:20,  1.15it/s]

[14, 300] loss: 2.395


100%|██████████████████████████████████████████████████████████████████████████████████████| 323/323 [04:41<00:00,  1.15it/s]
 31%|██████████████████████████▋                                                           | 100/323 [01:27<03:14,  1.15it/s]

[15, 100] loss: 2.418


 62%|█████████████████████████████████████████████████████▎                                | 200/323 [02:54<01:47,  1.15it/s]

[15, 200] loss: 2.343


 93%|███████████████████████████████████████████████████████████████████████████████▉      | 300/323 [04:21<00:20,  1.15it/s]

[15, 300] loss: 2.361


100%|██████████████████████████████████████████████████████████████████████████████████████| 323/323 [04:41<00:00,  1.15it/s]
 31%|██████████████████████████▋                                                           | 100/323 [01:27<03:14,  1.15it/s]

[16, 100] loss: 2.330


 62%|█████████████████████████████████████████████████████▎                                | 200/323 [02:54<01:47,  1.15it/s]

[16, 200] loss: 2.373


 93%|███████████████████████████████████████████████████████████████████████████████▉      | 300/323 [04:21<00:20,  1.15it/s]

[16, 300] loss: 2.341


100%|██████████████████████████████████████████████████████████████████████████████████████| 323/323 [04:41<00:00,  1.15it/s]
 31%|██████████████████████████▋                                                           | 100/323 [01:27<03:14,  1.15it/s]

[17, 100] loss: 2.254


 62%|█████████████████████████████████████████████████████▎                                | 200/323 [02:54<01:47,  1.15it/s]

[17, 200] loss: 2.353


 93%|███████████████████████████████████████████████████████████████████████████████▉      | 300/323 [04:21<00:20,  1.15it/s]

[17, 300] loss: 2.350


100%|██████████████████████████████████████████████████████████████████████████████████████| 323/323 [04:41<00:00,  1.15it/s]
 31%|██████████████████████████▋                                                           | 100/323 [01:27<03:14,  1.15it/s]

[18, 100] loss: 2.220


 62%|█████████████████████████████████████████████████████▎                                | 200/323 [02:54<01:47,  1.15it/s]

[18, 200] loss: 2.318


 93%|███████████████████████████████████████████████████████████████████████████████▉      | 300/323 [04:21<00:20,  1.15it/s]

[18, 300] loss: 2.317


100%|██████████████████████████████████████████████████████████████████████████████████████| 323/323 [04:41<00:00,  1.15it/s]
 31%|██████████████████████████▋                                                           | 100/323 [01:27<03:14,  1.15it/s]

[19, 100] loss: 2.228


 62%|█████████████████████████████████████████████████████▎                                | 200/323 [02:54<01:47,  1.15it/s]

[19, 200] loss: 2.254


 93%|███████████████████████████████████████████████████████████████████████████████▉      | 300/323 [04:21<00:20,  1.15it/s]

[19, 300] loss: 2.257


100%|██████████████████████████████████████████████████████████████████████████████████████| 323/323 [04:41<00:00,  1.15it/s]
 31%|██████████████████████████▋                                                           | 100/323 [01:27<03:14,  1.15it/s]

[20, 100] loss: 2.205


 62%|█████████████████████████████████████████████████████▎                                | 200/323 [02:54<01:47,  1.15it/s]

[20, 200] loss: 2.185


 93%|███████████████████████████████████████████████████████████████████████████████▉      | 300/323 [04:21<00:20,  1.15it/s]

[20, 300] loss: 2.250


100%|██████████████████████████████████████████████████████████████████████████████████████| 323/323 [04:41<00:00,  1.15it/s]
 31%|██████████████████████████▋                                                           | 100/323 [01:27<03:14,  1.15it/s]

[21, 100] loss: 2.137


 62%|█████████████████████████████████████████████████████▎                                | 200/323 [02:54<01:46,  1.15it/s]

[21, 200] loss: 2.214


 93%|███████████████████████████████████████████████████████████████████████████████▉      | 300/323 [04:21<00:20,  1.15it/s]

[21, 300] loss: 2.244


100%|██████████████████████████████████████████████████████████████████████████████████████| 323/323 [04:41<00:00,  1.15it/s]
 31%|██████████████████████████▋                                                           | 100/323 [01:27<03:14,  1.15it/s]

[22, 100] loss: 2.175


 62%|█████████████████████████████████████████████████████▎                                | 200/323 [02:54<01:47,  1.15it/s]

[22, 200] loss: 2.161


 93%|███████████████████████████████████████████████████████████████████████████████▉      | 300/323 [04:21<00:20,  1.15it/s]

[22, 300] loss: 2.148


100%|██████████████████████████████████████████████████████████████████████████████████████| 323/323 [04:41<00:00,  1.15it/s]
 31%|██████████████████████████▋                                                           | 100/323 [01:27<03:14,  1.15it/s]

[23, 100] loss: 2.129


 62%|█████████████████████████████████████████████████████▎                                | 200/323 [02:54<01:47,  1.15it/s]

[23, 200] loss: 2.141


 93%|███████████████████████████████████████████████████████████████████████████████▉      | 300/323 [04:21<00:20,  1.15it/s]

[23, 300] loss: 2.164


100%|██████████████████████████████████████████████████████████████████████████████████████| 323/323 [04:41<00:00,  1.15it/s]
 31%|██████████████████████████▋                                                           | 100/323 [01:27<03:14,  1.15it/s]

[24, 100] loss: 2.128


 62%|█████████████████████████████████████████████████████▎                                | 200/323 [02:54<01:47,  1.15it/s]

[24, 200] loss: 2.119


 93%|███████████████████████████████████████████████████████████████████████████████▉      | 300/323 [04:21<00:20,  1.15it/s]

[24, 300] loss: 2.136


100%|██████████████████████████████████████████████████████████████████████████████████████| 323/323 [04:41<00:00,  1.15it/s]
 31%|██████████████████████████▋                                                           | 100/323 [01:27<03:14,  1.15it/s]

[25, 100] loss: 2.111


 62%|█████████████████████████████████████████████████████▎                                | 200/323 [02:54<01:47,  1.15it/s]

[25, 200] loss: 2.069


 93%|███████████████████████████████████████████████████████████████████████████████▉      | 300/323 [04:21<00:20,  1.15it/s]

[25, 300] loss: 2.076


100%|██████████████████████████████████████████████████████████████████████████████████████| 323/323 [04:41<00:00,  1.15it/s]
 31%|██████████████████████████▋                                                           | 100/323 [01:27<03:14,  1.15it/s]

[26, 100] loss: 2.024


 62%|█████████████████████████████████████████████████████▎                                | 200/323 [02:54<01:47,  1.15it/s]

[26, 200] loss: 2.059


 93%|███████████████████████████████████████████████████████████████████████████████▉      | 300/323 [04:21<00:20,  1.15it/s]

[26, 300] loss: 2.087


100%|██████████████████████████████████████████████████████████████████████████████████████| 323/323 [04:41<00:00,  1.15it/s]
 31%|██████████████████████████▋                                                           | 100/323 [01:27<03:14,  1.15it/s]

[27, 100] loss: 2.029


 62%|█████████████████████████████████████████████████████▎                                | 200/323 [02:54<01:47,  1.15it/s]

[27, 200] loss: 2.028


 93%|███████████████████████████████████████████████████████████████████████████████▉      | 300/323 [04:21<00:20,  1.15it/s]

[27, 300] loss: 2.049


100%|██████████████████████████████████████████████████████████████████████████████████████| 323/323 [04:41<00:00,  1.15it/s]
 31%|██████████████████████████▋                                                           | 100/323 [01:27<03:14,  1.15it/s]

[28, 100] loss: 2.013


 62%|█████████████████████████████████████████████████████▎                                | 200/323 [02:54<01:47,  1.15it/s]

[28, 200] loss: 2.015


 93%|███████████████████████████████████████████████████████████████████████████████▉      | 300/323 [04:21<00:20,  1.15it/s]

[28, 300] loss: 2.005


100%|██████████████████████████████████████████████████████████████████████████████████████| 323/323 [04:41<00:00,  1.15it/s]
 31%|██████████████████████████▋                                                           | 100/323 [01:27<03:14,  1.15it/s]

[29, 100] loss: 1.964


 62%|█████████████████████████████████████████████████████▎                                | 200/323 [02:54<01:47,  1.15it/s]

[29, 200] loss: 1.963


 93%|███████████████████████████████████████████████████████████████████████████████▉      | 300/323 [04:21<00:20,  1.15it/s]

[29, 300] loss: 2.031


100%|██████████████████████████████████████████████████████████████████████████████████████| 323/323 [04:41<00:00,  1.15it/s]
 31%|██████████████████████████▋                                                           | 100/323 [01:27<03:14,  1.15it/s]

[30, 100] loss: 1.939


 62%|█████████████████████████████████████████████████████▎                                | 200/323 [02:54<01:47,  1.15it/s]

[30, 200] loss: 1.960


 93%|███████████████████████████████████████████████████████████████████████████████▉      | 300/323 [04:21<00:20,  1.15it/s]

[30, 300] loss: 1.984


100%|██████████████████████████████████████████████████████████████████████████████████████| 323/323 [04:41<00:00,  1.15it/s]
 31%|██████████████████████████▋                                                           | 100/323 [01:27<03:13,  1.15it/s]

[31, 100] loss: 1.818


 62%|█████████████████████████████████████████████████████▎                                | 200/323 [02:54<01:47,  1.15it/s]

[31, 200] loss: 1.778


 93%|███████████████████████████████████████████████████████████████████████████████▉      | 300/323 [04:21<00:20,  1.15it/s]

[31, 300] loss: 1.734


100%|██████████████████████████████████████████████████████████████████████████████████████| 323/323 [04:41<00:00,  1.15it/s]
 31%|██████████████████████████▋                                                           | 100/323 [01:27<03:14,  1.15it/s]

[32, 100] loss: 1.659


 62%|█████████████████████████████████████████████████████▎                                | 200/323 [02:54<01:47,  1.15it/s]

[32, 200] loss: 1.722


 93%|███████████████████████████████████████████████████████████████████████████████▉      | 300/323 [04:21<00:20,  1.15it/s]

[32, 300] loss: 1.724


100%|██████████████████████████████████████████████████████████████████████████████████████| 323/323 [04:41<00:00,  1.15it/s]
 31%|██████████████████████████▋                                                           | 100/323 [01:27<03:14,  1.15it/s]

[33, 100] loss: 1.655


 62%|█████████████████████████████████████████████████████▎                                | 200/323 [02:54<01:47,  1.15it/s]

[33, 200] loss: 1.670


 93%|███████████████████████████████████████████████████████████████████████████████▉      | 300/323 [04:21<00:20,  1.15it/s]

[33, 300] loss: 1.710


100%|██████████████████████████████████████████████████████████████████████████████████████| 323/323 [04:41<00:00,  1.15it/s]
 31%|██████████████████████████▋                                                           | 100/323 [01:27<03:14,  1.15it/s]

[34, 100] loss: 1.746


 62%|█████████████████████████████████████████████████████▎                                | 200/323 [02:54<01:47,  1.15it/s]

[34, 200] loss: 1.690


 93%|███████████████████████████████████████████████████████████████████████████████▉      | 300/323 [04:21<00:20,  1.15it/s]

[34, 300] loss: 1.650


100%|██████████████████████████████████████████████████████████████████████████████████████| 323/323 [04:41<00:00,  1.15it/s]
 31%|██████████████████████████▋                                                           | 100/323 [01:27<03:13,  1.15it/s]

[35, 100] loss: 1.648


 62%|█████████████████████████████████████████████████████▎                                | 200/323 [02:54<01:47,  1.15it/s]

[35, 200] loss: 1.667


 93%|███████████████████████████████████████████████████████████████████████████████▉      | 300/323 [04:21<00:20,  1.15it/s]

[35, 300] loss: 1.661


100%|██████████████████████████████████████████████████████████████████████████████████████| 323/323 [04:41<00:00,  1.15it/s]
 31%|██████████████████████████▋                                                           | 100/323 [01:27<03:13,  1.15it/s]

[36, 100] loss: 1.662


 62%|█████████████████████████████████████████████████████▎                                | 200/323 [02:54<01:47,  1.15it/s]

[36, 200] loss: 1.630


 93%|███████████████████████████████████████████████████████████████████████████████▉      | 300/323 [04:21<00:20,  1.15it/s]

[36, 300] loss: 1.644


100%|██████████████████████████████████████████████████████████████████████████████████████| 323/323 [04:41<00:00,  1.15it/s]
 31%|██████████████████████████▋                                                           | 100/323 [01:27<03:14,  1.15it/s]

[37, 100] loss: 1.665


 62%|█████████████████████████████████████████████████████▎                                | 200/323 [02:54<01:47,  1.15it/s]

[37, 200] loss: 1.629


 93%|███████████████████████████████████████████████████████████████████████████████▉      | 300/323 [04:21<00:20,  1.15it/s]

[37, 300] loss: 1.638


100%|██████████████████████████████████████████████████████████████████████████████████████| 323/323 [04:41<00:00,  1.15it/s]
 31%|██████████████████████████▋                                                           | 100/323 [01:27<03:14,  1.15it/s]

[38, 100] loss: 1.603


 62%|█████████████████████████████████████████████████████▎                                | 200/323 [02:54<01:47,  1.15it/s]

[38, 200] loss: 1.676


 93%|███████████████████████████████████████████████████████████████████████████████▉      | 300/323 [04:21<00:20,  1.15it/s]

[38, 300] loss: 1.639


100%|██████████████████████████████████████████████████████████████████████████████████████| 323/323 [04:41<00:00,  1.15it/s]
 31%|██████████████████████████▋                                                           | 100/323 [01:27<03:14,  1.15it/s]

[39, 100] loss: 1.656


 62%|█████████████████████████████████████████████████████▎                                | 200/323 [02:54<01:47,  1.15it/s]

[39, 200] loss: 1.640


 93%|███████████████████████████████████████████████████████████████████████████████▉      | 300/323 [04:21<00:20,  1.15it/s]

[39, 300] loss: 1.628


100%|██████████████████████████████████████████████████████████████████████████████████████| 323/323 [04:41<00:00,  1.15it/s]
 31%|██████████████████████████▋                                                           | 100/323 [01:27<03:14,  1.15it/s]

[40, 100] loss: 1.610


 62%|█████████████████████████████████████████████████████▎                                | 200/323 [02:54<01:47,  1.15it/s]

[40, 200] loss: 1.595


 93%|███████████████████████████████████████████████████████████████████████████████▉      | 300/323 [04:21<00:20,  1.15it/s]

[40, 300] loss: 1.638


100%|██████████████████████████████████████████████████████████████████████████████████████| 323/323 [04:41<00:00,  1.15it/s]
 31%|██████████████████████████▋                                                           | 100/323 [01:27<03:14,  1.15it/s]

[41, 100] loss: 1.590


 62%|█████████████████████████████████████████████████████▎                                | 200/323 [02:54<01:47,  1.15it/s]

[41, 200] loss: 1.634


 93%|███████████████████████████████████████████████████████████████████████████████▉      | 300/323 [04:21<00:20,  1.15it/s]

[41, 300] loss: 1.646


100%|██████████████████████████████████████████████████████████████████████████████████████| 323/323 [04:41<00:00,  1.15it/s]
 31%|██████████████████████████▋                                                           | 100/323 [01:27<03:14,  1.15it/s]

[42, 100] loss: 1.548


 62%|█████████████████████████████████████████████████████▎                                | 200/323 [02:54<01:47,  1.15it/s]

[42, 200] loss: 1.598


 93%|███████████████████████████████████████████████████████████████████████████████▉      | 300/323 [04:21<00:20,  1.15it/s]

[42, 300] loss: 1.626


100%|██████████████████████████████████████████████████████████████████████████████████████| 323/323 [04:41<00:00,  1.15it/s]
 31%|██████████████████████████▋                                                           | 100/323 [01:27<03:14,  1.15it/s]

[43, 100] loss: 1.538


 62%|█████████████████████████████████████████████████████▎                                | 200/323 [02:54<01:46,  1.15it/s]

[43, 200] loss: 1.625


 93%|███████████████████████████████████████████████████████████████████████████████▉      | 300/323 [04:21<00:20,  1.15it/s]

[43, 300] loss: 1.612


100%|██████████████████████████████████████████████████████████████████████████████████████| 323/323 [04:41<00:00,  1.15it/s]
 31%|██████████████████████████▋                                                           | 100/323 [01:27<03:14,  1.15it/s]

[44, 100] loss: 1.571


 62%|█████████████████████████████████████████████████████▎                                | 200/323 [02:54<01:47,  1.15it/s]

[44, 200] loss: 1.606


 93%|███████████████████████████████████████████████████████████████████████████████▉      | 300/323 [04:21<00:20,  1.15it/s]

[44, 300] loss: 1.583


100%|██████████████████████████████████████████████████████████████████████████████████████| 323/323 [04:41<00:00,  1.15it/s]
 31%|██████████████████████████▋                                                           | 100/323 [01:27<03:14,  1.15it/s]

[45, 100] loss: 1.573


 62%|█████████████████████████████████████████████████████▎                                | 200/323 [02:54<01:47,  1.15it/s]

[45, 200] loss: 1.554


 93%|███████████████████████████████████████████████████████████████████████████████▉      | 300/323 [04:21<00:20,  1.15it/s]

[45, 300] loss: 1.606


100%|██████████████████████████████████████████████████████████████████████████████████████| 323/323 [04:41<00:00,  1.15it/s]
 31%|██████████████████████████▋                                                           | 100/323 [01:27<03:13,  1.15it/s]

[46, 100] loss: 1.545


 62%|█████████████████████████████████████████████████████▎                                | 200/323 [02:54<01:46,  1.15it/s]

[46, 200] loss: 1.620


 93%|███████████████████████████████████████████████████████████████████████████████▉      | 300/323 [04:21<00:20,  1.15it/s]

[46, 300] loss: 1.570


100%|██████████████████████████████████████████████████████████████████████████████████████| 323/323 [04:41<00:00,  1.15it/s]
 31%|██████████████████████████▋                                                           | 100/323 [01:27<03:14,  1.15it/s]

[47, 100] loss: 1.523


 62%|█████████████████████████████████████████████████████▎                                | 200/323 [02:54<01:47,  1.15it/s]

[47, 200] loss: 1.572


 93%|███████████████████████████████████████████████████████████████████████████████▉      | 300/323 [04:21<00:20,  1.15it/s]

[47, 300] loss: 1.560


100%|██████████████████████████████████████████████████████████████████████████████████████| 323/323 [04:41<00:00,  1.15it/s]
 31%|██████████████████████████▋                                                           | 100/323 [01:27<03:14,  1.15it/s]

[48, 100] loss: 1.522


 62%|█████████████████████████████████████████████████████▎                                | 200/323 [02:54<01:47,  1.15it/s]

[48, 200] loss: 1.518


 93%|███████████████████████████████████████████████████████████████████████████████▉      | 300/323 [04:21<00:20,  1.15it/s]

[48, 300] loss: 1.599


100%|██████████████████████████████████████████████████████████████████████████████████████| 323/323 [04:41<00:00,  1.15it/s]
 31%|██████████████████████████▋                                                           | 100/323 [01:27<03:14,  1.15it/s]

[49, 100] loss: 1.558


 62%|█████████████████████████████████████████████████████▎                                | 200/323 [02:54<01:47,  1.15it/s]

[49, 200] loss: 1.537


 93%|███████████████████████████████████████████████████████████████████████████████▉      | 300/323 [04:21<00:20,  1.15it/s]

[49, 300] loss: 1.566


100%|██████████████████████████████████████████████████████████████████████████████████████| 323/323 [04:41<00:00,  1.15it/s]
 31%|██████████████████████████▋                                                           | 100/323 [01:27<03:14,  1.15it/s]

[50, 100] loss: 1.554


 62%|█████████████████████████████████████████████████████▎                                | 200/323 [02:54<01:47,  1.15it/s]

[50, 200] loss: 1.518


 93%|███████████████████████████████████████████████████████████████████████████████▉      | 300/323 [04:21<00:20,  1.15it/s]

[50, 300] loss: 1.534


100%|██████████████████████████████████████████████████████████████████████████████████████| 323/323 [04:41<00:00,  1.15it/s]
 31%|██████████████████████████▋                                                           | 100/323 [01:27<03:14,  1.15it/s]

[51, 100] loss: 1.520


 62%|█████████████████████████████████████████████████████▎                                | 200/323 [02:54<01:47,  1.15it/s]

[51, 200] loss: 1.543


 93%|███████████████████████████████████████████████████████████████████████████████▉      | 300/323 [04:21<00:20,  1.15it/s]

[51, 300] loss: 1.531


100%|██████████████████████████████████████████████████████████████████████████████████████| 323/323 [04:41<00:00,  1.15it/s]
 31%|██████████████████████████▋                                                           | 100/323 [01:27<03:14,  1.15it/s]

[52, 100] loss: 1.513


 62%|█████████████████████████████████████████████████████▎                                | 200/323 [02:54<01:47,  1.15it/s]

[52, 200] loss: 1.520


 93%|███████████████████████████████████████████████████████████████████████████████▉      | 300/323 [04:21<00:20,  1.15it/s]

[52, 300] loss: 1.567


100%|██████████████████████████████████████████████████████████████████████████████████████| 323/323 [04:41<00:00,  1.15it/s]
 31%|██████████████████████████▋                                                           | 100/323 [01:27<03:14,  1.15it/s]

[53, 100] loss: 1.497


 62%|█████████████████████████████████████████████████████▎                                | 200/323 [02:54<01:47,  1.15it/s]

[53, 200] loss: 1.513


 93%|███████████████████████████████████████████████████████████████████████████████▉      | 300/323 [04:21<00:20,  1.15it/s]

[53, 300] loss: 1.505


100%|██████████████████████████████████████████████████████████████████████████████████████| 323/323 [04:41<00:00,  1.15it/s]
 31%|██████████████████████████▋                                                           | 100/323 [01:27<03:14,  1.15it/s]

[54, 100] loss: 1.463


 62%|█████████████████████████████████████████████████████▎                                | 200/323 [02:54<01:47,  1.15it/s]

[54, 200] loss: 1.510


 93%|███████████████████████████████████████████████████████████████████████████████▉      | 300/323 [04:21<00:20,  1.15it/s]

[54, 300] loss: 1.566


100%|██████████████████████████████████████████████████████████████████████████████████████| 323/323 [04:41<00:00,  1.15it/s]
  9%|███████▌                                                                               | 28/323 [00:25<04:16,  1.15it/s]