In [1]:
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
import torchvision
import torchvision.transforms as transforms
from tqdm import tqdm
from models_package.models import Teacher, Student
import time
import matplotlib.pyplot as plt
import numpy as np
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

# new libraries
from data.data_loader import load_cifar10, load_cifar100, load_imagenet
from torchvision.models.resnet import ResNet, BasicBlock, Bottleneck
from torchvision.models.resnet import ResNet18_Weights, ResNet34_Weights
from utils.loss_functions import tkd_kdloss

In [48]:
def compare_model_size(teacher, student):
    teacher_params = sum(p.numel() for p in teacher.parameters())
    student_params = sum(p.numel() for p in student.parameters())
    return teacher_params, student_params

def compare_inference_time(teacher, student, dataloader):
    inputs, _ = next(iter(dataloader))
    device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
    
    teacher = teacher.to(device)
    student = student.to(device)
    inputs = inputs.to(device)
    
    start_time = time.time()
    with torch.no_grad():
        teacher_outputs = teacher(inputs)
    teacher_time = time.time() - start_time

    start_time = time.time()
    with torch.no_grad():
        student_outputs = student(inputs)
    student_time = time.time() - start_time
    
    return teacher_time, student_time

def compare_performance_metrics(teacher, student, dataloader):
    teacher.eval()
    student.eval()
    
    all_labels = []
    all_teacher_preds = []
    all_student_preds = []

    for inputs, labels in dataloader:
        with torch.no_grad():
            teacher_outputs = teacher(inputs.to(device))
            student_outputs = student(inputs.to(device))
        all_labels.append(labels.cpu().numpy())
        all_teacher_preds.append(torch.argmax(teacher_outputs, dim=1).cpu().numpy())
        all_student_preds.append(torch.argmax(student_outputs, dim=1).cpu().numpy())

    all_labels = np.concatenate(all_labels)
    all_teacher_preds = np.concatenate(all_teacher_preds)
    all_student_preds = np.concatenate(all_student_preds)
    
    metrics = {
        'accuracy': (accuracy_score(all_labels, all_teacher_preds), accuracy_score(all_labels, all_student_preds)),
        'precision': (precision_score(all_labels, all_teacher_preds, average='weighted', zero_division=0), precision_score(all_labels, all_student_preds, average='weighted', zero_division=0)),  # Updated line
        'recall': (recall_score(all_labels, all_teacher_preds, average='weighted'), recall_score(all_labels, all_student_preds, average='weighted')),
        'f1': (f1_score(all_labels, all_teacher_preds, average='weighted'), f1_score(all_labels, all_student_preds, average='weighted'))
    }

    return metrics

def plot_comparison(labels, teacher_values, student_values, title, ylabel):
    # Convert parameter count to millions
    if 'Parameter Count' in title or 'Parameter Count' in ylabel:
        teacher_values = [value / 1e6 for value in teacher_values]
        student_values = [value / 1e6 for value in student_values]

    x = np.arange(len(labels))  # the label locations
    width = 0.35  # the width of the bars

    fig, ax = plt.subplots()
    rects1 = ax.bar(x - width/2, teacher_values, width, label='Teacher')
    rects2 = ax.bar(x + width/2, student_values, width, label='Student')

    ax.set_ylabel(ylabel)
    ax.set_title(title)
    ax.set_xticks(x)
    ax.set_xticklabels(labels)
    ax.legend()

    fig.tight_layout()

    plt.show()

In [49]:
# Hyperparameters
learning_rate = 0.06 ## 0.001
num_epochs = 200
num_workers = 2
batch_size = 32
temperature = 4.0
alpha = 0.9
momentum = 0.9
num_classes = 100
step_size = 30
gamma = 0.1

# new parameters
# lr_input = 0.1
# momentum_input = 0.9
weight_decay_input = 5e-4
# epochs = 20
# T = 4.0 # temperatureture
# alpha = 0.9
patience = 5  # for early stopping


In [50]:
# Load CIFAR-100 dataset
trainloader, testloader  = load_cifar100()

Files already downloaded and verified
Files already downloaded and verified


In [51]:
# Instantiate the models
###################### Testing 1 ######################
# Create instances of your models
teacher_model = torchvision.models.resnet34(weights=ResNet34_Weights.IMAGENET1K_V1).cuda()
teacher_model.eval()  # Set teacher model to evaluation mode
student_model = torchvision.models.resnet18(weights=None).cuda()

In [39]:
# Instantiate the models
###################### Testing 2 ######################
# Create instances of your models
teacher_model = Teacher()
teacher_model.eval()  # Set teacher model to evaluation mode
student_model = Student()

In [52]:
# Optimizer and scheduler for the student model
optimizer = optim.SGD(student_model.parameters(), lr=learning_rate, momentum=momentum)
scheduler = torch.optim.lr_scheduler.StepLR(optimizer, step_size=step_size, gamma=gamma)

# Optimizer and scheduler for the teacher model
teacher_optimizer = optim.SGD(teacher_model.parameters(), lr=learning_rate, momentum=momentum)
teacher_scheduler = torch.optim.lr_scheduler.StepLR(teacher_optimizer, step_size=step_size, gamma=gamma)

criterion = nn.CrossEntropyLoss()

# Assuming the device is a CUDA device if available
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')


In [53]:
#### finding the optimal learning rate
def train_teacher(model, trainloader, criterion, optimizer, scheduler, device, num_epochs=5, lr_range=(1e-4, 1e-1), plot_loss=True):
    model.train()
    model.to(device)
    lr_values = np.logspace(np.log10(lr_range[0]), np.log10(lr_range[1]), num_epochs * len(trainloader))  # Generate learning rates for each batch
    lr_iter = iter(lr_values)
    losses = []
    lrs = []
    
    for epoch in range(num_epochs):
        for i, (inputs, labels) in enumerate(tqdm(trainloader)):
            lr = next(lr_iter)
            for param_group in optimizer.param_groups:
                param_group['lr'] = lr  # Set new learning rate
            
            inputs, labels = inputs.to(device), labels.to(device)
            optimizer.zero_grad()
            outputs = model(inputs)
            loss = criterion(outputs, labels)
            loss.backward()
            optimizer.step()
            
            losses.append(loss.item())
            lrs.append(lr)
    
    # Calculate the derivative of the loss
    loss_derivative = np.gradient(losses)
    
    # Find the learning rate corresponding to the minimum derivative (steepest decline)
    best_lr_index = np.argmin(loss_derivative)
    best_lr = lrs[best_lr_index]
    
    if plot_loss:
        import matplotlib.pyplot as plt
        plt.figure()
        plt.plot(lrs, losses)
        plt.xscale('log')
        plt.xlabel('Learning Rate')
        plt.ylabel('Loss')
        plt.title('Learning Rate Range Test')
        plt.axvline(x=best_lr, color='red', linestyle='--', label=f'Best LR: {best_lr}')
        plt.legend()
        plt.show()
    
    print(f'Best learning rate: {best_lr}')
    return best_lr

############# input ############## 
batch_size = 16
best_lr = train_teacher(teacher_model, trainloader, criterion, teacher_optimizer, teacher_scheduler, device, num_epochs=3)  
print(best_lr)

  1%|█▎                                                                                                               | 9/782 [00:03<05:41,  2.26it/s]


KeyboardInterrupt: 

In [54]:
# # Knowledge Distillation loss function
# def knowledge_distillation_loss(student_outputs, teacher_outputs, temperature):
#     kd_loss = F.kl_div(
#         F.log_softmax(student_outputs / temperature, dim=1),
#         F.softmax(teacher_outputs / temperature, dim=1),
#         reduction='batchmean'
#     ) * (temperature * temperature)
#     return kd_loss

# Function to train the teacher model
def train_teacher(model, trainloader, criterion, optimizer, scheduler, device, num_epochs=5, patience=5):
    model.train()
    model.to(device)
    best_train_loss = float('inf')
    patience_counter = 0

    for epoch in range(num_epochs):
        running_loss = 0.0
        epoch_loss = 0.0  
        num_batches = 0  
        for i, (inputs, labels) in enumerate(tqdm(trainloader)):
            inputs, labels = inputs.to(device), labels.to(device)
            optimizer.zero_grad()
            outputs = model(inputs)
            loss = criterion(outputs, labels)
            loss.backward()
            optimizer.step()
            running_loss += loss.item()
            epoch_loss += loss.item()
            num_batches += 1
            if i % 100 == 99:  # Print every 100 mini-batches
                print(f"[{epoch + 1}, {i + 1}] loss: {running_loss / 100:.3f}")
                running_loss = 0.0

        epoch_loss /= num_batches  
        
        # Check for early stopping
        if epoch_loss < best_train_loss:
            best_train_loss = epoch_loss
            patience_counter = 0  # Reset counter
        else:
            patience_counter += 1

        if patience_counter >= patience:
            print('Early stopping')
            break

        scheduler.step()

    print("Finished Training Teacher")


# Function to train the student model with knowledge distillation
def train_student_with_distillation(student, teacher, trainloader, criterion, optimizer, scheduler, device, alpha, temperature, num_epochs, patience=5):
    student.train()
    teacher.eval()
    student.to(device)
    teacher.to(device)
    best_train_loss = float('inf')  
    patience_counter = 0 

    for epoch in range(num_epochs):
        running_loss = 0.0 
        epoch_loss = 0.0  
        num_batches = 0  
        for i, (inputs, labels) in enumerate(tqdm(trainloader)):
            inputs, labels = inputs.to(device), labels.to(device)
            optimizer.zero_grad()
            student_outputs = student(inputs)
            with torch.no_grad():
                teacher_outputs = teacher(inputs)
            ce_loss = criterion(student_outputs, labels)
            kd_loss = tkd_kdloss(student_outputs, teacher_outputs, temperature=temperature)  # from utils.loss_functions
            loss = alpha * kd_loss + (1 - alpha) * ce_loss
            loss.backward()
            optimizer.step()
            running_loss += loss.item()
            epoch_loss += loss.item()
            num_batches += 1
            if i % 100 == 99:  
                print(f"[{epoch + 1}, {i + 1}] loss: {running_loss / 100:.3f}")
                running_loss = 0.0

        epoch_loss /= num_batches  

        # Check for early stopping
        if epoch_loss < best_train_loss:
            best_train_loss = epoch_loss
            patience_counter = 0 
        else:
            patience_counter += 1 

        if patience_counter >= patience:
            print('Early stopping')
            break  

        scheduler.step() 

    print("Finished Training Student")

In [None]:
# Assuming the device is a CUDA device if available
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

# Call the function to train the teacher model
train_teacher(teacher_model, trainloader, criterion, teacher_optimizer, teacher_scheduler, device, num_epochs=num_epochs)

# Call the function to train the student model with knowledge distillation
train_student_with_distillation(student_model, teacher_model, trainloader, criterion, optimizer, scheduler, device, alpha, temperature, num_epochs=num_epochs)


 13%|██████████████▏                                                                                                | 100/782 [00:39<04:32,  2.50it/s]

[1, 100] loss: 8.576


 26%|████████████████████████████▍                                                                                  | 200/782 [01:19<03:52,  2.50it/s]

[1, 200] loss: 7.208


 38%|██████████████████████████████████████████▌                                                                    | 300/782 [01:59<03:13,  2.49it/s]

[1, 300] loss: 6.279


 51%|████████████████████████████████████████████████████████▊                                                      | 400/782 [02:40<02:33,  2.49it/s]

[1, 400] loss: 5.648


 64%|██████████████████████████████████████████████████████████████████████▉                                        | 500/782 [03:20<01:54,  2.47it/s]

[1, 500] loss: 5.090


 77%|█████████████████████████████████████████████████████████████████████████████████████▏                         | 600/782 [04:01<01:14,  2.44it/s]

[1, 600] loss: 4.737


 90%|███████████████████████████████████████████████████████████████████████████████████████████████████▎           | 700/782 [04:42<00:34,  2.40it/s]

[1, 700] loss: 4.454


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 782/782 [05:16<00:00,  2.47it/s]
 13%|██████████████▏                                                                                                | 100/782 [00:42<04:47,  2.37it/s]

[2, 100] loss: 3.905


 26%|████████████████████████████▍                                                                                  | 200/782 [01:24<04:04,  2.38it/s]

[2, 200] loss: 3.746


 38%|██████████████████████████████████████████▌                                                                    | 300/782 [02:06<03:21,  2.39it/s]

[2, 300] loss: 3.543


 51%|████████████████████████████████████████████████████████▊                                                      | 400/782 [02:47<02:34,  2.47it/s]

[2, 400] loss: 3.382


 64%|██████████████████████████████████████████████████████████████████████▉                                        | 500/782 [03:27<01:53,  2.48it/s]

[2, 500] loss: 3.257


 77%|█████████████████████████████████████████████████████████████████████████████████████▏                         | 600/782 [04:08<01:13,  2.48it/s]

[2, 600] loss: 3.133


 90%|███████████████████████████████████████████████████████████████████████████████████████████████████▎           | 700/782 [04:48<00:32,  2.50it/s]

[2, 700] loss: 2.969


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 782/782 [05:20<00:00,  2.44it/s]
 13%|██████████████▏                                                                                                | 100/782 [00:40<04:34,  2.48it/s]

[3, 100] loss: 2.711


 26%|████████████████████████████▍                                                                                  | 200/782 [01:20<03:56,  2.46it/s]

[3, 200] loss: 2.598


 38%|██████████████████████████████████████████▌                                                                    | 300/782 [02:01<03:18,  2.43it/s]

[3, 300] loss: 2.524


 51%|████████████████████████████████████████████████████████▊                                                      | 400/782 [02:43<02:39,  2.39it/s]

[3, 400] loss: 2.405


 64%|██████████████████████████████████████████████████████████████████████▉                                        | 500/782 [03:25<01:59,  2.37it/s]

[3, 500] loss: 2.342


 77%|█████████████████████████████████████████████████████████████████████████████████████▏                         | 600/782 [04:06<01:13,  2.47it/s]

[3, 600] loss: 2.266


 90%|███████████████████████████████████████████████████████████████████████████████████████████████████▎           | 700/782 [04:46<00:32,  2.49it/s]

[3, 700] loss: 2.219


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 782/782 [05:19<00:00,  2.45it/s]
 13%|██████████████▏                                                                                                | 100/782 [00:40<04:33,  2.49it/s]

[4, 100] loss: 1.992


 26%|████████████████████████████▍                                                                                  | 200/782 [01:20<03:54,  2.48it/s]

[4, 200] loss: 1.971


 38%|██████████████████████████████████████████▌                                                                    | 300/782 [02:00<03:15,  2.47it/s]

[4, 300] loss: 1.878


 51%|████████████████████████████████████████████████████████▊                                                      | 400/782 [02:41<02:35,  2.46it/s]

[4, 400] loss: 1.937


 64%|██████████████████████████████████████████████████████████████████████▉                                        | 500/782 [03:22<01:56,  2.43it/s]

[4, 500] loss: 1.820


 77%|█████████████████████████████████████████████████████████████████████████████████████▏                         | 600/782 [04:03<01:15,  2.40it/s]

[4, 600] loss: 1.811


 90%|███████████████████████████████████████████████████████████████████████████████████████████████████▎           | 700/782 [04:45<00:34,  2.37it/s]

[4, 700] loss: 1.764


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 782/782 [05:19<00:00,  2.45it/s]
 13%|██████████████▏                                                                                                | 100/782 [00:42<04:46,  2.38it/s]

[5, 100] loss: 1.624


 26%|████████████████████████████▍                                                                                  | 200/782 [01:24<04:05,  2.37it/s]

[5, 200] loss: 1.579


 38%|██████████████████████████████████████████▌                                                                    | 300/782 [02:06<03:23,  2.37it/s]

[5, 300] loss: 1.577


 51%|████████████████████████████████████████████████████████▊                                                      | 400/782 [02:48<02:41,  2.36it/s]

[5, 400] loss: 1.496


 64%|██████████████████████████████████████████████████████████████████████▉                                        | 500/782 [03:30<01:58,  2.37it/s]

[5, 500] loss: 1.540


 77%|█████████████████████████████████████████████████████████████████████████████████████▏                         | 600/782 [04:12<01:16,  2.37it/s]

[5, 600] loss: 1.515


 90%|███████████████████████████████████████████████████████████████████████████████████████████████████▎           | 700/782 [04:54<00:34,  2.37it/s]

[5, 700] loss: 1.495


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 782/782 [05:29<00:00,  2.38it/s]
 13%|██████████████▏                                                                                                | 100/782 [00:42<04:50,  2.35it/s]

[6, 100] loss: 1.346


 26%|████████████████████████████▍                                                                                  | 200/782 [01:24<04:04,  2.38it/s]

[6, 200] loss: 1.337


 38%|██████████████████████████████████████████▌                                                                    | 300/782 [02:05<03:14,  2.47it/s]

[6, 300] loss: 1.327


 51%|████████████████████████████████████████████████████████▊                                                      | 400/782 [02:45<02:33,  2.49it/s]

[6, 400] loss: 1.338


 64%|██████████████████████████████████████████████████████████████████████▉                                        | 500/782 [03:25<01:53,  2.49it/s]

[6, 500] loss: 1.313


 77%|█████████████████████████████████████████████████████████████████████████████████████▏                         | 600/782 [04:05<01:12,  2.49it/s]

[6, 600] loss: 1.273


 90%|███████████████████████████████████████████████████████████████████████████████████████████████████▎           | 700/782 [04:45<00:32,  2.50it/s]

[6, 700] loss: 1.277


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 782/782 [05:18<00:00,  2.46it/s]
 13%|██████████████▏                                                                                                | 100/782 [00:39<04:33,  2.50it/s]

[7, 100] loss: 1.178


 26%|████████████████████████████▍                                                                                  | 200/782 [01:20<03:53,  2.50it/s]

[7, 200] loss: 1.136


 38%|██████████████████████████████████████████▌                                                                    | 300/782 [02:00<03:13,  2.49it/s]

[7, 300] loss: 1.134


 51%|████████████████████████████████████████████████████████▊                                                      | 400/782 [02:40<02:34,  2.47it/s]

[7, 400] loss: 1.126


 64%|██████████████████████████████████████████████████████████████████████▉                                        | 500/782 [03:21<01:55,  2.44it/s]

[7, 500] loss: 1.146


 77%|█████████████████████████████████████████████████████████████████████████████████████▏                         | 600/782 [04:02<01:15,  2.40it/s]

[7, 600] loss: 1.119


 90%|███████████████████████████████████████████████████████████████████████████████████████████████████▎           | 700/782 [04:44<00:34,  2.38it/s]

[7, 700] loss: 1.148


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 782/782 [05:17<00:00,  2.46it/s]
 13%|██████████████▏                                                                                                | 100/782 [00:40<04:33,  2.49it/s]

[8, 100] loss: 1.008


 26%|████████████████████████████▍                                                                                  | 200/782 [01:20<03:52,  2.50it/s]

[8, 200] loss: 1.001


 38%|██████████████████████████████████████████▌                                                                    | 300/782 [02:00<03:12,  2.50it/s]

[8, 300] loss: 1.009


 51%|████████████████████████████████████████████████████████▊                                                      | 400/782 [02:40<02:33,  2.50it/s]

[8, 400] loss: 1.013


 64%|██████████████████████████████████████████████████████████████████████▉                                        | 500/782 [03:20<01:53,  2.50it/s]

[8, 500] loss: 0.963


 77%|█████████████████████████████████████████████████████████████████████████████████████▏                         | 600/782 [04:00<01:13,  2.47it/s]

[8, 600] loss: 1.000


 90%|███████████████████████████████████████████████████████████████████████████████████████████████████▎           | 700/782 [04:41<00:33,  2.46it/s]

[8, 700] loss: 1.021


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 782/782 [05:13<00:00,  2.49it/s]
 13%|██████████████▏                                                                                                | 100/782 [00:40<04:39,  2.44it/s]

[9, 100] loss: 0.889


 26%|████████████████████████████▍                                                                                  | 200/782 [01:22<04:02,  2.40it/s]

[9, 200] loss: 0.910


 38%|██████████████████████████████████████████▌                                                                    | 300/782 [02:03<03:22,  2.38it/s]

[9, 300] loss: 0.908


 51%|████████████████████████████████████████████████████████▊                                                      | 400/782 [02:46<02:40,  2.37it/s]

[9, 400] loss: 0.906


 64%|██████████████████████████████████████████████████████████████████████▉                                        | 500/782 [03:28<01:58,  2.39it/s]

[9, 500] loss: 0.866


 77%|█████████████████████████████████████████████████████████████████████████████████████▏                         | 600/782 [04:10<01:16,  2.37it/s]

[9, 600] loss: 0.877


 90%|███████████████████████████████████████████████████████████████████████████████████████████████████▎           | 700/782 [04:52<00:34,  2.38it/s]

[9, 700] loss: 0.897


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 782/782 [05:26<00:00,  2.40it/s]
 13%|██████████████▏                                                                                                | 100/782 [00:42<04:46,  2.38it/s]

[10, 100] loss: 0.791


 26%|████████████████████████████▍                                                                                  | 200/782 [01:23<03:55,  2.47it/s]

[10, 200] loss: 0.781


 38%|██████████████████████████████████████████▌                                                                    | 300/782 [02:03<03:13,  2.49it/s]

[10, 300] loss: 0.805


 51%|████████████████████████████████████████████████████████▊                                                      | 400/782 [02:43<02:33,  2.49it/s]

[10, 400] loss: 0.808


 64%|██████████████████████████████████████████████████████████████████████▉                                        | 500/782 [03:23<01:53,  2.49it/s]

[10, 500] loss: 0.798


 77%|█████████████████████████████████████████████████████████████████████████████████████▏                         | 600/782 [04:04<01:13,  2.48it/s]

[10, 600] loss: 0.793


 90%|███████████████████████████████████████████████████████████████████████████████████████████████████▎           | 700/782 [04:44<00:33,  2.47it/s]

[10, 700] loss: 0.785


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 782/782 [05:17<00:00,  2.46it/s]
 13%|██████████████▏                                                                                                | 100/782 [00:41<04:41,  2.42it/s]

[11, 100] loss: 0.700


 26%|████████████████████████████▍                                                                                  | 200/782 [01:22<04:03,  2.39it/s]

[11, 200] loss: 0.715


 38%|██████████████████████████████████████████▌                                                                    | 300/782 [02:04<03:23,  2.37it/s]

[11, 300] loss: 0.723


 51%|████████████████████████████████████████████████████████▊                                                      | 400/782 [02:46<02:35,  2.46it/s]

[11, 400] loss: 0.701


 64%|██████████████████████████████████████████████████████████████████████▉                                        | 500/782 [03:26<01:53,  2.49it/s]

[11, 500] loss: 0.710


 77%|█████████████████████████████████████████████████████████████████████████████████████▏                         | 600/782 [04:06<01:12,  2.49it/s]

[11, 600] loss: 0.726


 90%|███████████████████████████████████████████████████████████████████████████████████████████████████▎           | 700/782 [04:46<00:32,  2.49it/s]

[11, 700] loss: 0.704


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 782/782 [05:19<00:00,  2.45it/s]
 13%|██████████████▏                                                                                                | 100/782 [00:40<04:34,  2.48it/s]

[12, 100] loss: 0.633


 26%|████████████████████████████▍                                                                                  | 200/782 [01:20<03:56,  2.46it/s]

[12, 200] loss: 0.656


 38%|██████████████████████████████████████████▌                                                                    | 300/782 [02:01<03:17,  2.44it/s]

[12, 300] loss: 0.633


 51%|████████████████████████████████████████████████████████▊                                                      | 400/782 [02:42<02:39,  2.39it/s]

[12, 400] loss: 0.623


 64%|██████████████████████████████████████████████████████████████████████▉                                        | 500/782 [03:24<01:58,  2.37it/s]

[12, 500] loss: 0.629


 77%|█████████████████████████████████████████████████████████████████████████████████████▏                         | 600/782 [04:06<01:13,  2.46it/s]

[12, 600] loss: 0.660


 90%|███████████████████████████████████████████████████████████████████████████████████████████████████▎           | 700/782 [04:46<00:33,  2.47it/s]

[12, 700] loss: 0.625


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 782/782 [05:19<00:00,  2.45it/s]
 13%|██████████████▏                                                                                                | 100/782 [00:40<04:33,  2.50it/s]

[13, 100] loss: 0.575


 26%|████████████████████████████▍                                                                                  | 200/782 [01:20<03:53,  2.49it/s]

[13, 200] loss: 0.566


 38%|██████████████████████████████████████████▌                                                                    | 300/782 [02:00<03:14,  2.48it/s]

[13, 300] loss: 0.587


 51%|████████████████████████████████████████████████████████▊                                                      | 400/782 [02:40<02:34,  2.47it/s]

[13, 400] loss: 0.577


 64%|██████████████████████████████████████████████████████████████████████▉                                        | 500/782 [03:21<01:56,  2.43it/s]

[13, 500] loss: 0.575


 77%|█████████████████████████████████████████████████████████████████████████████████████▏                         | 600/782 [04:03<01:16,  2.38it/s]

[13, 600] loss: 0.580


 90%|███████████████████████████████████████████████████████████████████████████████████████████████████▎           | 700/782 [04:45<00:34,  2.37it/s]

[13, 700] loss: 0.563


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 782/782 [05:19<00:00,  2.45it/s]
 13%|██████████████▏                                                                                                | 100/782 [00:41<04:46,  2.38it/s]

[14, 100] loss: 0.509


 26%|████████████████████████████▍                                                                                  | 200/782 [01:24<04:04,  2.38it/s]

[14, 200] loss: 0.517


 38%|██████████████████████████████████████████▌                                                                    | 300/782 [02:06<03:23,  2.37it/s]

[14, 300] loss: 0.528


 51%|████████████████████████████████████████████████████████▊                                                      | 400/782 [02:48<02:40,  2.37it/s]

[14, 400] loss: 0.505


 64%|██████████████████████████████████████████████████████████████████████▉                                        | 500/782 [03:30<01:58,  2.37it/s]

[14, 500] loss: 0.508


 77%|█████████████████████████████████████████████████████████████████████████████████████▏                         | 600/782 [04:12<01:16,  2.38it/s]

[14, 600] loss: 0.513


 90%|███████████████████████████████████████████████████████████████████████████████████████████████████▎           | 700/782 [04:54<00:34,  2.38it/s]

[14, 700] loss: 0.534


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 782/782 [05:28<00:00,  2.38it/s]
 13%|██████████████▏                                                                                                | 100/782 [00:42<04:46,  2.38it/s]

[15, 100] loss: 0.453


 26%|████████████████████████████▍                                                                                  | 200/782 [01:24<04:06,  2.37it/s]

[15, 200] loss: 0.457


 38%|██████████████████████████████████████████▌                                                                    | 300/782 [02:06<03:22,  2.38it/s]

[15, 300] loss: 0.464


 51%|████████████████████████████████████████████████████████▊                                                      | 400/782 [02:48<02:41,  2.37it/s]

[15, 400] loss: 0.470


 64%|██████████████████████████████████████████████████████████████████████▉                                        | 500/782 [03:30<01:58,  2.38it/s]

[15, 500] loss: 0.470


 77%|█████████████████████████████████████████████████████████████████████████████████████▏                         | 600/782 [04:12<01:16,  2.39it/s]

[15, 600] loss: 0.461


 90%|███████████████████████████████████████████████████████████████████████████████████████████████████▎           | 700/782 [04:54<00:34,  2.36it/s]

[15, 700] loss: 0.469


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 782/782 [05:28<00:00,  2.38it/s]
 13%|██████████████▏                                                                                                | 100/782 [00:41<04:46,  2.38it/s]

[16, 100] loss: 0.408


 26%|████████████████████████████▍                                                                                  | 200/782 [01:23<04:05,  2.37it/s]

[16, 200] loss: 0.409


 38%|██████████████████████████████████████████▌                                                                    | 300/782 [02:05<03:21,  2.39it/s]

[16, 300] loss: 0.412


 51%|████████████████████████████████████████████████████████▊                                                      | 400/782 [02:47<02:40,  2.37it/s]

[16, 400] loss: 0.412


 64%|██████████████████████████████████████████████████████████████████████▉                                        | 500/782 [03:30<01:58,  2.39it/s]

[16, 500] loss: 0.423


 77%|█████████████████████████████████████████████████████████████████████████████████████▏                         | 600/782 [04:11<01:16,  2.39it/s]

[16, 600] loss: 0.426


 90%|███████████████████████████████████████████████████████████████████████████████████████████████████▎           | 700/782 [04:54<00:34,  2.37it/s]

[16, 700] loss: 0.408


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 782/782 [05:28<00:00,  2.38it/s]
 13%|██████████████▏                                                                                                | 100/782 [00:42<04:48,  2.36it/s]

[17, 100] loss: 0.371


 26%|████████████████████████████▍                                                                                  | 200/782 [01:24<04:03,  2.39it/s]

[17, 200] loss: 0.373


 38%|██████████████████████████████████████████▌                                                                    | 300/782 [02:05<03:21,  2.39it/s]

[17, 300] loss: 0.367


 51%|████████████████████████████████████████████████████████▊                                                      | 400/782 [02:48<02:40,  2.38it/s]

[17, 400] loss: 0.368


 64%|██████████████████████████████████████████████████████████████████████▉                                        | 500/782 [03:29<01:58,  2.38it/s]

[17, 500] loss: 0.383


 77%|█████████████████████████████████████████████████████████████████████████████████████▏                         | 600/782 [04:10<01:13,  2.48it/s]

[17, 600] loss: 0.375


 90%|███████████████████████████████████████████████████████████████████████████████████████████████████▎           | 700/782 [04:51<00:32,  2.50it/s]

[17, 700] loss: 0.370


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 782/782 [05:23<00:00,  2.42it/s]
 13%|██████████████▏                                                                                                | 100/782 [00:39<04:33,  2.50it/s]

[18, 100] loss: 0.319


 26%|████████████████████████████▍                                                                                  | 200/782 [01:20<03:53,  2.49it/s]

[18, 200] loss: 0.325


 38%|██████████████████████████████████████████▌                                                                    | 300/782 [02:00<03:13,  2.49it/s]

[18, 300] loss: 0.330


 51%|████████████████████████████████████████████████████████▊                                                      | 400/782 [02:40<02:34,  2.48it/s]

[18, 400] loss: 0.320


 64%|██████████████████████████████████████████████████████████████████████▉                                        | 500/782 [03:20<01:54,  2.46it/s]

[18, 500] loss: 0.335


 77%|█████████████████████████████████████████████████████████████████████████████████████▏                         | 600/782 [04:01<01:14,  2.43it/s]

[18, 600] loss: 0.330


 90%|███████████████████████████████████████████████████████████████████████████████████████████████████▎           | 700/782 [04:43<00:34,  2.40it/s]

[18, 700] loss: 0.336


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 782/782 [05:17<00:00,  2.46it/s]
 13%|██████████████▏                                                                                                | 100/782 [00:42<04:46,  2.38it/s]

[19, 100] loss: 0.286


 26%|████████████████████████████▍                                                                                  | 200/782 [01:24<04:04,  2.38it/s]

[19, 200] loss: 0.283


 38%|██████████████████████████████████████████▌                                                                    | 300/782 [02:06<03:22,  2.38it/s]

[19, 300] loss: 0.293


 51%|████████████████████████████████████████████████████████▊                                                      | 400/782 [02:48<02:40,  2.38it/s]

[19, 400] loss: 0.297


 64%|██████████████████████████████████████████████████████████████████████▉                                        | 500/782 [03:30<01:54,  2.45it/s]

[19, 500] loss: 0.293


 77%|█████████████████████████████████████████████████████████████████████████████████████▏                         | 600/782 [04:10<01:13,  2.49it/s]

[19, 600] loss: 0.290


 90%|███████████████████████████████████████████████████████████████████████████████████████████████████▎           | 700/782 [04:50<00:32,  2.49it/s]

[19, 700] loss: 0.299


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 782/782 [05:23<00:00,  2.42it/s]
 13%|██████████████▏                                                                                                | 100/782 [00:40<04:33,  2.49it/s]

[20, 100] loss: 0.253


 26%|████████████████████████████▍                                                                                  | 200/782 [01:20<03:55,  2.47it/s]

[20, 200] loss: 0.268


 38%|██████████████████████████████████████████▌                                                                    | 300/782 [02:00<03:15,  2.46it/s]

[20, 300] loss: 0.263


 51%|████████████████████████████████████████████████████████▊                                                      | 400/782 [02:41<02:37,  2.43it/s]

[20, 400] loss: 0.248


 64%|██████████████████████████████████████████████████████████████████████▉                                        | 500/782 [03:23<01:57,  2.39it/s]

[20, 500] loss: 0.267


 77%|█████████████████████████████████████████████████████████████████████████████████████▏                         | 600/782 [04:05<01:16,  2.37it/s]

[20, 600] loss: 0.258


 90%|███████████████████████████████████████████████████████████████████████████████████████████████████▎           | 700/782 [04:47<00:34,  2.37it/s]

[20, 700] loss: 0.262


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 782/782 [05:21<00:00,  2.43it/s]
 13%|██████████████▏                                                                                                | 100/782 [00:42<04:47,  2.38it/s]

[21, 100] loss: 0.239


 26%|████████████████████████████▍                                                                                  | 200/782 [01:23<03:56,  2.46it/s]

[21, 200] loss: 0.231


 38%|██████████████████████████████████████████▌                                                                    | 300/782 [02:04<03:13,  2.49it/s]

[21, 300] loss: 0.228


 51%|████████████████████████████████████████████████████████▊                                                      | 400/782 [02:44<02:33,  2.50it/s]

[21, 400] loss: 0.231


 64%|██████████████████████████████████████████████████████████████████████▉                                        | 500/782 [03:24<01:52,  2.50it/s]

[21, 500] loss: 0.231


 77%|█████████████████████████████████████████████████████████████████████████████████████▏                         | 600/782 [04:04<01:13,  2.49it/s]

[21, 600] loss: 0.232


 90%|███████████████████████████████████████████████████████████████████████████████████████████████████▎           | 700/782 [04:44<00:32,  2.50it/s]

[21, 700] loss: 0.238


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 782/782 [05:16<00:00,  2.47it/s]
 13%|██████████████▏                                                                                                | 100/782 [00:40<04:32,  2.50it/s]

[22, 100] loss: 0.205


 26%|████████████████████████████▍                                                                                  | 200/782 [01:20<03:53,  2.49it/s]

[22, 200] loss: 0.205


 38%|██████████████████████████████████████████▌                                                                    | 300/782 [02:00<03:13,  2.49it/s]

[22, 300] loss: 0.213


 51%|████████████████████████████████████████████████████████▊                                                      | 400/782 [02:40<02:32,  2.50it/s]

[22, 400] loss: 0.202


 64%|██████████████████████████████████████████████████████████████████████▉                                        | 500/782 [03:20<01:52,  2.50it/s]

[22, 500] loss: 0.209


 77%|█████████████████████████████████████████████████████████████████████████████████████▏                         | 600/782 [04:00<01:12,  2.50it/s]

[22, 600] loss: 0.212


 90%|███████████████████████████████████████████████████████████████████████████████████████████████████▎           | 700/782 [04:40<00:32,  2.49it/s]

[22, 700] loss: 0.208


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 782/782 [05:13<00:00,  2.50it/s]
 13%|██████████████▏                                                                                                | 100/782 [00:40<04:36,  2.47it/s]

[23, 100] loss: 0.183


 26%|████████████████████████████▍                                                                                  | 200/782 [01:21<03:59,  2.43it/s]

[23, 200] loss: 0.183


 38%|██████████████████████████████████████████▌                                                                    | 300/782 [02:02<03:20,  2.40it/s]

[23, 300] loss: 0.187


 51%|████████████████████████████████████████████████████████▊                                                      | 400/782 [02:44<02:40,  2.38it/s]

[23, 400] loss: 0.184


 64%|██████████████████████████████████████████████████████████████████████▉                                        | 500/782 [03:26<01:58,  2.37it/s]

[23, 500] loss: 0.197


 77%|█████████████████████████████████████████████████████████████████████████████████████▏                         | 600/782 [04:08<01:14,  2.43it/s]

[23, 600] loss: 0.185


 90%|███████████████████████████████████████████████████████████████████████████████████████████████████▎           | 700/782 [04:49<00:33,  2.48it/s]

[23, 700] loss: 0.195


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 782/782 [05:21<00:00,  2.43it/s]
 13%|██████████████▏                                                                                                | 100/782 [00:40<04:33,  2.49it/s]

[24, 100] loss: 0.162


 26%|████████████████████████████▍                                                                                  | 200/782 [01:20<03:53,  2.49it/s]

[24, 200] loss: 0.165


 38%|██████████████████████████████████████████▌                                                                    | 300/782 [02:00<03:14,  2.48it/s]

[24, 300] loss: 0.170


 51%|████████████████████████████████████████████████████████▊                                                      | 400/782 [02:41<02:34,  2.47it/s]

[24, 400] loss: 0.170


 64%|██████████████████████████████████████████████████████████████████████▉                                        | 500/782 [03:21<01:55,  2.44it/s]

[24, 500] loss: 0.160


 77%|█████████████████████████████████████████████████████████████████████████████████████▏                         | 600/782 [04:03<01:15,  2.40it/s]

[24, 600] loss: 0.171


 90%|███████████████████████████████████████████████████████████████████████████████████████████████████▎           | 700/782 [04:45<00:34,  2.37it/s]

[24, 700] loss: 0.166


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 782/782 [05:19<00:00,  2.45it/s]
 13%|██████████████▏                                                                                                | 100/782 [00:42<04:46,  2.38it/s]

[25, 100] loss: 0.152


 26%|████████████████████████████▍                                                                                  | 200/782 [01:24<04:05,  2.37it/s]

[25, 200] loss: 0.147


 38%|██████████████████████████████████████████▌                                                                    | 300/782 [02:06<03:22,  2.38it/s]

[25, 300] loss: 0.148


 51%|████████████████████████████████████████████████████████▊                                                      | 400/782 [02:48<02:41,  2.37it/s]

[25, 400] loss: 0.147


 64%|██████████████████████████████████████████████████████████████████████▉                                        | 500/782 [03:30<01:58,  2.38it/s]

[25, 500] loss: 0.143


 77%|█████████████████████████████████████████████████████████████████████████████████████▏                         | 600/782 [04:12<01:16,  2.39it/s]

[25, 600] loss: 0.149


 90%|███████████████████████████████████████████████████████████████████████████████████████████████████▎           | 700/782 [04:54<00:34,  2.36it/s]

[25, 700] loss: 0.153


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 782/782 [05:29<00:00,  2.38it/s]
 13%|██████████████▏                                                                                                | 100/782 [00:41<04:47,  2.38it/s]

[26, 100] loss: 0.138


 26%|████████████████████████████▍                                                                                  | 200/782 [01:23<03:55,  2.47it/s]

[26, 200] loss: 0.127


 38%|██████████████████████████████████████████▌                                                                    | 300/782 [02:03<03:13,  2.49it/s]

[26, 300] loss: 0.126


 51%|████████████████████████████████████████████████████████▊                                                      | 400/782 [02:43<02:33,  2.50it/s]

[26, 400] loss: 0.131


 64%|██████████████████████████████████████████████████████████████████████▉                                        | 500/782 [03:23<01:53,  2.49it/s]

[26, 500] loss: 0.134


 77%|█████████████████████████████████████████████████████████████████████████████████████▏                         | 600/782 [04:04<01:13,  2.47it/s]

[26, 600] loss: 0.140


 90%|███████████████████████████████████████████████████████████████████████████████████████████████████▎           | 700/782 [04:44<00:33,  2.47it/s]

[26, 700] loss: 0.140


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 782/782 [05:17<00:00,  2.46it/s]
 13%|██████████████▏                                                                                                | 100/782 [00:41<04:43,  2.40it/s]

[27, 100] loss: 0.113


 26%|████████████████████████████▍                                                                                  | 200/782 [01:22<04:03,  2.39it/s]

[27, 200] loss: 0.118


 38%|██████████████████████████████████████████▌                                                                    | 300/782 [02:04<03:23,  2.37it/s]

[27, 300] loss: 0.120


 51%|████████████████████████████████████████████████████████▊                                                      | 400/782 [02:46<02:41,  2.37it/s]

[27, 400] loss: 0.117


 64%|██████████████████████████████████████████████████████████████████████▉                                        | 500/782 [03:28<01:58,  2.38it/s]

[27, 500] loss: 0.119


 77%|█████████████████████████████████████████████████████████████████████████████████████▏                         | 600/782 [04:11<01:16,  2.36it/s]

[27, 600] loss: 0.134


 90%|███████████████████████████████████████████████████████████████████████████████████████████████████▎           | 700/782 [04:53<00:34,  2.37it/s]

[27, 700] loss: 0.123


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 782/782 [05:27<00:00,  2.39it/s]
 13%|██████████████▏                                                                                                | 100/782 [00:41<04:37,  2.46it/s]

[28, 100] loss: 0.106


 26%|████████████████████████████▍                                                                                  | 200/782 [01:21<03:53,  2.49it/s]

[28, 200] loss: 0.107


 38%|██████████████████████████████████████████▌                                                                    | 300/782 [02:01<03:13,  2.50it/s]

[28, 300] loss: 0.111


 51%|████████████████████████████████████████████████████████▊                                                      | 400/782 [02:41<02:33,  2.48it/s]

[28, 400] loss: 0.113


 64%|██████████████████████████████████████████████████████████████████████▉                                        | 500/782 [03:21<01:53,  2.50it/s]

[28, 500] loss: 0.112


 77%|█████████████████████████████████████████████████████████████████████████████████████▏                         | 600/782 [04:01<01:12,  2.50it/s]

[28, 600] loss: 0.108


 90%|███████████████████████████████████████████████████████████████████████████████████████████████████▎           | 700/782 [04:41<00:32,  2.50it/s]

[28, 700] loss: 0.111


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 782/782 [05:14<00:00,  2.49it/s]
 13%|██████████████▏                                                                                                | 100/782 [00:40<04:34,  2.49it/s]

[29, 100] loss: 0.097


 26%|████████████████████████████▍                                                                                  | 200/782 [01:20<03:54,  2.48it/s]

[29, 200] loss: 0.096


 38%|██████████████████████████████████████████▌                                                                    | 300/782 [02:01<03:15,  2.46it/s]

[29, 300] loss: 0.100


 51%|████████████████████████████████████████████████████████▊                                                      | 400/782 [02:42<02:37,  2.43it/s]

[29, 400] loss: 0.101


 64%|██████████████████████████████████████████████████████████████████████▉                                        | 500/782 [03:23<01:58,  2.39it/s]

[29, 500] loss: 0.101


 77%|█████████████████████████████████████████████████████████████████████████████████████▏                         | 600/782 [04:05<01:16,  2.36it/s]

[29, 600] loss: 0.099


 90%|███████████████████████████████████████████████████████████████████████████████████████████████████▎           | 700/782 [04:47<00:33,  2.45it/s]

[29, 700] loss: 0.098


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 782/782 [05:20<00:00,  2.44it/s]
 13%|██████████████▏                                                                                                | 100/782 [00:40<04:34,  2.49it/s]

[30, 100] loss: 0.092


 26%|████████████████████████████▍                                                                                  | 200/782 [01:20<03:53,  2.49it/s]

[30, 200] loss: 0.088


 38%|██████████████████████████████████████████▌                                                                    | 300/782 [02:00<03:14,  2.48it/s]

[30, 300] loss: 0.092


 51%|████████████████████████████████████████████████████████▊                                                      | 400/782 [02:40<02:34,  2.48it/s]

[30, 400] loss: 0.095


 64%|██████████████████████████████████████████████████████████████████████▉                                        | 500/782 [03:21<01:54,  2.46it/s]

[30, 500] loss: 0.095


 77%|█████████████████████████████████████████████████████████████████████████████████████▏                         | 600/782 [04:02<01:15,  2.42it/s]

[30, 600] loss: 0.087


 90%|███████████████████████████████████████████████████████████████████████████████████████████████████▎           | 700/782 [04:44<00:34,  2.38it/s]

[30, 700] loss: 0.091


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 782/782 [05:17<00:00,  2.46it/s]
 13%|██████████████▏                                                                                                | 100/782 [00:40<04:35,  2.47it/s]

[31, 100] loss: 0.081


 26%|████████████████████████████▍                                                                                  | 200/782 [01:20<03:53,  2.49it/s]

[31, 200] loss: 0.079


 38%|██████████████████████████████████████████▌                                                                    | 300/782 [02:00<03:13,  2.49it/s]

[31, 300] loss: 0.084


 51%|████████████████████████████████████████████████████████▊                                                      | 400/782 [02:40<02:33,  2.49it/s]

[31, 400] loss: 0.084


 64%|██████████████████████████████████████████████████████████████████████▉                                        | 500/782 [03:21<01:53,  2.48it/s]

[31, 500] loss: 0.083


 77%|█████████████████████████████████████████████████████████████████████████████████████▏                         | 600/782 [04:01<01:14,  2.46it/s]

[31, 600] loss: 0.082


 90%|███████████████████████████████████████████████████████████████████████████████████████████████████▎           | 700/782 [04:42<00:33,  2.47it/s]

[31, 700] loss: 0.081


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 782/782 [05:15<00:00,  2.48it/s]
 13%|██████████████▏                                                                                                | 100/782 [00:40<04:34,  2.48it/s]

[32, 100] loss: 0.078


 26%|████████████████████████████▍                                                                                  | 200/782 [01:20<03:53,  2.49it/s]

[32, 200] loss: 0.078


 38%|██████████████████████████████████████████▌                                                                    | 300/782 [02:00<03:13,  2.49it/s]

[32, 300] loss: 0.077


 51%|████████████████████████████████████████████████████████▊                                                      | 400/782 [02:40<02:35,  2.45it/s]

[32, 400] loss: 0.076


 64%|██████████████████████████████████████████████████████████████████████▉                                        | 500/782 [03:21<01:54,  2.47it/s]

[32, 500] loss: 0.079


 77%|█████████████████████████████████████████████████████████████████████████████████████▏                         | 600/782 [04:02<01:14,  2.43it/s]

[32, 600] loss: 0.079


 90%|███████████████████████████████████████████████████████████████████████████████████████████████████▎           | 700/782 [04:43<00:34,  2.40it/s]

[32, 700] loss: 0.078


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 782/782 [05:17<00:00,  2.46it/s]
 13%|██████████████▏                                                                                                | 100/782 [00:42<04:48,  2.37it/s]

[33, 100] loss: 0.078


 26%|████████████████████████████▍                                                                                  | 200/782 [01:24<04:05,  2.37it/s]

[33, 200] loss: 0.078


 38%|██████████████████████████████████████████▌                                                                    | 300/782 [02:06<03:23,  2.37it/s]

[33, 300] loss: 0.078


 51%|████████████████████████████████████████████████████████▊                                                      | 400/782 [02:48<02:40,  2.38it/s]

[33, 400] loss: 0.081


 64%|██████████████████████████████████████████████████████████████████████▉                                        | 500/782 [03:30<01:58,  2.38it/s]

[33, 500] loss: 0.078


 77%|█████████████████████████████████████████████████████████████████████████████████████▏                         | 600/782 [04:12<01:16,  2.37it/s]

[33, 600] loss: 0.076


 90%|███████████████████████████████████████████████████████████████████████████████████████████████████▎           | 700/782 [04:54<00:34,  2.37it/s]

[33, 700] loss: 0.081


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 782/782 [05:29<00:00,  2.38it/s]
 13%|██████████████▏                                                                                                | 100/782 [00:42<04:46,  2.38it/s]

[34, 100] loss: 0.079


 26%|████████████████████████████▍                                                                                  | 200/782 [01:24<04:05,  2.37it/s]

[34, 200] loss: 0.076


 38%|██████████████████████████████████████████▌                                                                    | 300/782 [02:06<03:22,  2.38it/s]

[34, 300] loss: 0.077


 51%|████████████████████████████████████████████████████████▊                                                      | 400/782 [02:48<02:40,  2.38it/s]

[34, 400] loss: 0.076


 64%|██████████████████████████████████████████████████████████████████████▉                                        | 500/782 [03:30<01:59,  2.36it/s]

[34, 500] loss: 0.078


 77%|█████████████████████████████████████████████████████████████████████████████████████▏                         | 600/782 [04:12<01:16,  2.38it/s]

[34, 600] loss: 0.074


 90%|███████████████████████████████████████████████████████████████████████████████████████████████████▎           | 700/782 [04:54<00:33,  2.44it/s]

[34, 700] loss: 0.080


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 782/782 [05:27<00:00,  2.39it/s]
 13%|██████████████▏                                                                                                | 100/782 [00:40<04:33,  2.49it/s]

[35, 100] loss: 0.075


 26%|████████████████████████████▍                                                                                  | 200/782 [01:20<03:53,  2.49it/s]

[35, 200] loss: 0.077


 38%|██████████████████████████████████████████▌                                                                    | 300/782 [02:00<03:14,  2.48it/s]

[35, 300] loss: 0.077


 51%|████████████████████████████████████████████████████████▊                                                      | 400/782 [02:40<02:34,  2.47it/s]

[35, 400] loss: 0.074


 64%|██████████████████████████████████████████████████████████████████████▉                                        | 500/782 [03:21<01:54,  2.47it/s]

[35, 500] loss: 0.078


 77%|█████████████████████████████████████████████████████████████████████████████████████▏                         | 600/782 [04:02<01:14,  2.43it/s]

[35, 600] loss: 0.075


 90%|███████████████████████████████████████████████████████████████████████████████████████████████████▎           | 700/782 [04:43<00:34,  2.40it/s]

[35, 700] loss: 0.077


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 782/782 [05:17<00:00,  2.46it/s]
 13%|██████████████▏                                                                                                | 100/782 [00:42<04:47,  2.37it/s]

[36, 100] loss: 0.075


 26%|████████████████████████████▍                                                                                  | 200/782 [01:24<04:06,  2.36it/s]

[36, 200] loss: 0.073


 38%|██████████████████████████████████████████▌                                                                    | 300/782 [02:06<03:23,  2.37it/s]

[36, 300] loss: 0.078


 51%|████████████████████████████████████████████████████████▊                                                      | 400/782 [02:48<02:41,  2.37it/s]

[36, 400] loss: 0.077


 64%|██████████████████████████████████████████████████████████████████████▉                                        | 500/782 [03:30<01:59,  2.37it/s]

[36, 500] loss: 0.078


 77%|█████████████████████████████████████████████████████████████████████████████████████▏                         | 600/782 [04:13<01:16,  2.37it/s]

[36, 600] loss: 0.077


 90%|███████████████████████████████████████████████████████████████████████████████████████████████████▎           | 700/782 [04:55<00:34,  2.37it/s]

[36, 700] loss: 0.072


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 782/782 [05:29<00:00,  2.37it/s]
 13%|██████████████▏                                                                                                | 100/782 [00:42<04:46,  2.38it/s]

[37, 100] loss: 0.072


 26%|████████████████████████████▍                                                                                  | 200/782 [01:23<03:56,  2.46it/s]

[37, 200] loss: 0.076


 38%|██████████████████████████████████████████▌                                                                    | 300/782 [02:04<03:13,  2.49it/s]

[37, 300] loss: 0.078


 51%|████████████████████████████████████████████████████████▊                                                      | 400/782 [02:44<02:33,  2.49it/s]

[37, 400] loss: 0.072


 64%|██████████████████████████████████████████████████████████████████████▉                                        | 500/782 [03:24<01:53,  2.49it/s]

[37, 500] loss: 0.076


 77%|█████████████████████████████████████████████████████████████████████████████████████▏                         | 600/782 [04:04<01:13,  2.48it/s]

[37, 600] loss: 0.075


 90%|███████████████████████████████████████████████████████████████████████████████████████████████████▎           | 700/782 [04:45<00:33,  2.47it/s]

[37, 700] loss: 0.073


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 782/782 [05:18<00:00,  2.46it/s]
 13%|██████████████▏                                                                                                | 100/782 [00:40<04:41,  2.43it/s]

[38, 100] loss: 0.074


 26%|████████████████████████████▍                                                                                  | 200/782 [01:22<04:03,  2.39it/s]

[38, 200] loss: 0.073


 38%|██████████████████████████████████████████▌                                                                    | 300/782 [02:04<03:23,  2.37it/s]

[38, 300] loss: 0.074


 51%|████████████████████████████████████████████████████████▊                                                      | 400/782 [02:46<02:41,  2.36it/s]

[38, 400] loss: 0.073


 64%|██████████████████████████████████████████████████████████████████████▉                                        | 500/782 [03:29<01:59,  2.37it/s]

[38, 500] loss: 0.070


 77%|█████████████████████████████████████████████████████████████████████████████████████▏                         | 600/782 [04:11<01:16,  2.36it/s]

[38, 600] loss: 0.072


 90%|███████████████████████████████████████████████████████████████████████████████████████████████████▎           | 700/782 [04:53<00:34,  2.38it/s]

[38, 700] loss: 0.079


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 782/782 [05:27<00:00,  2.39it/s]
 13%|██████████████▏                                                                                                | 100/782 [00:42<04:47,  2.37it/s]

[39, 100] loss: 0.073


 26%|████████████████████████████▍                                                                                  | 200/782 [01:24<04:04,  2.38it/s]

[39, 200] loss: 0.074


 38%|██████████████████████████████████████████▌                                                                    | 300/782 [02:06<03:24,  2.36it/s]

[39, 300] loss: 0.075


 51%|████████████████████████████████████████████████████████▊                                                      | 400/782 [02:48<02:40,  2.38it/s]

[39, 400] loss: 0.075


 64%|██████████████████████████████████████████████████████████████████████▉                                        | 500/782 [03:30<01:59,  2.35it/s]

[39, 500] loss: 0.077


 77%|█████████████████████████████████████████████████████████████████████████████████████▏                         | 600/782 [04:12<01:16,  2.37it/s]

[39, 600] loss: 0.070


 90%|███████████████████████████████████████████████████████████████████████████████████████████████████▎           | 700/782 [04:54<00:34,  2.38it/s]

[39, 700] loss: 0.077


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 782/782 [05:28<00:00,  2.38it/s]
 13%|██████████████▏                                                                                                | 100/782 [00:42<04:46,  2.38it/s]

[40, 100] loss: 0.073


 26%|████████████████████████████▍                                                                                  | 200/782 [01:24<04:06,  2.36it/s]

[40, 200] loss: 0.073


 38%|██████████████████████████████████████████▌                                                                    | 300/782 [02:06<03:23,  2.37it/s]

[40, 300] loss: 0.074


 51%|████████████████████████████████████████████████████████▊                                                      | 400/782 [02:47<02:34,  2.47it/s]

[40, 400] loss: 0.071


 64%|██████████████████████████████████████████████████████████████████████▉                                        | 500/782 [03:28<01:53,  2.49it/s]

[40, 500] loss: 0.076


 77%|█████████████████████████████████████████████████████████████████████████████████████▏                         | 600/782 [04:08<01:12,  2.49it/s]

[40, 600] loss: 0.072


 90%|███████████████████████████████████████████████████████████████████████████████████████████████████▎           | 700/782 [04:48<00:32,  2.49it/s]

[40, 700] loss: 0.073


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 782/782 [05:21<00:00,  2.44it/s]
 13%|██████████████▏                                                                                                | 100/782 [00:39<04:32,  2.50it/s]

[41, 100] loss: 0.071


 26%|████████████████████████████▍                                                                                  | 200/782 [01:20<03:53,  2.49it/s]

[41, 200] loss: 0.074


 38%|██████████████████████████████████████████▌                                                                    | 300/782 [02:00<03:12,  2.50it/s]

[41, 300] loss: 0.071


 51%|████████████████████████████████████████████████████████▊                                                      | 400/782 [02:40<02:33,  2.49it/s]

[41, 400] loss: 0.066


 64%|██████████████████████████████████████████████████████████████████████▉                                        | 500/782 [03:20<01:53,  2.47it/s]

[41, 500] loss: 0.076


 77%|█████████████████████████████████████████████████████████████████████████████████████▏                         | 600/782 [04:00<01:14,  2.45it/s]

[41, 600] loss: 0.072


 90%|███████████████████████████████████████████████████████████████████████████████████████████████████▎           | 700/782 [04:41<00:33,  2.42it/s]

[41, 700] loss: 0.070


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 782/782 [05:15<00:00,  2.48it/s]
 13%|██████████████▏                                                                                                | 100/782 [00:41<04:36,  2.47it/s]

[42, 100] loss: 0.070


 26%|████████████████████████████▍                                                                                  | 200/782 [01:21<03:53,  2.49it/s]

[42, 200] loss: 0.067


 38%|██████████████████████████████████████████▌                                                                    | 300/782 [02:01<03:12,  2.50it/s]

[42, 300] loss: 0.077


 51%|████████████████████████████████████████████████████████▊                                                      | 400/782 [02:41<02:32,  2.50it/s]

[42, 400] loss: 0.073


 64%|██████████████████████████████████████████████████████████████████████▉                                        | 500/782 [03:21<01:52,  2.50it/s]

[42, 500] loss: 0.068


 77%|█████████████████████████████████████████████████████████████████████████████████████▏                         | 600/782 [04:01<01:12,  2.50it/s]

[42, 600] loss: 0.072


 90%|███████████████████████████████████████████████████████████████████████████████████████████████████▎           | 700/782 [04:41<00:32,  2.49it/s]

[42, 700] loss: 0.069


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 782/782 [05:14<00:00,  2.49it/s]
 13%|██████████████▏                                                                                                | 100/782 [00:40<04:37,  2.45it/s]

[43, 100] loss: 0.067


 26%|████████████████████████████▍                                                                                  | 200/782 [01:21<04:00,  2.42it/s]

[43, 200] loss: 0.072


 38%|██████████████████████████████████████████▌                                                                    | 300/782 [02:03<03:21,  2.39it/s]

[43, 300] loss: 0.070


 51%|████████████████████████████████████████████████████████▊                                                      | 400/782 [02:45<02:42,  2.36it/s]

[43, 400] loss: 0.073


 64%|██████████████████████████████████████████████████████████████████████▉                                        | 500/782 [03:27<01:59,  2.37it/s]

[43, 500] loss: 0.072


 77%|█████████████████████████████████████████████████████████████████████████████████████▏                         | 600/782 [04:09<01:16,  2.37it/s]

[43, 600] loss: 0.070


 90%|███████████████████████████████████████████████████████████████████████████████████████████████████▎           | 700/782 [04:51<00:33,  2.41it/s]

[43, 700] loss: 0.073


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 782/782 [05:24<00:00,  2.41it/s]
 13%|██████████████▏                                                                                                | 100/782 [00:40<04:33,  2.49it/s]

[44, 100] loss: 0.068


 26%|████████████████████████████▍                                                                                  | 200/782 [01:20<03:52,  2.50it/s]

[44, 200] loss: 0.069


 38%|██████████████████████████████████████████▌                                                                    | 300/782 [02:00<03:12,  2.51it/s]

[44, 300] loss: 0.069


 51%|████████████████████████████████████████████████████████▊                                                      | 400/782 [02:40<02:32,  2.50it/s]

[44, 400] loss: 0.068


 64%|██████████████████████████████████████████████████████████████████████▉                                        | 500/782 [03:20<01:53,  2.49it/s]

[44, 500] loss: 0.071


 77%|█████████████████████████████████████████████████████████████████████████████████████▏                         | 600/782 [04:00<01:13,  2.49it/s]

[44, 600] loss: 0.069


 90%|███████████████████████████████████████████████████████████████████████████████████████████████████▎           | 700/782 [04:40<00:32,  2.49it/s]

[44, 700] loss: 0.074


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 782/782 [05:13<00:00,  2.50it/s]
 13%|██████████████▏                                                                                                | 100/782 [00:39<04:32,  2.50it/s]

[45, 100] loss: 0.069


 26%|████████████████████████████▍                                                                                  | 200/782 [01:19<03:52,  2.50it/s]

[45, 200] loss: 0.067


 38%|██████████████████████████████████████████▌                                                                    | 300/782 [01:59<03:13,  2.49it/s]

[45, 300] loss: 0.068


 51%|████████████████████████████████████████████████████████▊                                                      | 400/782 [02:40<02:33,  2.48it/s]

[45, 400] loss: 0.068


 64%|██████████████████████████████████████████████████████████████████████▉                                        | 500/782 [03:20<01:54,  2.47it/s]

[45, 500] loss: 0.071


 77%|█████████████████████████████████████████████████████████████████████████████████████▏                         | 600/782 [04:01<01:14,  2.45it/s]

[45, 600] loss: 0.068


 90%|███████████████████████████████████████████████████████████████████████████████████████████████████▎           | 700/782 [04:41<00:32,  2.49it/s]

[45, 700] loss: 0.073


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 782/782 [05:14<00:00,  2.49it/s]
 13%|██████████████▏                                                                                                | 100/782 [00:40<04:32,  2.50it/s]

[46, 100] loss: 0.072


 26%|████████████████████████████▍                                                                                  | 200/782 [01:20<03:53,  2.49it/s]

[46, 200] loss: 0.071


 38%|██████████████████████████████████████████▌                                                                    | 300/782 [02:00<03:14,  2.48it/s]

[46, 300] loss: 0.067


 51%|████████████████████████████████████████████████████████▊                                                      | 400/782 [02:40<02:34,  2.47it/s]

[46, 400] loss: 0.070


 64%|██████████████████████████████████████████████████████████████████████▉                                        | 500/782 [03:21<01:54,  2.46it/s]

[46, 500] loss: 0.069


 77%|█████████████████████████████████████████████████████████████████████████████████████▏                         | 600/782 [04:02<01:15,  2.41it/s]

[46, 600] loss: 0.070


 90%|███████████████████████████████████████████████████████████████████████████████████████████████████▎           | 700/782 [04:44<00:34,  2.39it/s]

[46, 700] loss: 0.072


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 782/782 [05:18<00:00,  2.46it/s]
 13%|██████████████▏                                                                                                | 100/782 [00:42<04:47,  2.37it/s]

[47, 100] loss: 0.070


 26%|████████████████████████████▍                                                                                  | 200/782 [01:24<04:05,  2.37it/s]

[47, 200] loss: 0.071


 38%|██████████████████████████████████████████▌                                                                    | 300/782 [02:06<03:23,  2.37it/s]

[47, 300] loss: 0.066


 51%|████████████████████████████████████████████████████████▊                                                      | 400/782 [02:48<02:41,  2.37it/s]

[47, 400] loss: 0.068


 64%|██████████████████████████████████████████████████████████████████████▉                                        | 500/782 [03:30<01:58,  2.37it/s]

[47, 500] loss: 0.067


 77%|█████████████████████████████████████████████████████████████████████████████████████▏                         | 600/782 [04:12<01:16,  2.37it/s]

[47, 600] loss: 0.068


 90%|███████████████████████████████████████████████████████████████████████████████████████████████████▎           | 700/782 [04:55<00:34,  2.38it/s]

[47, 700] loss: 0.071


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 782/782 [05:29<00:00,  2.38it/s]
 13%|██████████████▏                                                                                                | 100/782 [00:42<04:47,  2.37it/s]

[48, 100] loss: 0.067


 26%|████████████████████████████▍                                                                                  | 200/782 [01:24<04:05,  2.38it/s]

[48, 200] loss: 0.068


 38%|██████████████████████████████████████████▌                                                                    | 300/782 [02:06<03:22,  2.38it/s]

[48, 300] loss: 0.068


 51%|████████████████████████████████████████████████████████▊                                                      | 400/782 [02:48<02:40,  2.38it/s]

[48, 400] loss: 0.068


 64%|██████████████████████████████████████████████████████████████████████▉                                        | 500/782 [03:30<01:58,  2.37it/s]

[48, 500] loss: 0.071


 77%|█████████████████████████████████████████████████████████████████████████████████████▏                         | 600/782 [04:12<01:16,  2.38it/s]

[48, 600] loss: 0.070


 90%|███████████████████████████████████████████████████████████████████████████████████████████████████▎           | 700/782 [04:54<00:34,  2.38it/s]

[48, 700] loss: 0.067


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 782/782 [05:28<00:00,  2.38it/s]
 13%|██████████████▏                                                                                                | 100/782 [00:42<04:46,  2.38it/s]

[49, 100] loss: 0.065


 26%|████████████████████████████▍                                                                                  | 200/782 [01:24<04:04,  2.38it/s]

[49, 200] loss: 0.068


 38%|██████████████████████████████████████████▌                                                                    | 300/782 [02:06<03:23,  2.37it/s]

[49, 300] loss: 0.067


 51%|████████████████████████████████████████████████████████▊                                                      | 400/782 [02:48<02:40,  2.38it/s]

[49, 400] loss: 0.065


 64%|██████████████████████████████████████████████████████████████████████▉                                        | 500/782 [03:30<01:57,  2.39it/s]

[49, 500] loss: 0.065


 77%|█████████████████████████████████████████████████████████████████████████████████████▏                         | 600/782 [04:12<01:16,  2.37it/s]

[49, 600] loss: 0.068


 90%|███████████████████████████████████████████████████████████████████████████████████████████████████▎           | 700/782 [04:54<00:34,  2.39it/s]

[49, 700] loss: 0.068


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 782/782 [05:28<00:00,  2.38it/s]
 13%|██████████████▏                                                                                                | 100/782 [00:42<04:48,  2.37it/s]

[50, 100] loss: 0.065


 26%|████████████████████████████▍                                                                                  | 200/782 [01:24<04:04,  2.38it/s]

[50, 200] loss: 0.071


 38%|██████████████████████████████████████████▌                                                                    | 300/782 [02:06<03:23,  2.37it/s]

[50, 300] loss: 0.065


 51%|████████████████████████████████████████████████████████▊                                                      | 400/782 [02:48<02:40,  2.38it/s]

[50, 400] loss: 0.068


 64%|██████████████████████████████████████████████████████████████████████▉                                        | 500/782 [03:30<01:58,  2.38it/s]

[50, 500] loss: 0.064


 77%|█████████████████████████████████████████████████████████████████████████████████████▏                         | 600/782 [04:12<01:16,  2.38it/s]

[50, 600] loss: 0.071


 90%|███████████████████████████████████████████████████████████████████████████████████████████████████▎           | 700/782 [04:54<00:34,  2.39it/s]

[50, 700] loss: 0.065


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 782/782 [05:28<00:00,  2.38it/s]
 13%|██████████████▏                                                                                                | 100/782 [00:40<04:35,  2.47it/s]

[51, 100] loss: 0.065


 26%|████████████████████████████▍                                                                                  | 200/782 [01:21<03:53,  2.49it/s]

[51, 200] loss: 0.066


 38%|██████████████████████████████████████████▌                                                                    | 300/782 [02:01<03:13,  2.49it/s]

[51, 300] loss: 0.067


 51%|████████████████████████████████████████████████████████▊                                                      | 400/782 [02:41<02:33,  2.49it/s]

[51, 400] loss: 0.066


 64%|██████████████████████████████████████████████████████████████████████▉                                        | 500/782 [03:21<01:53,  2.48it/s]

[51, 500] loss: 0.064


 77%|█████████████████████████████████████████████████████████████████████████████████████▏                         | 600/782 [04:01<01:14,  2.46it/s]

[51, 600] loss: 0.066


 90%|███████████████████████████████████████████████████████████████████████████████████████████████████▎           | 700/782 [04:42<00:33,  2.45it/s]

[51, 700] loss: 0.071


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 782/782 [05:16<00:00,  2.47it/s]
 13%|██████████████▏                                                                                                | 100/782 [00:41<04:44,  2.40it/s]

[52, 100] loss: 0.065


 26%|████████████████████████████▍                                                                                  | 200/782 [01:23<04:04,  2.38it/s]

[52, 200] loss: 0.068


 38%|██████████████████████████████████████████▌                                                                    | 300/782 [02:05<03:23,  2.37it/s]

[52, 300] loss: 0.065


 51%|████████████████████████████████████████████████████████▊                                                      | 400/782 [02:47<02:40,  2.38it/s]

[52, 400] loss: 0.064


 64%|██████████████████████████████████████████████████████████████████████▉                                        | 500/782 [03:29<01:58,  2.38it/s]

[52, 500] loss: 0.063


 77%|█████████████████████████████████████████████████████████████████████████████████████▏                         | 600/782 [04:11<01:16,  2.38it/s]

[52, 600] loss: 0.064


 90%|███████████████████████████████████████████████████████████████████████████████████████████████████▎           | 700/782 [04:53<00:34,  2.38it/s]

[52, 700] loss: 0.066


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 782/782 [05:27<00:00,  2.38it/s]
 13%|██████████████▏                                                                                                | 100/782 [00:41<04:46,  2.38it/s]

[53, 100] loss: 0.064


 26%|████████████████████████████▍                                                                                  | 200/782 [01:24<04:04,  2.38it/s]

[53, 200] loss: 0.068


 38%|██████████████████████████████████████████▌                                                                    | 300/782 [02:04<03:14,  2.48it/s]

[53, 300] loss: 0.064


 51%|████████████████████████████████████████████████████████▊                                                      | 400/782 [02:45<02:33,  2.49it/s]

[53, 400] loss: 0.065


 64%|██████████████████████████████████████████████████████████████████████▉                                        | 500/782 [03:25<01:53,  2.49it/s]

[53, 500] loss: 0.064


 77%|█████████████████████████████████████████████████████████████████████████████████████▏                         | 600/782 [04:05<01:12,  2.50it/s]

[53, 600] loss: 0.066


 90%|███████████████████████████████████████████████████████████████████████████████████████████████████▎           | 700/782 [04:45<00:32,  2.50it/s]

[53, 700] loss: 0.064


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 782/782 [05:17<00:00,  2.46it/s]
 13%|██████████████▏                                                                                                | 100/782 [00:39<04:32,  2.50it/s]

[54, 100] loss: 0.064


 26%|████████████████████████████▍                                                                                  | 200/782 [01:20<03:53,  2.49it/s]

[54, 200] loss: 0.066


 38%|██████████████████████████████████████████▌                                                                    | 300/782 [02:00<03:14,  2.48it/s]

[54, 300] loss: 0.066


 51%|████████████████████████████████████████████████████████▊                                                      | 400/782 [02:40<02:34,  2.47it/s]

[54, 400] loss: 0.068


 64%|██████████████████████████████████████████████████████████████████████▉                                        | 500/782 [03:21<01:55,  2.43it/s]

[54, 500] loss: 0.063


 77%|█████████████████████████████████████████████████████████████████████████████████████▏                         | 600/782 [04:02<01:15,  2.40it/s]

[54, 600] loss: 0.061


 90%|███████████████████████████████████████████████████████████████████████████████████████████████████▎           | 700/782 [04:44<00:34,  2.38it/s]

[54, 700] loss: 0.066


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 782/782 [05:19<00:00,  2.45it/s]
 13%|██████████████▏                                                                                                | 100/782 [00:42<04:46,  2.38it/s]

[55, 100] loss: 0.062


 26%|████████████████████████████▍                                                                                  | 200/782 [01:24<04:05,  2.37it/s]

[55, 200] loss: 0.067


 38%|██████████████████████████████████████████▌                                                                    | 300/782 [02:06<03:23,  2.37it/s]

[55, 300] loss: 0.065


 51%|████████████████████████████████████████████████████████▊                                                      | 400/782 [02:48<02:37,  2.42it/s]

[55, 400] loss: 0.061


 64%|██████████████████████████████████████████████████████████████████████▉                                        | 500/782 [03:28<01:53,  2.49it/s]

[55, 500] loss: 0.067


 77%|█████████████████████████████████████████████████████████████████████████████████████▏                         | 600/782 [04:08<01:12,  2.50it/s]

[55, 600] loss: 0.064


 90%|███████████████████████████████████████████████████████████████████████████████████████████████████▎           | 700/782 [04:49<00:32,  2.50it/s]

[55, 700] loss: 0.065


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 782/782 [05:21<00:00,  2.43it/s]
 13%|██████████████▏                                                                                                | 100/782 [00:40<04:35,  2.48it/s]

[56, 100] loss: 0.065


 26%|████████████████████████████▍                                                                                  | 200/782 [01:20<03:55,  2.47it/s]

[56, 200] loss: 0.064


 38%|██████████████████████████████████████████▌                                                                    | 300/782 [02:01<03:18,  2.43it/s]

[56, 300] loss: 0.062


 77%|█████████████████████████████████████████████████████████████████████████████████████▏                         | 600/782 [04:06<01:16,  2.37it/s]

[56, 600] loss: 0.065


 90%|███████████████████████████████████████████████████████████████████████████████████████████████████▎           | 700/782 [04:48<00:34,  2.38it/s]

[56, 700] loss: 0.066


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████| 782/782 [05:22<00:00,  2.42it/s]
  6%|███████▏                                                                                                        | 50/782 [00:21<05:08,  2.38it/s]

In [None]:
###################### Testing 1 ######################
# Save the student and teacher model weights and architecture
torch.save(student_model.state_dict(), 'student_model_weights_ckd_1.pth')
torch.save(student_model, 'student_model_ckd_1.pth')
print('student weights and architecture saved and exported')

torch.save(teacher_model.state_dict(), 'teacher_model_weights_ckd_1.pth')
torch.save(teacher_model, 'teacher_model_ckd_1.pth')
print('teacher weights and architecture saved and exported')

In [41]:
###################### Testing 2 ######################
# Save the student and teacher model weights and architecture
torch.save(student_model.state_dict(), 'student_model_weights_ckd_2.pth')
torch.save(student_model, 'student_model_ckd_2.pth')
print('weights and architecture saved and exported')

torch.save(teacher_model.state_dict(), 'teacher_model_weights_ckd_2.pth')
torch.save(teacher_model, 'teacher_model_ckd_2.pth')
print('teacher weights and architecture saved and exported')

weights and architecture saved and exported


In [None]:
# Call the comparison and plotting functions after training
teacher_params, student_params = compare_model_size(teacher_model, student_model)
teacher_time, student_time = compare_inference_time(teacher_model, student_model, trainloader)
performance_metrics = compare_performance_metrics(teacher_model, student_model, trainloader)

# Extracting the metric values for plotting
performance_labels = ['accuracy', 'precision', 'recall', 'f1']
teacher_performance_values = [performance_metrics[metric][0] for metric in performance_labels]
student_performance_values = [performance_metrics[metric][1] for metric in performance_labels]

# Plotting the comparison for performance metrics
plot_comparison(performance_labels, teacher_performance_values, student_performance_values, 'Performance Comparison', 'Score')

# Plotting the comparison for model size
model_size_labels = ['Model Size']
teacher_model_size_values = [teacher_params]
student_model_size_values = [student_params]
plot_comparison(model_size_labels, teacher_model_size_values, student_model_size_values, 'Model Size Comparison', 'Parameter Count (millions)')

# Plotting the comparison for inference time
inference_time_labels = ['Inference Time']
teacher_inference_time_values = [teacher_time]
student_inference_time_values = [student_time]
plot_comparison(inference_time_labels, teacher_inference_time_values, student_inference_time_values, 'Inference Time Comparison', 'Time (s)')