In [4]:
import torch
import torch.nn as nn
import torch.optim as optim
import torchvision
import torchvision.transforms as transforms
import matplotlib.pyplot as plt
import numpy as np
from sklearn.metrics import precision_score, recall_score, f1_score, accuracy_score
import time
import os
import torch.nn.functional as F
from tqdm import tqdm

In [5]:
print(torch.cuda.is_available())
print(torch.cuda.device_count())
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

True
1


In [6]:
learning_rate = 0.001
num_epochs = 2
num_workers = 2
batch_size = 100

In [7]:
# Load CIFAR-100 data
transform = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize((0.5071, 0.4867, 0.4408), (0.2675, 0.2565, 0.2761))
])
trainset = torchvision.datasets.CIFAR100(root='./data', train=True, download=True, transform=transform)
trainloader = torch.utils.data.DataLoader(trainset, batch_size=batch_size, shuffle=True, num_workers=num_workers)
testset = torchvision.datasets.CIFAR100(root='./data', train=False, download=True, transform=transform)
testloader = torch.utils.data.DataLoader(testset, batch_size=batch_size, shuffle=False, num_workers=num_workers)


Files already downloaded and verified
Files already downloaded and verified


In [8]:
# Define the Teacher model
class Teacher(nn.Module):
    def __init__(self):
        super(Teacher, self).__init__()
        self.conv1 = nn.Conv2d(3, 64, 5)
        self.pool = nn.MaxPool2d(2, 2)
        self.conv2 = nn.Conv2d(64, 128, 5)
        self.fc1 = nn.Linear(128*5*5, 256)
        self.fc2 = nn.Linear(256, 100)

    def forward(self, x):
        x = self.pool(F.relu(self.conv1(x)))
        x = self.pool(F.relu(self.conv2(x)))
        x = x.view(-1, 128*5*5)
        x = F.relu(self.fc1(x))
        x = self.fc2(x)
        return x

# Define the Student model
class Student(nn.Module):
    def __init__(self):
        super(Student, self).__init__()
        self.conv1 = nn.Conv2d(3, 16, 5)
        self.pool = nn.MaxPool2d(2, 2)
        self.fc1 = nn.Linear(16*14*14, 120)
        self.fc2 = nn.Linear(120, 100)

    def forward(self, x):
        x = self.pool(F.relu(self.conv1(x)))
        x = x.view(-1, 16*14*14)
        x = F.relu(self.fc1(x))
        x = self.fc2(x)
        return x

In [5]:
# def fairness_constraint(outputs, sensitive_attrs):
#     # This is a simplified fairness constraint for demonstration purposes.
#     group0_indices = (sensitive_attrs < 5).nonzero(as_tuple=True)
#     group1_indices = (sensitive_attrs >= 5).nonzero(as_tuple=True)
#     positive_rate_group0 = (outputs[group0_indices].max(1)[1] >= 5).float().mean()
#     positive_rate_group1 = (outputs[group1_indices].max(1)[1] >= 5).float().mean()
#     return torch.abs(positive_rate_group0 - positive_rate_group1)

# def adversarial_train_model(model, dataloader, criterion, optimizer, epoch):
#     model.train()
#     running_loss = 0.0
#     progress_bar = tqdm(enumerate(dataloader, 0), total=len(dataloader), unit="batch")
#     for i, data in progress_bar:
#         inputs, labels = data
#         sensitive_attrs = labels  # Assuming label itself as a sensitive attribute
#         optimizer.zero_grad()
#         outputs = model(inputs.to(device))
#         loss = criterion(outputs, labels.to(device))
#         fairness_penalty = fairness_constraint(outputs, sensitive_attrs.to(device))
#         combined_loss = loss + fairness_penalty  # Combine original loss and fairness penalty
#         combined_loss.backward()
#         optimizer.step()
#         running_loss += combined_loss.item()
#         progress_bar.set_description(f"Epoch {epoch} Loss: {running_loss/(i+1):.4f}")
#     return running_loss / len(dataloader)

In [9]:
# Define the fair_metric function from the RELIANT code
def fair_metric(pred, labels, sens):
    idx_s0 = sens == 0
    idx_s1 = sens == 1
    idx_s0_y1 = idx_s0 & (labels == 1)
    idx_s1_y1 = idx_s1 & (labels == 1)

    if idx_s0.sum().item() == 0 or idx_s1.sum().item() == 0 or idx_s0_y1.sum().item() == 0 or idx_s1_y1.sum().item() == 0:
        return torch.tensor(0.0), torch.tensor(0.0)  # Return zeros

    # print(idx_s0.sum().item(), idx_s1.sum().item(), idx_s0_y1.sum().item(), idx_s1_y1.sum().item())
    # smoothing term added
    parity = torch.abs((pred[idx_s0].sum() / (idx_s0.sum().item() + 1e-8)) - (pred[idx_s1].sum() / (idx_s1.sum().item() + 1e-8)))
    equality = torch.abs((pred[idx_s0_y1].sum() / (idx_s0_y1.sum().item() + 1e-8)) - (pred[idx_s1_y1].sum() / (idx_s1_y1.sum().item() + 1e-8)))

    return parity.item(), equality.item()

In [10]:
# Define the approx_loss and approx_loss_eo functions from the RELIANT code
def approx_loss(logits, sens, idx):
    g1 = np.argwhere(sens == 0.0).reshape(-1)
    g2 = np.argwhere(sens == 1.0).reshape(-1)
    idx_set = set(idx.cpu().numpy())
    g1 = np.array(list(set(g1) & idx_set))
    g2 = np.array(list(set(g2) & idx_set))

    if g1.shape[0] == 0 or g2.shape[0] == 0:
        return torch.tensor(0.0) # Return zero
    
    # print(g1.shape[0], g2.shape[0])
    # smoothing term added
    loss = torch.square(approx_func(logits[g1]).sum(axis=0) / (g1.shape[0] + 1e-8) - approx_func(logits[g2]).sum(axis=0) / (g2.shape[0] + 1e-8)).sum()
    return loss


In [11]:
def approx_loss_eo(logits, sens, labels, idx):
    g1 = np.argwhere(sens == 0).reshape(-1)
    g2 = np.argwhere(sens == 1).reshape(-1)
    g = np.argwhere(labels.cpu().numpy() == 1).reshape(-1)
    idx_set = set(idx.cpu().numpy())
    g1 = np.array(list(set(g1) & set(g) & idx_set))
    g2 = np.array(list(set(g2) & set(g) & idx_set))
    
    if g1.shape[0] == 0 or g2.shape[0] == 0:
        return torch.tensor(0.0)  # Return zero 
        
    # print(g1.shape[0], g2.shape[0])
    # smoothing term added
    loss = torch.square(approx_func(logits[g1]).sum(axis=0) / (g1.shape[0] + 1e-8) - approx_func(logits[g2]).sum(axis=0) / (g2.shape[0] + 1e-8)).sum()
    return loss

In [12]:
def approx_func(s):
    x = 2 * s - 1
    result = 1 / 2 + 1 / 2 * x - 1 / 8 / 2 * (5 * x * x * x - 3 * x) + 1 / 16 / 8 * (
                63 * x * x * x * x * x - 70 * x * x * x + 15 * x) - 5 / 128 / 16 * (
                       429 * x * x * x * x * x * x * x - 693 * x * x * x * x * x + 315 * x * x * x - 35 * x) + 7 / 256 / 128 * (
                       12155 * x * x * x * x * x * x * x * x * x - 25740 * x * x * x * x * x * x * x + 18018 * x * x * x * x * x - 4620 * x * x * x + 315 * x)
    # print(s, x, result)
    return result

In [13]:
def adversarial_train_model(model, dataloader, criterion, optimizer, epoch):
    model.train()
    running_loss = 0.0
    progress_bar = tqdm(enumerate(dataloader, 0), total=len(dataloader), unit="batch")
    for i, data in progress_bar:
        inputs, labels = data
        sensitive_attrs = labels  # Assuming label itself as a sensitive attribute
        optimizer.zero_grad()
        outputs = model(inputs.to(device))
        loss = criterion(outputs, labels.to(device))
        
        # Incorporate fairness metrics
        fairness_penalty_sp, fairness_penalty_eo = fair_metric(outputs, labels, sensitive_attrs)
        fairness_penalty_approx = approx_loss(outputs, sensitive_attrs, torch.arange(len(labels)).to(device))
        fairness_penalty_approx_eo = approx_loss_eo(outputs, sensitive_attrs, labels, torch.arange(len(labels)).to(device))
        combined_loss = loss + fairness_penalty_sp + fairness_penalty_eo + fairness_penalty_approx + fairness_penalty_approx_eo

        print(combined_loss.item(), fairness_penalty_sp, fairness_penalty_eo, fairness_penalty_approx.item(), fairness_penalty_approx_eo.item())
        combined_loss.backward()
        optimizer.step()
        running_loss += combined_loss.item()
        progress_bar.set_description(f"Epoch {epoch} Loss: {running_loss/(i+1):.4f}")
    return running_loss / len(dataloader)

In [14]:
# Initialize models, optimizers, and loss function
teacher = Teacher().to(device)
student = Student().to(device)
optimizer_teacher = optim.Adam(teacher.parameters(), lr=learning_rate)
optimizer_student = optim.Adam(student.parameters(), lr=learning_rate)
criterion = nn.CrossEntropyLoss()


In [15]:
# Training Loop
for epoch in range(num_epochs):
    train_loss_teacher = adversarial_train_model(teacher, trainloader, criterion, optimizer_teacher, epoch)
    print(f'Teacher Training Loss: {train_loss_teacher}')
    train_loss_student = adversarial_train_model(student, trainloader, criterion, optimizer_student, epoch)
    print(f'Student Training Loss: {train_loss_student}')

Epoch 0 Loss: 4.5875:   0%|▏                                                                      | 1/500 [00:00<03:05,  2.70batch/s]

4.609371185302734 tensor(0.) tensor(0.) 0.0 0.0
4.649016380310059 tensor(0.) tensor(0.) 0.0 0.0
4.565587043762207 tensor(0.) tensor(0.) 0.0 0.0
4.584012985229492 tensor(0.) tensor(0.) 0.0 0.0
4.597846508026123 tensor(0.) tensor(0.) 0.0 0.0
4.599612236022949 tensor(0.) tensor(0.) 0.0 0.0
4.539072036743164 tensor(0.) tensor(0.) 0.0 0.0
4.5558342933654785 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.5051:   3%|██▏                                                                   | 16/500 [00:00<00:14, 34.39batch/s]

4.5614423751831055 tensor(0.) tensor(0.) 0.0 0.0
4.469376087188721 tensor(0.) tensor(0.) 0.0 0.0
4.492891311645508 tensor(0.) tensor(0.) 0.0 0.0
4.476677417755127 tensor(0.) tensor(0.) 0.0 0.0
4.524063587188721 tensor(0.) tensor(0.) 0.0 0.0
4.341625690460205 tensor(0.) tensor(0.) 0.0 0.0
4.444364547729492 tensor(0.) tensor(0.) 0.0 0.0
4.4207634925842285 tensor(0.) tensor(0.) 0.0 0.0
4.468938827514648 tensor(0.) tensor(0.) 0.0 0.0
4.394364833831787 tensor(0.) tensor(0.) 0.0 0.0
4.470792770385742 tensor(0.) tensor(0.) 0.0 0.0
4.335714817047119 tensor(0.) tensor(0.) 0.0 0.0
4.362329483032227 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.4090:   6%|████                                                                  | 29/500 [00:00<00:09, 48.04batch/s]

4.2714433670043945 tensor(0.) tensor(0.) 0.0 0.0
4.301097393035889 tensor(0.) tensor(0.) 0.0 0.0
4.327942371368408 tensor(0.) tensor(0.) 0.0 0.0
4.094964504241943 tensor(0.) tensor(0.) 0.0 0.0
4.220454216003418 tensor(0.) tensor(0.) 0.0 0.0
4.2952046394348145 tensor(0.) tensor(0.) 0.0 0.0
4.231057643890381 tensor(0.) tensor(0.) 0.0 0.0
4.305224418640137 tensor(0.) tensor(0.) 0.0 0.0
4.385868549346924 tensor(0.) tensor(0.) 0.0 0.0
4.236362934112549 tensor(0.) tensor(0.) 0.0 0.0
4.308206558227539 tensor(0.) tensor(0.) 0.0 0.0
4.342164516448975 tensor(0.) tensor(0.) 0.0 0.0
4.1209893226623535 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.3348:   9%|██████▎                                                               | 45/500 [00:01<00:07, 58.98batch/s]

4.125741958618164 tensor(0.) tensor(0.) 0.0 0.0
4.118754863739014 tensor(0.) tensor(0.) 0.0 0.0
4.237796783447266 tensor(0.) tensor(0.) 0.0 0.0
4.237241744995117 tensor(0.) tensor(0.) 0.0 0.0
4.121169567108154 tensor(0.) tensor(0.) 0.0 0.0
4.188657760620117 tensor(0.) tensor(0.) 0.0 0.0
4.350522041320801 tensor(0.) tensor(0.) 0.0 0.0
4.084475994110107 tensor(0.) tensor(0.) 0.0 0.0
4.094123840332031 tensor(0.) tensor(0.) 0.0 0.0
4.111382961273193 tensor(0.) tensor(0.) 0.0 0.0
4.229696750640869 tensor(0.) tensor(0.) 0.0 0.0
4.072228908538818 tensor(0.) tensor(0.) 0.0 0.0
4.0654497146606445 tensor(0.) tensor(0.) 0.0 0.0
4.129256248474121 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.2756:  12%|████████▎                                                             | 59/500 [00:01<00:07, 61.27batch/s]

4.090324878692627 tensor(0.) tensor(0.) 0.0 0.0
4.132866382598877 tensor(0.) tensor(0.) 0.0 0.0
3.9993350505828857 tensor(0.) tensor(0.) 0.0 0.0
4.011455535888672 tensor(0.) tensor(0.) 0.0 0.0
4.077600955963135 tensor(0.) tensor(0.) 0.0 0.0
4.185509204864502 tensor(0.) tensor(0.) 0.0 0.0
4.168341159820557 tensor(0.) tensor(0.) 0.0 0.0
4.068814754486084 tensor(0.) tensor(0.) 0.0 0.0
4.154461860656738 tensor(0.) tensor(0.) 0.0 0.0
4.067115783691406 tensor(0.) tensor(0.) 0.0 0.0
3.9350805282592773 tensor(0.) tensor(0.) 0.0 0.0
4.019926071166992 tensor(0.) tensor(0.) 0.0 0.0
4.049554824829102 tensor(0.) tensor(0.) 0.0 0.0
4.05259895324707 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.2252:  15%|██████████▌                                                           | 75/500 [00:01<00:06, 67.19batch/s]

4.039905071258545 tensor(0.) tensor(0.) 0.0 0.0
4.102619647979736 tensor(0.) tensor(0.) 0.0 0.0
4.095743179321289 tensor(0.) tensor(0.) 0.0 0.0
4.228611946105957 tensor(0.) tensor(0.) 0.0 0.0
3.986664056777954 tensor(0.) tensor(0.) 0.0 0.0
3.892453193664551 tensor(0.) tensor(0.) 0.0 0.0
4.026081562042236 tensor(0.) tensor(0.) 0.0 0.0
4.0939226150512695 tensor(0.) tensor(0.) 0.0 0.0
3.945847272872925 tensor(0.) tensor(0.) 0.0 0.0
3.732041597366333 tensor(0.) tensor(0.) 0.0 0.0
3.926913261413574 tensor(0.) tensor(0.) 0.0 0.0
4.076373100280762 tensor(0.) tensor(0.) 0.0 0.0
3.9362337589263916 tensor(0.) tensor(0.) 0.0 0.0
3.9438793659210205 tensor(0.) tensor(0.) 0.0 0.0
4.010193824768066 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.1766:  18%|████████████▋                                                         | 91/500 [00:01<00:05, 68.26batch/s]

3.8526957035064697 tensor(0.) tensor(0.) 0.0 0.0
3.943951368331909 tensor(0.) tensor(0.) 0.0 0.0
4.009950160980225 tensor(0.) tensor(0.) 0.0 0.0
3.9702506065368652 tensor(0.) tensor(0.) 0.0 0.0
3.7985308170318604 tensor(0.) tensor(0.) 0.0 0.0
3.6853902339935303 tensor(0.) tensor(0.) 0.0 0.0
3.898404598236084 tensor(0.) tensor(0.) 0.0 0.0
3.7678089141845703 tensor(0.) tensor(0.) 0.0 0.0
4.0203752517700195 tensor(0.) tensor(0.) 0.0 0.0
4.111615180969238 tensor(0.) tensor(0.) 0.0 0.0
3.9893951416015625 tensor(0.) tensor(0.) 0.0 0.0
3.9934396743774414 tensor(0.) tensor(0.) 0.0 0.0
3.9324169158935547 tensor(0.) tensor(0.) 0.0 0.0
3.9721872806549072 tensor(0.) tensor(0.) 0.0 0.0
3.978598117828369 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.1256:  21%|██████████████▋                                                      | 106/500 [00:01<00:05, 70.62batch/s]

3.9386839866638184 tensor(0.) tensor(0.) 0.0 0.0
3.9126694202423096 tensor(0.) tensor(0.) 0.0 0.0
3.8851423263549805 tensor(0.) tensor(0.) 0.0 0.0
3.984579563140869 tensor(0.) tensor(0.) 0.0 0.0
3.82130765914917 tensor(0.) tensor(0.) 0.0 0.0
3.818118095397949 tensor(0.) tensor(0.) 0.0 0.0
3.6962900161743164 tensor(0.) tensor(0.) 0.0 0.0
3.8894405364990234 tensor(0.) tensor(0.) 0.0 0.0
3.7204244136810303 tensor(0.) tensor(0.) 0.0 0.0
3.794313907623291 tensor(0.) tensor(0.) 0.0 0.0
3.7209720611572266 tensor(0.) tensor(0.) 0.0 0.0
3.5717504024505615 tensor(0.) tensor(0.) 0.0 0.0
3.994858503341675 tensor(0.) tensor(0.) 0.0 0.0
3.7715184688568115 tensor(0.) tensor(0.) 0.0 0.0
3.871035099029541 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.0953:  23%|███████████████▋                                                     | 114/500 [00:02<00:05, 68.71batch/s]

3.584660291671753 tensor(0.) tensor(0.) 0.0 0.0
3.760172128677368 tensor(0.) tensor(0.) 0.0 0.0
3.970798969268799 tensor(0.) tensor(0.) 0.0 0.0
3.973865270614624 tensor(0.) tensor(0.) 0.0 0.0
3.744164228439331 tensor(0.) tensor(0.) 0.0 0.0
3.805929183959961 tensor(0.) tensor(0.) 0.0 0.0
3.945122003555298 tensor(0.) tensor(0.) 0.0 0.0
3.917785406112671 tensor(0.) tensor(0.) 0.0 0.0
3.7803702354431152 tensor(0.) tensor(0.) 0.0 0.0
4.082747459411621 tensor(0.) tensor(0.) 0.0 0.0
3.904398202896118 tensor(0.) tensor(0.) 0.0 0.0
3.738307237625122 tensor(0.) tensor(0.) 0.0 0.0
3.790332078933716 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.0603:  26%|█████████████████▊                                                   | 129/500 [00:02<00:05, 67.52batch/s]

3.752711296081543 tensor(0.) tensor(0.) 0.0 0.0
3.7221126556396484 tensor(0.) tensor(0.) 0.0 0.0
3.83332896232605 tensor(0.) tensor(0.) 0.0 0.0
3.8710806369781494 tensor(0.) tensor(0.) 0.0 0.0
3.444427728652954 tensor(0.) tensor(0.) 0.0 0.0
3.784820795059204 tensor(0.) tensor(0.) 0.0 0.0
4.180041790008545 tensor(0.) tensor(0.) 0.0 0.0
3.898341655731201 tensor(0.) tensor(0.) 0.0 0.0
3.8341360092163086 tensor(0.) tensor(0.) 0.0 0.0
3.7220654487609863 tensor(0.) tensor(0.) 0.0 0.0
3.8630599975585938 tensor(0.) tensor(0.) 0.0 0.0
3.5419139862060547 tensor(0.) tensor(0.) 0.0 0.0
3.630841016769409 tensor(0.) tensor(0.) 0.0 0.0
3.833731174468994 tensor(0.) tensor(0.) 0.0 0.0
3.796144962310791 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.0342:  29%|████████████████████                                                 | 145/500 [00:02<00:05, 67.86batch/s]

3.609553337097168 tensor(0.) tensor(0.) 0.0 0.0
3.873703956604004 tensor(0.) tensor(0.) 0.0 0.0
3.6697587966918945 tensor(0.) tensor(0.) 0.0 0.0
3.775338649749756 tensor(0.) tensor(0.) 0.0 0.0
3.648677110671997 tensor(0.) tensor(0.) 0.0 0.0
3.7223260402679443 tensor(0.) tensor(0.) 0.0 0.0
3.7277417182922363 tensor(0.) tensor(0.) 0.0 0.0
3.853165864944458 tensor(0.) tensor(0.) 0.0 0.0
3.9736382961273193 tensor(0.) tensor(0.) 0.0 0.0
3.7028229236602783 tensor(0.) tensor(0.) 0.0 0.0
3.9016671180725098 tensor(0.) tensor(0.) 0.0 0.0
3.749697208404541 tensor(0.) tensor(0.) 0.0 0.0
3.711683750152588 tensor(0.) tensor(0.) 0.0 0.0
3.8400144577026367 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.0020:  32%|█████████████████████▉                                               | 159/500 [00:02<00:05, 66.86batch/s]

3.5530688762664795 tensor(0.) tensor(0.) 0.0 0.0
3.371619462966919 tensor(0.) tensor(0.) 0.0 0.0
3.7156713008880615 tensor(0.) tensor(0.) 0.0 0.0
3.557018518447876 tensor(0.) tensor(0.) 0.0 0.0
3.867063045501709 tensor(0.) tensor(0.) 0.0 0.0
3.702127695083618 tensor(0.) tensor(0.) 0.0 0.0
3.6012351512908936 tensor(0.) tensor(0.) 0.0 0.0
3.618058204650879 tensor(0.) tensor(0.) 0.0 0.0
3.5957694053649902 tensor(0.) tensor(0.) 0.0 0.0
3.724252939224243 tensor(0.) tensor(0.) 0.0 0.0
3.9365081787109375 tensor(0.) tensor(0.) 0.0 0.0
3.922745704650879 tensor(0.) tensor(0.) 0.0 0.0
3.6491425037384033 tensor(0.) tensor(0.) 0.0 0.0
3.6095099449157715 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.9715:  35%|████████████████████████                                             | 174/500 [00:02<00:04, 69.17batch/s]

3.6338117122650146 tensor(0.) tensor(0.) 0.0 0.0
3.917675733566284 tensor(0.) tensor(0.) 0.0 0.0
3.500980854034424 tensor(0.) tensor(0.) 0.0 0.0
3.7516632080078125 tensor(0.) tensor(0.) 0.0 0.0
3.5968871116638184 tensor(0.) tensor(0.) 0.0 0.0
3.758087396621704 tensor(0.) tensor(0.) 0.0 0.0
3.492811679840088 tensor(0.) tensor(0.) 0.0 0.0
3.489426851272583 tensor(0.) tensor(0.) 0.0 0.0
3.4977993965148926 tensor(0.) tensor(0.) 0.0 0.0
3.4778928756713867 tensor(0.) tensor(0.) 0.0 0.0
3.5432121753692627 tensor(0.) tensor(0.) 0.0 0.0
3.6267588138580322 tensor(0.) tensor(0.) 0.0 0.0
3.6067123413085938 tensor(0.) tensor(0.) 0.0 0.0
3.7371184825897217 tensor(0.) tensor(0.) 0.0 0.0
3.7148561477661133 tensor(0.) 

Epoch 0 Loss: 3.9397:  38%|██████████████████████████▏                                          | 190/500 [00:03<00:04, 70.35batch/s]

tensor(0.) 0.0 0.0
3.71755313873291 tensor(0.) tensor(0.) 0.0 0.0
3.437582015991211 tensor(0.) tensor(0.) 0.0 0.0
3.559934377670288 tensor(0.) tensor(0.) 0.0 0.0
3.4321296215057373 tensor(0.) tensor(0.) 0.0 0.0
3.6359009742736816 tensor(0.) tensor(0.) 0.0 0.0
3.475285053253174 tensor(0.) tensor(0.) 0.0 0.0
3.4484188556671143 tensor(0.) tensor(0.) 0.0 0.0
3.6643991470336914 tensor(0.) tensor(0.) 0.0 0.0
3.2613022327423096 tensor(0.) tensor(0.) 0.0 0.0
3.7151315212249756 tensor(0.) tensor(0.) 0.0 0.0
3.638735055923462 tensor(0.) tensor(0.) 0.0 0.0
3.5969574451446533 tensor(0.) tensor(0.) 0.0 0.0
3.7269158363342285 tensor(0.) tensor(0.) 0.0 0.0
3.447108507156372 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.9119:  41%|████████████████████████████▍                                        | 206/500 [00:03<00:04, 71.42batch/s]

3.6766974925994873 tensor(0.) tensor(0.) 0.0 0.0
3.5788047313690186 tensor(0.) tensor(0.) 0.0 0.0
3.5862245559692383 tensor(0.) tensor(0.) 0.0 0.0
3.696254014968872 tensor(0.) tensor(0.) 0.0 0.0
3.249391555786133 tensor(0.) tensor(0.) 0.0 0.0
3.624796152114868 tensor(0.) tensor(0.) 0.0 0.0
3.2676608562469482 tensor(0.) tensor(0.) 0.0 0.0
3.92610502243042 tensor(0.) tensor(0.) 0.0 0.0
3.5077319145202637 tensor(0.) tensor(0.) 0.0 0.0
3.4866743087768555 tensor(0.) tensor(0.) 0.0 0.0
3.4486734867095947 tensor(0.) tensor(0.) 0.0 0.0
3.6889913082122803 tensor(0.) tensor(0.) 0.0 0.0
3.51351261138916 tensor(0.) tensor(0.) 0.0 0.0
3.4596855640411377 tensor(0.) tensor(0.) 0.0 0.0
3.622513771057129 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.8890:  43%|█████████████████████████████▌                                       | 214/500 [00:03<00:04, 71.35batch/s]

3.3996503353118896 tensor(0.) tensor(0.) 0.0 0.0
3.770167589187622 tensor(0.) tensor(0.) 0.0 0.0
3.723965644836426 tensor(0.) tensor(0.) 0.0 0.0
3.4122092723846436 tensor(0.) tensor(0.) 0.0 0.0
3.42795991897583 tensor(0.) tensor(0.) 0.0 0.0
3.549128532409668 tensor(0.) tensor(0.) 0.0 0.0
3.541105270385742 tensor(0.) tensor(0.) 0.0 0.0
3.5048141479492188 tensor(0.) tensor(0.) 0.0 0.0
3.3931522369384766 tensor(0.) tensor(0.) 0.0 0.0
3.595036029815674 tensor(0.) tensor(0.) 0.0 0.0
3.4993350505828857 tensor(0.) tensor(0.) 0.0 0.0
3.625185966491699 tensor(0.) tensor(0.) 0.0 0.0
3.6219558715820312 tensor(0.) tensor(0.) 0.0 0.0
3.6405680179595947 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.8657:  46%|███████████████████████████████▌                                     | 229/500 [00:03<00:03, 68.70batch/s]

3.5366177558898926 tensor(0.) tensor(0.) 0.0 0.0
3.273010492324829 tensor(0.) tensor(0.) 0.0 0.0
3.562438726425171 tensor(0.) tensor(0.) 0.0 0.0
3.5130977630615234 tensor(0.) tensor(0.) 0.0 0.0
3.6076269149780273 tensor(0.) tensor(0.) 0.0 0.0
3.429943561553955 tensor(0.) tensor(0.) 0.0 0.0
3.7403924465179443 tensor(0.) tensor(0.) 0.0 0.0
3.4205689430236816 tensor(0.) tensor(0.) 0.0 0.0
3.751650333404541 tensor(0.) tensor(0.) 0.0 0.0
3.506821870803833 tensor(0.) tensor(0.) 0.0 0.0
3.4917681217193604 tensor(0.) tensor(0.) 0.0 0.0
3.5347845554351807 tensor(0.) tensor(0.) 0.0 0.0
3.3506782054901123 tensor(0.) tensor(0.) 0.0 0.0
3.253408908843994 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.8414:  49%|█████████████████████████████████▌                                   | 243/500 [00:03<00:03, 66.71batch/s]

3.403139591217041 tensor(0.) tensor(0.) 0.0 0.0
3.546421766281128 tensor(0.) tensor(0.) 0.0 0.0
3.4698867797851562 tensor(0.) tensor(0.) 0.0 0.0
3.707634687423706 tensor(0.) tensor(0.) 0.0 0.0
3.707953453063965 tensor(0.) tensor(0.) 0.0 0.0
3.3865091800689697 tensor(0.) tensor(0.) 0.0 0.0
3.344611406326294 tensor(0.) tensor(0.) 0.0 0.0
3.1665754318237305 tensor(0.) tensor(0.) 0.0 0.0
3.3094124794006348 tensor(0.) tensor(0.) 0.0 0.0
3.323049306869507 tensor(0.) tensor(0.) 0.0 0.0
3.425595998764038 tensor(0.) tensor(0.) 0.0 0.0
3.357124090194702 tensor(0.) tensor(0.) 0.0 0.0
3.2337806224823 tensor(0.) tensor(0.) 0.0 0.0
3.6738064289093018 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.8200:  51%|███████████████████████████████████▍                                 | 257/500 [00:04<00:03, 65.45batch/s]

3.382380485534668 tensor(0.) tensor(0.) 0.0 0.0
3.2819836139678955 tensor(0.) tensor(0.) 0.0 0.0
3.6030690670013428 tensor(0.) tensor(0.) 0.0 0.0
3.4670000076293945 tensor(0.) tensor(0.) 0.0 0.0
3.2837412357330322 tensor(0.) tensor(0.) 0.0 0.0
3.3407092094421387 tensor(0.) tensor(0.) 0.0 0.0
3.209073781967163 tensor(0.) tensor(0.) 0.0 0.0
3.3553173542022705 tensor(0.) tensor(0.) 0.0 0.0
3.522886037826538 tensor(0.) tensor(0.) 0.0 0.0
3.542490005493164 tensor(0.) tensor(0.) 0.0 0.0
3.4850504398345947 tensor(0.) tensor(0.) 0.0 0.0
3.405038356781006 tensor(0.) tensor(0.) 0.0 0.0
3.4692156314849854 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.8038:  54%|█████████████████████████████████████▍                               | 271/500 [00:04<00:03, 65.24batch/s]

3.3172028064727783 tensor(0.) tensor(0.) 0.0 0.0
3.3316614627838135 tensor(0.) tensor(0.) 0.0 0.0
3.5456764698028564 tensor(0.) tensor(0.) 0.0 0.0
3.5534210205078125 tensor(0.) tensor(0.) 0.0 0.0
3.532711982727051 tensor(0.) tensor(0.) 0.0 0.0
3.2360384464263916 tensor(0.) tensor(0.) 0.0 0.0
3.51345157623291 tensor(0.) tensor(0.) 0.0 0.0
3.208737850189209 tensor(0.) tensor(0.) 0.0 0.0
3.636615514755249 tensor(0.) tensor(0.) 0.0 0.0
3.557626724243164 tensor(0.) tensor(0.) 0.0 0.0
3.626051664352417 tensor(0.) tensor(0.) 0.0 0.0
3.485839605331421 tensor(0.) tensor(0.) 0.0 0.0
3.652855634689331 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.7801:  57%|███████████████████████████████████████▍                             | 286/500 [00:04<00:03, 67.94batch/s]

3.4739761352539062 tensor(0.) tensor(0.) 0.0 0.0
3.4846558570861816 tensor(0.) tensor(0.) 0.0 0.0
3.1903984546661377 tensor(0.) tensor(0.) 0.0 0.0
3.316673517227173 tensor(0.) tensor(0.) 0.0 0.0
3.3494157791137695 tensor(0.) tensor(0.) 0.0 0.0
3.4597127437591553 tensor(0.) tensor(0.) 0.0 0.0
3.201235055923462 tensor(0.) tensor(0.) 0.0 0.0
3.3882923126220703 tensor(0.) tensor(0.) 0.0 0.0
3.3004629611968994 tensor(0.) tensor(0.) 0.0 0.0
3.439633846282959 tensor(0.) tensor(0.) 0.0 0.0
3.331312894821167 tensor(0.) tensor(0.) 0.0 0.0
3.234402656555176 tensor(0.) tensor(0.) 0.0 0.0
3.314857244491577 tensor(0.) tensor(0.) 0.0 0.0
3.4728567600250244 tensor(0.) tensor(0.) 0.0 0.0
3.21823787689209 tensor(0.) tensor(0.) 0.0 0.0
3.386636257171631 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.7546:  60%|█████████████████████████████████████████▋                           | 302/500 [00:04<00:02, 70.55batch/s]

3.2836291790008545 tensor(0.) tensor(0.) 0.0 0.0
3.287825107574463 tensor(0.) tensor(0.) 0.0 0.0
3.4530134201049805 tensor(0.) tensor(0.) 0.0 0.0
3.504401445388794 tensor(0.) tensor(0.) 0.0 0.0
3.1942336559295654 tensor(0.) tensor(0.) 0.0 0.0
3.2420814037323 tensor(0.) tensor(0.) 0.0 0.0
3.339801073074341 tensor(0.) tensor(0.) 0.0 0.0
2.957906723022461 tensor(0.) tensor(0.) 0.0 0.0
3.195919990539551 tensor(0.) tensor(0.) 0.0 0.0
3.3710272312164307 tensor(0.) tensor(0.) 0.0 0.0
3.4363250732421875 tensor(0.) tensor(0.) 0.0 0.0
3.171358108520508 tensor(0.) tensor(0.) 0.0 0.0
3.369964599609375 tensor(0.) tensor(0.) 0.0 0.0
3.1040351390838623 tensor(0.) tensor(0.) 0.0 0.0
3.398550033569336 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.7351:  63%|███████████████████████████████████████████▋                         | 317/500 [00:05<00:02, 67.35batch/s]

3.2598812580108643 tensor(0.) tensor(0.) 0.0 0.0
3.0971364974975586 tensor(0.) tensor(0.) 0.0 0.0
3.5044524669647217 tensor(0.) tensor(0.) 0.0 0.0
3.2170064449310303 tensor(0.) tensor(0.) 0.0 0.0
3.1492340564727783 tensor(0.) tensor(0.) 0.0 0.0
3.1769309043884277 tensor(0.) tensor(0.) 0.0 0.0
3.3325884342193604 tensor(0.) tensor(0.) 0.0 0.0
3.5033440589904785 tensor(0.) tensor(0.) 0.0 0.0
3.271256685256958 tensor(0.) tensor(0.) 0.0 0.0
3.394409418106079 tensor(0.) tensor(0.) 0.0 0.0
3.2584657669067383 tensor(0.) tensor(0.) 0.0 0.0
3.065548896789551 tensor(0.) tensor(0.) 0.0 0.0
3.360598564147949 tensor(0.) tensor(0.) 0.0 0.0
2.9959216117858887 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.7116:  67%|█████████████████████████████████████████████▉                       | 333/500 [00:05<00:02, 68.46batch/s]

3.497941017150879 tensor(0.) tensor(0.) 0.0 0.0
3.1113369464874268 tensor(0.) tensor(0.) 0.0 0.0
3.174776077270508 tensor(0.) tensor(0.) 0.0 0.0
3.0954718589782715 tensor(0.) tensor(0.) 0.0 0.0
2.9342925548553467 tensor(0.) tensor(0.) 0.0 0.0
3.2066822052001953 tensor(0.) tensor(0.) 0.0 0.0
3.1499252319335938 tensor(0.) tensor(0.) 0.0 0.0
3.406501531600952 tensor(0.) tensor(0.) 0.0 0.0
3.542065143585205 tensor(0.) tensor(0.) 0.0 0.0
3.329080581665039 tensor(0.) tensor(0.) 0.0 0.0
3.2420434951782227 tensor(0.) tensor(0.) 0.0 0.0
3.2651784420013428 tensor(0.) tensor(0.) 0.0 0.0
3.106067419052124 tensor(0.) tensor(0.) 0.0 0.0
3.4586853981018066 tensor(0.) tensor(0.) 0.0 0.0
3.368844509124756 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.6937:  70%|████████████████████████████████████████████████▏                    | 349/500 [00:05<00:02, 69.60batch/s]

3.279872179031372 tensor(0.) tensor(0.) 0.0 0.0
3.4899959564208984 tensor(0.) tensor(0.) 0.0 0.0
3.4213831424713135 tensor(0.) tensor(0.) 0.0 0.0
3.148228168487549 tensor(0.) tensor(0.) 0.0 0.0
3.332029342651367 tensor(0.) tensor(0.) 0.0 0.0
3.5193755626678467 tensor(0.) tensor(0.) 0.0 0.0
2.9568872451782227 tensor(0.) tensor(0.) 0.0 0.0
3.1370880603790283 tensor(0.) tensor(0.) 0.0 0.0
3.4983670711517334 tensor(0.) tensor(0.) 0.0 0.0
3.2982137203216553 tensor(0.) tensor(0.) 0.0 0.0
3.121290683746338 tensor(0.) tensor(0.) 0.0 0.0
3.2714929580688477 tensor(0.) tensor(0.) 0.0 0.0
3.344883680343628 tensor(0.) tensor(0.) 0.0 0.0
2.8955907821655273 tensor(0.) tensor(0.) 0.0 0.0
3.1651995182037354 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.6749:  73%|██████████████████████████████████████████████████▎                  | 365/500 [00:05<00:01, 72.22batch/s]

3.021724224090576 tensor(0.) tensor(0.) 0.0 0.0
3.214170217514038 tensor(0.) tensor(0.) 0.0 0.0
3.3647701740264893 tensor(0.) tensor(0.) 0.0 0.0
3.3525631427764893 tensor(0.) tensor(0.) 0.0 0.0
3.265425443649292 tensor(0.) tensor(0.) 0.0 0.0
3.374113082885742 tensor(0.) tensor(0.) 0.0 0.0
2.9316723346710205 tensor(0.) tensor(0.) 0.0 0.0
3.338731050491333 tensor(0.) tensor(0.) 0.0 0.0
3.3155035972595215 tensor(0.) tensor(0.) 0.0 0.0
3.4045848846435547 tensor(0.) tensor(0.) 0.0 0.0
3.40254545211792 tensor(0.) tensor(0.) 0.0 0.0
3.244485378265381 tensor(0.) tensor(0.) 0.0 0.0
3.338132619857788 tensor(0.) tensor(0.) 0.0 0.0
3.2026772499084473 tensor(0.) tensor(0.) 0.0 0.0
3.2785613536834717 tensor(0.) tensor(0.) 0.0 0.0
3.4295825958251953 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.6570:  75%|███████████████████████████████████████████████████▍                 | 373/500 [00:05<00:01, 71.90batch/s]

3.0749826431274414 tensor(0.) tensor(0.) 0.0 0.0
3.0847394466400146 tensor(0.) tensor(0.) 0.0 0.0
3.289778232574463 tensor(0.) tensor(0.) 0.0 0.0
3.2812252044677734 tensor(0.) tensor(0.) 0.0 0.0
3.1145551204681396 tensor(0.) tensor(0.) 0.0 0.0
3.3451128005981445 tensor(0.) tensor(0.) 0.0 0.0
3.3004157543182373 tensor(0.) tensor(0.) 0.0 0.0
3.0863406658172607 tensor(0.) tensor(0.) 0.0 0.0
3.157926321029663 tensor(0.) tensor(0.) 0.0 0.0
3.4125618934631348 tensor(0.) tensor(0.) 0.0 0.0
3.403740167617798 tensor(0.) tensor(0.) 0.0 0.0
3.3446848392486572 tensor(0.) tensor(0.) 0.0 0.0
3.4364821910858154 tensor(0.) tensor(0.) 0.0 0.0
3.1475143432617188 tensor(0.) tensor(0.) 0.0 0.0
3.079254388809204 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.6387:  78%|█████████████████████████████████████████████████████▋               | 389/500 [00:06<00:01, 71.04batch/s]

3.4527761936187744 tensor(0.) tensor(0.) 0.0 0.0
3.1941301822662354 tensor(0.) tensor(0.) 0.0 0.0
2.983870029449463 tensor(0.) tensor(0.) 0.0 0.0
3.0143816471099854 tensor(0.) tensor(0.) 0.0 0.0
3.1978919506073 tensor(0.) tensor(0.) 0.0 0.0
3.1845266819000244 tensor(0.) tensor(0.) 0.0 0.0
2.8204598426818848 tensor(0.) tensor(0.) 0.0 0.0
3.0906903743743896 tensor(0.) tensor(0.) 0.0 0.0
3.353238582611084 tensor(0.) tensor(0.) 0.0 0.0
3.0230724811553955 tensor(0.) tensor(0.) 0.0 0.0
3.3000640869140625 tensor(0.) tensor(0.) 0.0 0.0
3.1271004676818848 tensor(0.) tensor(0.) 0.0 0.0
3.2606585025787354 tensor(0.) tensor(0.) 0.0 0.0
3.1445672512054443 tensor(0.) tensor(0.) 0.0 0.0
3.4512197971343994 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.6205:  81%|███████████████████████████████████████████████████████▉             | 405/500 [00:06<00:01, 69.45batch/s]

3.220065116882324 tensor(0.) tensor(0.) 0.0 0.0
3.0663394927978516 tensor(0.) tensor(0.) 0.0 0.0
3.0662615299224854 tensor(0.) tensor(0.) 0.0 0.0
3.2066729068756104 tensor(0.) tensor(0.) 0.0 0.0
3.172199010848999 tensor(0.) tensor(0.) 0.0 0.0
3.1087875366210938 tensor(0.) tensor(0.) 0.0 0.0
3.1156060695648193 tensor(0.) tensor(0.) 0.0 0.0
3.1807901859283447 tensor(0.) tensor(0.) 0.0 0.0
3.0377037525177 tensor(0.) tensor(0.) 0.0 0.0
3.038905382156372 tensor(0.) tensor(0.) 0.0 0.0
2.9841065406799316 tensor(0.) tensor(0.) 0.0 0.0
3.037212610244751 tensor(0.) tensor(0.) 0.0 0.0
3.0674657821655273 tensor(0.) tensor(0.) 0.0 0.0
3.2023024559020996 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.6012:  84%|█████████████████████████████████████████████████████████▊           | 419/500 [00:06<00:01, 68.17batch/s]

3.1319687366485596 tensor(0.) tensor(0.) 0.0 0.0
3.205165147781372 tensor(0.) tensor(0.) 0.0 0.0
3.2454683780670166 tensor(0.) tensor(0.) 0.0 0.0
3.1927335262298584 tensor(0.) tensor(0.) 0.0 0.0
2.906477689743042 tensor(0.) tensor(0.) 0.0 0.0
3.157097816467285 tensor(0.) tensor(0.) 0.0 0.0
3.126741409301758 tensor(0.) tensor(0.) 0.0 0.0
2.941943883895874 tensor(0.) tensor(0.) 0.0 0.0
2.927518844604492 tensor(0.) tensor(0.) 0.0 0.0
2.945906400680542 tensor(0.) tensor(0.) 0.0 0.0
2.977227210998535 tensor(0.) tensor(0.) 0.0 0.0
2.9325079917907715 tensor(0.) tensor(0.) 0.0 0.0
3.242232322692871 tensor(0.) tensor(0.) 0.0 0.0
3.266157627105713 tensor(0.) tensor(0.) 0.0 0.0
2.8887383937835693 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.5820:  87%|████████████████████████████████████████████████████████████         | 435/500 [00:06<00:00, 70.46batch/s]

2.9701240062713623 tensor(0.) tensor(0.) 0.0 0.0
3.2528159618377686 tensor(0.) tensor(0.) 0.0 0.0
2.9068617820739746 tensor(0.) tensor(0.) 0.0 0.0
2.9660022258758545 tensor(0.) tensor(0.) 0.0 0.0
2.9464478492736816 tensor(0.) tensor(0.) 0.0 0.0
3.1752054691314697 tensor(0.) tensor(0.) 0.0 0.0
3.060742139816284 tensor(0.) tensor(0.) 0.0 0.0
3.1002144813537598 tensor(0.) tensor(0.) 0.0 0.0
3.1216514110565186 tensor(0.) tensor(0.) 0.0 0.0
2.933166742324829 tensor(0.) tensor(0.) 0.0 0.0
3.0160465240478516 tensor(0.) tensor(0.) 0.0 0.0
3.2787179946899414 tensor(0.) tensor(0.) 0.0 0.0
2.706833839416504 tensor(0.) tensor(0.) 0.0 0.0
3.147061824798584 tensor(0.) tensor(0.) 0.0 0.0
3.0037190914154053 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.5670:  90%|██████████████████████████████████████████████████████████████▏      | 451/500 [00:06<00:00, 70.38batch/s]

3.1547458171844482 tensor(0.) tensor(0.) 0.0 0.0
3.05147123336792 tensor(0.) tensor(0.) 0.0 0.0
3.046252489089966 tensor(0.) tensor(0.) 0.0 0.0
3.322352886199951 tensor(0.) tensor(0.) 0.0 0.0
3.134733200073242 tensor(0.) tensor(0.) 0.0 0.0
3.2146952152252197 tensor(0.) tensor(0.) 0.0 0.0
2.683798313140869 tensor(0.) tensor(0.) 0.0 0.0
2.974520683288574 tensor(0.) tensor(0.) 0.0 0.0
3.192068576812744 tensor(0.) tensor(0.) 0.0 0.0
3.369551181793213 tensor(0.) tensor(0.) 0.0 0.0
2.9766921997070312 tensor(0.) tensor(0.) 0.0 0.0
3.2198326587677 tensor(0.) tensor(0.) 0.0 0.0
3.0509631633758545 tensor(0.) tensor(0.) 0.0 0.0
2.941418409347534 tensor(0.) tensor(0.) 0.0 0.0
2.904252529144287 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.5525:  93%|████████████████████████████████████████████████████████████████▍    | 467/500 [00:07<00:00, 68.66batch/s]

3.052997350692749 tensor(0.) tensor(0.) 0.0 0.0
2.895163059234619 tensor(0.) tensor(0.) 0.0 0.0
3.1832082271575928 tensor(0.) tensor(0.) 0.0 0.0
3.0429625511169434 tensor(0.) tensor(0.) 0.0 0.0
3.2591681480407715 tensor(0.) tensor(0.) 0.0 0.0
3.0788636207580566 tensor(0.) tensor(0.) 0.0 0.0
3.011619806289673 tensor(0.) tensor(0.) 0.0 0.0
3.152923583984375 tensor(0.) tensor(0.) 0.0 0.0
3.2837319374084473 tensor(0.) tensor(0.) 0.0 0.0
3.0163934230804443 tensor(0.) tensor(0.) 0.0 0.0
2.9821670055389404 tensor(0.) tensor(0.) 0.0 0.0
3.179948091506958 tensor(0.) tensor(0.) 0.0 0.0
3.393005132675171 tensor(0.) tensor(0.) 0.0 0.0
3.261428117752075 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.5411:  96%|██████████████████████████████████████████████████████████████████▍  | 481/500 [00:07<00:00, 64.71batch/s]

3.0414156913757324 tensor(0.) tensor(0.) 0.0 0.0
2.9119443893432617 tensor(0.) tensor(0.) 0.0 0.0
3.079385757446289 tensor(0.) tensor(0.) 0.0 0.0
2.8250386714935303 tensor(0.) tensor(0.) 0.0 0.0
2.917147159576416 tensor(0.) tensor(0.) 0.0 0.0
3.2387773990631104 tensor(0.) tensor(0.) 0.0 0.0
3.443951368331909 tensor(0.) tensor(0.) 0.0 0.0
2.9571585655212402 tensor(0.) tensor(0.) 0.0 0.0
3.1270012855529785 tensor(0.) tensor(0.) 0.0 0.0
3.2488090991973877 tensor(0.) tensor(0.) 0.0 0.0
3.0998520851135254 tensor(0.) tensor(0.) 0.0 0.0
3.244746685028076 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.5283:  99%|████████████████████████████████████████████████████████████████████▎| 495/500 [00:07<00:00, 64.91batch/s]

2.992335319519043 tensor(0.) tensor(0.) 0.0 0.0
3.1601781845092773 tensor(0.) tensor(0.) 0.0 0.0
3.181610107421875 tensor(0.) tensor(0.) 0.0 0.0
3.2067296504974365 tensor(0.) tensor(0.) 0.0 0.0
2.99971866607666 tensor(0.) tensor(0.) 0.0 0.0
3.284066677093506 tensor(0.) tensor(0.) 0.0 0.0
3.145507574081421 tensor(0.) tensor(0.) 0.0 0.0
3.161167621612549 tensor(0.) tensor(0.) 0.0 0.0
2.9694228172302246 tensor(0.) tensor(0.) 0.0 0.0
3.043644905090332 tensor(0.) tensor(0.) 0.0 0.0
2.9714019298553467 tensor(0.) tensor(0.) 0.0 0.0
3.176027297973633 tensor(0.) tensor(0.) 0.0 0.0
3.068742036819458 tensor(0.) tensor(0.) 0.0 0.0
2.9008095264434814 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.5238: 100%|█████████████████████████████████████████████████████████████████████| 500/500 [00:07<00:00, 64.94batch/s]

3.2939977645874023 tensor(0.) tensor(0.) 0.0 0.0
2.9972851276397705 tensor(0.) tensor(0.) 0.0 0.0
3.0995001792907715 tensor(0.) tensor(0.) 0.0 0.0
2.8616151809692383 tensor(0.) tensor(0.) 0.0 0.0
3.123567581176758 tensor(0.) tensor(0.) 0.0 0.0
Teacher Training Loss: 3.5237818217277526



Epoch 0 Loss: 4.6310:   0%|                                                                               | 0/500 [00:00<?, ?batch/s]

4.611443042755127 tensor(0.) tensor(0.) 0.0 0.0
4.626585483551025 tensor(0.) tensor(0.) 0.0 0.0
4.654911994934082 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.5975:   2%|█▌                                                                    | 11/500 [00:00<00:09, 50.01batch/s]

4.619333267211914 tensor(0.) tensor(0.) 0.0 0.0
4.534494400024414 tensor(0.) tensor(0.) 0.0 0.0
4.66525936126709 tensor(0.) tensor(0.) 0.0 0.0
4.611464023590088 tensor(0.) tensor(0.) 0.0 0.0
4.557081699371338 tensor(0.) tensor(0.) 0.0 0.0
4.559000492095947 tensor(0.) tensor(0.) 0.0 0.0
4.533952713012695 tensor(0.) tensor(0.) 0.0 0.0
4.548239707946777 tensor(0.) tensor(0.) 0.0 0.0
4.647745132446289 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.5856:   2%|█▌                                                                    | 11/500 [00:00<00:09, 50.01batch/s]

4.54240608215332 tensor(0.) tensor(0.) 0.0 0.0
4.556173324584961 tensor(0.) tensor(0.) 0.0 0.0
4.562024116516113 tensor(0.) tensor(0.) 0.0 0.0
4.539981842041016 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.5204:   5%|███▊                                                                  | 27/500 [00:00<00:07, 65.25batch/s]

4.484173774719238 tensor(0.) tensor(0.) 0.0 0.0
4.460755825042725 tensor(0.) tensor(0.) 0.0 0.0
4.469018936157227 tensor(0.) tensor(0.) 0.0 0.0
4.472802639007568 tensor(0.) tensor(0.) 0.0 0.0
4.418619155883789 tensor(0.) tensor(0.) 0.0 0.0
4.467243671417236 tensor(0.) tensor(0.) 0.0 0.0
4.465315341949463 tensor(0.) tensor(0.) 0.0 0.0
4.3931427001953125 tensor(0.) tensor(0.) 0.0 0.0
4.330111503601074 tensor(0.) tensor(0.) 0.0 0.0
4.315253257751465 tensor(0.) tensor(0.) 0.0 0.0
4.4039225578308105 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.5015:   5%|███▊                                                                  | 27/500 [00:00<00:07, 65.25batch/s]

4.470381259918213 tensor(0.) tensor(0.) 0.0 0.0
4.330433368682861 tensor(0.) tensor(0.) 0.0 0.0
4.415264129638672 tensor(0.) tensor(0.) 0.0 0.0
4.278533458709717 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.4523:   7%|████▊                                                                 | 34/500 [00:00<00:07, 66.57batch/s]

4.377181529998779 tensor(0.) tensor(0.) 0.0 0.0
4.251535415649414 tensor(0.) tensor(0.) 0.0 0.0
4.088327407836914 tensor(0.) tensor(0.) 0.0 0.0
4.485342025756836 tensor(0.) tensor(0.) 0.0 0.0
4.396847724914551 tensor(0.) tensor(0.) 0.0 0.0
4.335040092468262 tensor(0.) tensor(0.) 0.0 0.0
4.270933151245117 tensor(0.) tensor(0.) 0.0 0.0
4.397496223449707 tensor(0.) tensor(0.) 0.0 0.0
4.2824788093566895 tensor(0.) tensor(0.) 0.0 0.0
4.282865524291992 tensor(0.) tensor(0.) 0.0 0.0
4.285396575927734 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.4376:   8%|█████▉                                                                | 42/500 [00:00<00:06, 67.48batch/s]

4.3312578201293945 tensor(0.) tensor(0.) 0.0 0.0
4.1963090896606445 tensor(0.) tensor(0.) 0.0 0.0
4.237798690795898 tensor(0.) tensor(0.) 0.0 0.0
4.36771297454834 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.3958:  10%|███████                                                               | 50/500 [00:00<00:06, 69.07batch/s]

4.281975269317627 tensor(0.) tensor(0.) 0.0 0.0
4.226098537445068 tensor(0.) tensor(0.) 0.0 0.0
4.197963237762451 tensor(0.) tensor(0.) 0.0 0.0
4.142018795013428 tensor(0.) tensor(0.) 0.0 0.0
4.223563194274902 tensor(0.) tensor(0.) 0.0 0.0
4.274170398712158 tensor(0.) tensor(0.) 0.0 0.0
4.175674915313721 tensor(0.) tensor(0.) 0.0 0.0
4.173229694366455 tensor(0.) tensor(0.) 0.0 0.0
4.309689998626709 tensor(0.) tensor(0.) 0.0 0.0
4.087623119354248 tensor(0.) tensor(0.) 0.0 0.0
4.3387064933776855 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.3859:  12%|████████                                                              | 58/500 [00:00<00:06, 69.54batch/s]

4.2473063468933105 tensor(0.) tensor(0.) 0.0 0.0
4.110841274261475 tensor(0.) tensor(0.) 0.0 0.0
4.233572483062744 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.3342:  13%|█████████▏                                                            | 66/500 [00:01<00:06, 68.60batch/s]

4.0183892250061035 tensor(0.) tensor(0.) 0.0 0.0
4.143861770629883 tensor(0.) tensor(0.) 0.0 0.0
4.064871311187744 tensor(0.) tensor(0.) 0.0 0.0
4.260354518890381 tensor(0.) tensor(0.) 0.0 0.0
4.162008762359619 tensor(0.) tensor(0.) 0.0 0.0
4.174164295196533 tensor(0.) tensor(0.) 0.0 0.0
3.934183120727539 tensor(0.) tensor(0.) 0.0 0.0
4.2031755447387695 tensor(0.) tensor(0.) 0.0 0.0
4.019543647766113 tensor(0.) tensor(0.) 0.0 0.0
4.0755109786987305 tensor(0.) tensor(0.) 0.0 0.0
4.014616012573242 tensor(0.) tensor(0.) 0.0 0.0
3.8411505222320557 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.3182:  15%|██████████▎                                                           | 74/500 [00:01<00:06, 70.90batch/s]

3.9781274795532227 tensor(0.) tensor(0.) 0.0 0.0
4.003447532653809 tensor(0.) tensor(0.) 0.0 0.0
3.818960189819336 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.2710:  16%|███████████▍                                                          | 82/500 [00:01<00:05, 72.33batch/s]

4.098411560058594 tensor(0.) tensor(0.) 0.0 0.0
4.135417938232422 tensor(0.) tensor(0.) 0.0 0.0
3.82602596282959 tensor(0.) tensor(0.) 0.0 0.0
3.8957488536834717 tensor(0.) tensor(0.) 0.0 0.0
3.864201068878174 tensor(0.) tensor(0.) 0.0 0.0
3.904458522796631 tensor(0.) tensor(0.) 0.0 0.0
4.1360578536987305 tensor(0.) tensor(0.) 0.0 0.0
4.028165340423584 tensor(0.) tensor(0.) 0.0 0.0
4.166299819946289 tensor(0.) tensor(0.) 0.0 0.0
3.937276601791382 tensor(0.) tensor(0.) 0.0 0.0
3.9149887561798096 tensor(0.) tensor(0.) 0.0 0.0
3.8002853393554688 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.2582:  18%|████████████▌                                                         | 90/500 [00:01<00:05, 72.72batch/s]

3.992396593093872 tensor(0.) tensor(0.) 0.0 0.0
3.869798183441162 tensor(0.) tensor(0.) 0.0 0.0
4.0876994132995605 tensor(0.) tensor(0.) 0.0 0.0
3.973283290863037 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.2234:  20%|█████████████▋                                                        | 98/500 [00:01<00:05, 72.42batch/s]

4.184901237487793 tensor(0.) tensor(0.) 0.0 0.0
3.7895243167877197 tensor(0.) tensor(0.) 0.0 0.0
4.008006572723389 tensor(0.) tensor(0.) 0.0 0.0
3.7877085208892822 tensor(0.) tensor(0.) 0.0 0.0
3.6805014610290527 tensor(0.) tensor(0.) 0.0 0.0
3.7652230262756348 tensor(0.) tensor(0.) 0.0 0.0
4.018060207366943 tensor(0.) tensor(0.) 0.0 0.0
4.006232261657715 tensor(0.) tensor(0.) 0.0 0.0
3.7925381660461426 tensor(0.) tensor(0.) 0.0 0.0
4.035915374755859 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.2149:  20%|█████████████▋                                                        | 98/500 [00:01<00:05, 72.42batch/s]

3.9571340084075928 tensor(0.) tensor(0.) 0.0 0.0
3.975600004196167 tensor(0.) tensor(0.) 0.0 0.0
4.147947788238525 tensor(0.) tensor(0.) 0.0 0.0
3.913827896118164 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.1835:  23%|███████████████▋                                                     | 114/500 [00:01<00:05, 70.75batch/s]

3.765429973602295 tensor(0.) tensor(0.) 0.0 0.0
3.9292469024658203 tensor(0.) tensor(0.) 0.0 0.0
4.120639324188232 tensor(0.) tensor(0.) 0.0 0.0
3.9297738075256348 tensor(0.) tensor(0.) 0.0 0.0
4.064943313598633 tensor(0.) tensor(0.) 0.0 0.0
3.656186819076538 tensor(0.) tensor(0.) 0.0 0.0
3.92634916305542 tensor(0.) tensor(0.) 0.0 0.0
3.7511768341064453 tensor(0.) tensor(0.) 0.0 0.0
3.8581595420837402 tensor(0.) tensor(0.) 0.0 0.0
3.842897653579712 tensor(0.) tensor(0.) 0.0 0.0
3.876540422439575 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.1676:  23%|███████████████▋                                                     | 114/500 [00:01<00:05, 70.75batch/s]

3.7703287601470947 tensor(0.) tensor(0.) 0.0 0.0
3.8503942489624023 tensor(0.) tensor(0.) 0.0 0.0
3.875462293624878 tensor(0.) tensor(0.) 0.0 0.0
3.9271957874298096 tensor(0.) tensor(0.) 0.0 0.0
3.575014114379883 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.1406:  26%|█████████████████▉                                                   | 130/500 [00:01<00:05, 73.38batch/s]

3.819845199584961 tensor(0.) tensor(0.) 0.0 0.0
3.9529731273651123 tensor(0.) tensor(0.) 0.0 0.0
3.7616982460021973 tensor(0.) tensor(0.) 0.0 0.0
3.7831997871398926 tensor(0.) tensor(0.) 0.0 0.0
3.6506731510162354 tensor(0.) tensor(0.) 0.0 0.0
3.6859612464904785 tensor(0.) tensor(0.) 0.0 0.0
3.9724178314208984 tensor(0.) tensor(0.) 0.0 0.0
3.964592933654785 tensor(0.) tensor(0.) 0.0 0.0
3.735675573348999 tensor(0.) tensor(0.) 0.0 0.0
3.810476064682007 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.1289:  26%|█████████████████▉                                                   | 130/500 [00:01<00:05, 73.38batch/s]

3.859250545501709 tensor(0.) tensor(0.) 0.0 0.0
3.8826282024383545 tensor(0.) tensor(0.) 0.0 0.0
3.975789785385132 tensor(0.) tensor(0.) 0.0 0.0
3.8573975563049316 tensor(0.) tensor(0.) 0.0 0.0
3.7523276805877686 tensor(0.) tensor(0.) 0.0 0.0
3.9101269245147705 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.1089:  29%|████████████████████▏                                                | 146/500 [00:02<00:04, 73.07batch/s]

3.65679931640625 tensor(0.) tensor(0.) 0.0 0.0
4.041017532348633 tensor(0.) tensor(0.) 0.0 0.0
4.00473690032959 tensor(0.) tensor(0.) 0.0 0.0
3.7034313678741455 tensor(0.) tensor(0.) 0.0 0.0
3.7642486095428467 tensor(0.) tensor(0.) 0.0 0.0
3.5904386043548584 tensor(0.) tensor(0.) 0.0 0.0
3.6909732818603516 tensor(0.) tensor(0.) 0.0 0.0
3.6236515045166016 tensor(0.) tensor(0.) 0.0 0.0
4.162169933319092 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.0879:  29%|████████████████████▏                                                | 146/500 [00:02<00:04, 73.07batch/s]

3.57255482673645 tensor(0.) tensor(0.) 0.0 0.0
3.6852147579193115 tensor(0.) tensor(0.) 0.0 0.0
3.8161725997924805 tensor(0.) tensor(0.) 0.0 0.0
3.612440586090088 tensor(0.) tensor(0.) 0.0 0.0
3.7357349395751953 tensor(0.) tensor(0.) 0.0 0.0
3.6262924671173096 tensor(0.) tensor(0.) 0.0 0.0
3.5049986839294434 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.0693:  31%|█████████████████████▎                                               | 154/500 [00:02<00:04, 73.52batch/s]

3.7221839427948 tensor(0.) tensor(0.) 0.0 0.0
3.46722412109375 tensor(0.) tensor(0.) 0.0 0.0
3.625944137573242 tensor(0.) tensor(0.) 0.0 0.0
3.785099506378174 tensor(0.) tensor(0.) 0.0 0.0
3.86580228805542 tensor(0.) tensor(0.) 0.0 0.0
3.643641710281372 tensor(0.) tensor(0.) 0.0 0.0
3.929758071899414 tensor(0.) tensor(0.) 0.0 0.0
3.847402334213257 tensor(0.) tensor(0.) 0.0 0.0
3.8884365558624268 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.0594:  32%|██████████████████████▎                                              | 162/500 [00:02<00:04, 74.57batch/s]

4.094845771789551 tensor(0.) tensor(0.) 0.0 0.0
3.7616329193115234 tensor(0.) tensor(0.) 0.0 0.0
3.8132920265197754 tensor(0.) tensor(0.) 0.0 0.0
3.6501214504241943 tensor(0.) tensor(0.) 0.0 0.0
3.6778273582458496 tensor(0.) tensor(0.) 0.0 0.0
3.762253522872925 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.0486:  34%|███████████████████████▍                                             | 170/500 [00:02<00:04, 72.51batch/s]

3.810107707977295 tensor(0.) tensor(0.) 0.0 0.0
3.865694999694824 tensor(0.) tensor(0.) 0.0 0.0
3.977097272872925 tensor(0.) tensor(0.) 0.0 0.0
3.811007499694824 tensor(0.) tensor(0.) 0.0 0.0
3.6005916595458984 tensor(0.) tensor(0.) 0.0 0.0
3.9854061603546143 tensor(0.) tensor(0.) 0.0 0.0
3.9704174995422363 tensor(0.) tensor(0.) 0.0 0.0
3.5488593578338623 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.0353:  36%|████████████████████████▌                                            | 178/500 [00:02<00:04, 70.79batch/s]

3.4858667850494385 tensor(0.) tensor(0.) 0.0 0.0
3.6167681217193604 tensor(0.) tensor(0.) 0.0 0.0
3.715820074081421 tensor(0.) tensor(0.) 0.0 0.0
3.7762715816497803 tensor(0.) tensor(0.) 0.0 0.0
3.7101144790649414 tensor(0.) tensor(0.) 0.0 0.0
3.5758895874023438 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.0179:  37%|█████████████████████████▋                                           | 186/500 [00:02<00:04, 68.59batch/s]

3.4956982135772705 tensor(0.) tensor(0.) 0.0 0.0
3.7908639907836914 tensor(0.) tensor(0.) 0.0 0.0
3.638244867324829 tensor(0.) tensor(0.) 0.0 0.0
3.68550968170166 tensor(0.) tensor(0.) 0.0 0.0
3.6218676567077637 tensor(0.) tensor(0.) 0.0 0.0
3.5849828720092773 tensor(0.) tensor(0.) 0.0 0.0
3.5969932079315186 tensor(0.) tensor(0.) 0.0 0.0
3.5558626651763916 tensor(0.) tensor(0.) 0.0 0.0
3.7690558433532715 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.0049:  39%|██████████████████████████▊                                          | 194/500 [00:02<00:04, 71.02batch/s]

3.774322271347046 tensor(0.) tensor(0.) 0.0 0.0
3.548626184463501 tensor(0.) tensor(0.) 0.0 0.0
3.601088523864746 tensor(0.) tensor(0.) 0.0 0.0
3.5022356510162354 tensor(0.) tensor(0.) 0.0 0.0
3.645054578781128 tensor(0.) tensor(0.) 0.0 0.0
4.016904354095459 tensor(0.) tensor(0.) 0.0 0.0
3.710629463195801 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.9926:  40%|███████████████████████████▉                                         | 202/500 [00:02<00:04, 70.96batch/s]

3.7465646266937256 tensor(0.) tensor(0.) 0.0 0.0
3.5688419342041016 tensor(0.) tensor(0.) 0.0 0.0
3.438595771789551 tensor(0.) tensor(0.) 0.0 0.0
3.8173718452453613 tensor(0.) tensor(0.) 0.0 0.0
3.481503963470459 tensor(0.) tensor(0.) 0.0 0.0
3.9813926219940186 tensor(0.) tensor(0.) 0.0 0.0
3.651454210281372 tensor(0.) tensor(0.) 0.0 0.0
3.8187179565429688 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.9837:  42%|████████████████████████████▉                                        | 210/500 [00:03<00:04, 70.07batch/s]

3.8163034915924072 tensor(0.) tensor(0.) 0.0 0.0
3.799027681350708 tensor(0.) tensor(0.) 0.0 0.0
3.6971020698547363 tensor(0.) tensor(0.) 0.0 0.0
3.6814160346984863 tensor(0.) tensor(0.) 0.0 0.0
3.6891684532165527 tensor(0.) tensor(0.) 0.0 0.0
3.388012170791626 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.9712:  44%|██████████████████████████████                                       | 218/500 [00:03<00:03, 70.84batch/s]

3.674375057220459 tensor(0.) tensor(0.) 0.0 0.0
3.8107404708862305 tensor(0.) tensor(0.) 0.0 0.0
3.675344228744507 tensor(0.) tensor(0.) 0.0 0.0
3.5189101696014404 tensor(0.) tensor(0.) 0.0 0.0
3.6710245609283447 tensor(0.) tensor(0.) 0.0 0.0
3.553900957107544 tensor(0.) tensor(0.) 0.0 0.0
3.4456112384796143 tensor(0.) tensor(0.) 0.0 0.0
3.7656049728393555 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.9603:  45%|███████████████████████████████▏                                     | 226/500 [00:03<00:04, 68.05batch/s]

3.716567277908325 tensor(0.) tensor(0.) 0.0 0.0
3.6934268474578857 tensor(0.) tensor(0.) 0.0 0.0
3.868941307067871 tensor(0.) tensor(0.) 0.0 0.0
3.551602363586426 tensor(0.) tensor(0.) 0.0 0.0
3.2863569259643555 tensor(0.) tensor(0.) 0.0 0.0
3.2509047985076904 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.9475:  47%|████████████████████████████████▏                                    | 233/500 [00:03<00:03, 67.29batch/s]

3.6492509841918945 tensor(0.) tensor(0.) 0.0 0.0
3.529867172241211 tensor(0.) tensor(0.) 0.0 0.0
3.5657315254211426 tensor(0.) tensor(0.) 0.0 0.0
3.551901340484619 tensor(0.) tensor(0.) 0.0 0.0
3.5239615440368652 tensor(0.) tensor(0.) 0.0 0.0
3.597904682159424 tensor(0.) tensor(0.) 0.0 0.0
3.4858217239379883 tensor(0.) tensor(0.) 0.0 0.0
3.7711777687072754 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.9368:  48%|█████████████████████████████████                                    | 240/500 [00:03<00:03, 66.25batch/s]

3.489424228668213 tensor(0.) tensor(0.) 0.0 0.0
3.5598723888397217 tensor(0.) tensor(0.) 0.0 0.0
3.6964809894561768 tensor(0.) tensor(0.) 0.0 0.0
3.3936398029327393 tensor(0.) tensor(0.) 0.0 0.0
3.609543561935425 tensor(0.) tensor(0.) 0.0 0.0
3.3886406421661377 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.9241:  49%|██████████████████████████████████                                   | 247/500 [00:03<00:03, 64.53batch/s]

3.68424654006958 tensor(0.) tensor(0.) 0.0 0.0
3.636874198913574 tensor(0.) tensor(0.) 0.0 0.0
3.4576969146728516 tensor(0.) tensor(0.) 0.0 0.0
3.541672468185425 tensor(0.) tensor(0.) 0.0 0.0
3.6219537258148193 tensor(0.) tensor(0.) 0.0 0.0
3.533637762069702 tensor(0.) tensor(0.) 0.0 0.0
3.3713579177856445 tensor(0.) tensor(0.) 0.0 0.0
3.4857943058013916 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.9112:  49%|██████████████████████████████████                                   | 247/500 [00:03<00:03, 64.53batch/s]

3.3998823165893555 tensor(0.) tensor(0.) 0.0 0.0
3.5183658599853516 tensor(0.) tensor(0.) 0.0 0.0
3.436612606048584 tensor(0.) tensor(0.) 0.0 0.0
3.5591955184936523 tensor(0.) tensor(0.) 0.0 0.0
3.3206682205200195 tensor(0.) tensor(0.) 0.0 0.0
3.475903034210205 tensor(0.) tensor(0.) 0.0 0.0
3.469241142272949 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.9002:  53%|████████████████████████████████████▎                                | 263/500 [00:03<00:03, 68.57batch/s]

3.5587832927703857 tensor(0.) tensor(0.) 0.0 0.0
3.459024429321289 tensor(0.) tensor(0.) 0.0 0.0
3.70920991897583 tensor(0.) tensor(0.) 0.0 0.0
3.587813377380371 tensor(0.) tensor(0.) 0.0 0.0
3.5785574913024902 tensor(0.) tensor(0.) 0.0 0.0
3.6554529666900635 tensor(0.) tensor(0.) 0.0 0.0
3.6815948486328125 tensor(0.) tensor(0.) 0.0 0.0
3.4855611324310303 tensor(0.) tensor(0.) 0.0 0.0
3.5921108722686768 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.8923:  53%|████████████████████████████████████▎                                | 263/500 [00:03<00:03, 68.57batch/s]

3.502385139465332 tensor(0.) tensor(0.) 0.0 0.0
3.7130353450775146 tensor(0.) tensor(0.) 0.0 0.0
3.6630563735961914 tensor(0.) tensor(0.) 0.0 0.0
3.548999071121216 tensor(0.) tensor(0.) 0.0 0.0
3.3824024200439453 tensor(0.) tensor(0.) 0.0 0.0
3.462371826171875 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.8807:  54%|█████████████████████████████████████▍                               | 271/500 [00:04<00:03, 68.80batch/s]

3.5313210487365723 tensor(0.) tensor(0.) 0.0 0.0
3.552724599838257 tensor(0.) tensor(0.) 0.0 0.0
3.486600637435913 tensor(0.) tensor(0.) 0.0 0.0
3.6204726696014404 tensor(0.) tensor(0.) 0.0 0.0
3.4609570503234863 tensor(0.) tensor(0.) 0.0 0.0
3.2241852283477783 tensor(0.) tensor(0.) 0.0 0.0
3.1916353702545166 tensor(0.) tensor(0.) 0.0 0.0
3.8303093910217285 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.8714:  56%|██████████████████████████████████████▌                              | 279/500 [00:04<00:03, 68.06batch/s]

3.4360930919647217 tensor(0.) tensor(0.) 0.0 0.0
3.362370491027832 tensor(0.) tensor(0.) 0.0 0.0
3.4333560466766357 tensor(0.) tensor(0.) 0.0 0.0
3.3417787551879883 tensor(0.) tensor(0.) 0.0 0.0
3.3515100479125977 tensor(0.) tensor(0.) 0.0 0.0
3.7155423164367676 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.8590:  57%|███████████████████████████████████████▌                             | 287/500 [00:04<00:03, 70.04batch/s]

3.6413049697875977 tensor(0.) tensor(0.) 0.0 0.0
3.5261521339416504 tensor(0.) tensor(0.) 0.0 0.0
3.64315128326416 tensor(0.) tensor(0.) 0.0 0.0
3.7398247718811035 tensor(0.) tensor(0.) 0.0 0.0
3.2505240440368652 tensor(0.) tensor(0.) 0.0 0.0
3.692446231842041 tensor(0.) tensor(0.) 0.0 0.0
3.2818801403045654 tensor(0.) tensor(0.) 0.0 0.0
3.3194773197174072 tensor(0.) tensor(0.) 0.0 0.0
3.495283603668213 tensor(0.) tensor(0.) 0.0 0.0
3.473740816116333 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.8521:  59%|████████████████████████████████████████▋                            | 295/500 [00:04<00:02, 70.82batch/s]

3.638237953186035 tensor(0.) tensor(0.) 0.0 0.0
3.381664752960205 tensor(0.) tensor(0.) 0.0 0.0
3.499819040298462 tensor(0.) tensor(0.) 0.0 0.0
3.419374465942383 tensor(0.) tensor(0.) 0.0 0.0
3.5684115886688232 tensor(0.) tensor(0.) 0.0 0.0
3.5950732231140137 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.8446:  61%|█████████████████████████████████████████▊                           | 303/500 [00:04<00:02, 70.80batch/s]

3.650620937347412 tensor(0.) tensor(0.) 0.0 0.0
3.815469741821289 tensor(0.) tensor(0.) 0.0 0.0
3.4943273067474365 tensor(0.) tensor(0.) 0.0 0.0
3.4883499145507812 tensor(0.) tensor(0.) 0.0 0.0
3.585376501083374 tensor(0.) tensor(0.) 0.0 0.0
3.418565273284912 tensor(0.) tensor(0.) 0.0 0.0
3.604480266571045 tensor(0.) tensor(0.) 0.0 0.0
3.435084342956543 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.8371:  62%|██████████████████████████████████████████▉                          | 311/500 [00:04<00:02, 68.70batch/s]

3.448876142501831 tensor(0.) tensor(0.) 0.0 0.0
3.6798200607299805 tensor(0.) tensor(0.) 0.0 0.0
3.38319730758667 tensor(0.) tensor(0.) 0.0 0.0
3.4512417316436768 tensor(0.) tensor(0.) 0.0 0.0
3.548234224319458 tensor(0.) tensor(0.) 0.0 0.0
3.2133102416992188 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.8300:  64%|████████████████████████████████████████████                         | 319/500 [00:04<00:02, 70.59batch/s]

3.586061477661133 tensor(0.) tensor(0.) 0.0 0.0
3.612304925918579 tensor(0.) tensor(0.) 0.0 0.0
3.4980227947235107 tensor(0.) tensor(0.) 0.0 0.0
3.560563087463379 tensor(0.) tensor(0.) 0.0 0.0
3.6223337650299072 tensor(0.) tensor(0.) 0.0 0.0
3.216475009918213 tensor(0.) tensor(0.) 0.0 0.0
3.741523027420044 tensor(0.) tensor(0.) 0.0 0.0
3.572657585144043 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.8207:  65%|█████████████████████████████████████████████▏                       | 327/500 [00:04<00:02, 70.42batch/s]

3.5127077102661133 tensor(0.) tensor(0.) 0.0 0.0
3.4072189331054688 tensor(0.) tensor(0.) 0.0 0.0
3.49617075920105 tensor(0.) tensor(0.) 0.0 0.0
3.5295097827911377 tensor(0.) tensor(0.) 0.0 0.0
3.336428642272949 tensor(0.) tensor(0.) 0.0 0.0
3.411080837249756 tensor(0.) tensor(0.) 0.0 0.0
3.3984038829803467 tensor(0.) tensor(0.) 0.0 0.0
3.4663009643554688 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.8130:  67%|██████████████████████████████████████████████▏                      | 335/500 [00:04<00:02, 72.58batch/s]

3.4800643920898438 tensor(0.) tensor(0.) 0.0 0.0
3.7445263862609863 tensor(0.) tensor(0.) 0.0 0.0
3.4237375259399414 tensor(0.) tensor(0.) 0.0 0.0
3.594926357269287 tensor(0.) tensor(0.) 0.0 0.0
3.5681183338165283 tensor(0.) tensor(0.) 0.0 0.0
3.372690200805664 tensor(0.) tensor(0.) 0.0 0.0
3.384002923965454 tensor(0.) tensor(0.) 0.0 0.0
3.404433488845825 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.8065:  69%|███████████████████████████████████████████████▎                     | 343/500 [00:04<00:02, 72.16batch/s]

3.394538164138794 tensor(0.) tensor(0.) 0.0 0.0
3.508390426635742 tensor(0.) tensor(0.) 0.0 0.0
3.6540255546569824 tensor(0.) tensor(0.) 0.0 0.0
3.420874834060669 tensor(0.) tensor(0.) 0.0 0.0
3.3823800086975098 tensor(0.) tensor(0.) 0.0 0.0
3.5981435775756836 tensor(0.) tensor(0.) 0.0 0.0
3.4924237728118896 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.8009:  70%|████████████████████████████████████████████████▍                    | 351/500 [00:05<00:02, 69.79batch/s]

3.669374465942383 tensor(0.) tensor(0.) 0.0 0.0
3.629650354385376 tensor(0.) tensor(0.) 0.0 0.0
3.673034906387329 tensor(0.) tensor(0.) 0.0 0.0
3.516019821166992 tensor(0.) tensor(0.) 0.0 0.0
3.171691656112671 tensor(0.) tensor(0.) 0.0 0.0
3.3590567111968994 tensor(0.) tensor(0.) 0.0 0.0
3.6471738815307617 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.7935:  72%|█████████████████████████████████████████████████▌                   | 359/500 [00:05<00:01, 70.84batch/s]

3.4614431858062744 tensor(0.) tensor(0.) 0.0 0.0
3.3514063358306885 tensor(0.) tensor(0.) 0.0 0.0
3.6147167682647705 tensor(0.) tensor(0.) 0.0 0.0
3.094191789627075 tensor(0.) tensor(0.) 0.0 0.0
3.516385078430176 tensor(0.) tensor(0.) 0.0 0.0
3.4787819385528564 tensor(0.) tensor(0.) 0.0 0.0
3.4384233951568604 tensor(0.) tensor(0.) 0.0 0.0
3.3878607749938965 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.7844:  73%|██████████████████████████████████████████████████▋                  | 367/500 [00:05<00:01, 73.21batch/s]

3.531515121459961 tensor(0.) tensor(0.) 0.0 0.0
3.495668888092041 tensor(0.) tensor(0.) 0.0 0.0
3.4517273902893066 tensor(0.) tensor(0.) 0.0 0.0
3.296978712081909 tensor(0.) tensor(0.) 0.0 0.0
3.4686782360076904 tensor(0.) tensor(0.) 0.0 0.0
3.511683464050293 tensor(0.) tensor(0.) 0.0 0.0
3.51054310798645 tensor(0.) tensor(0.) 0.0 0.0
3.1482656002044678 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.7763:  75%|███████████████████████████████████████████████████▊                 | 375/500 [00:05<00:01, 74.04batch/s]

3.085028886795044 tensor(0.) tensor(0.) 0.0 0.0
3.5998568534851074 tensor(0.) tensor(0.) 0.0 0.0
3.3589816093444824 tensor(0.) tensor(0.) 0.0 0.0
3.2599267959594727 tensor(0.) tensor(0.) 0.0 0.0
3.3888790607452393 tensor(0.) tensor(0.) 0.0 0.0
3.535336971282959 tensor(0.) tensor(0.) 0.0 0.0
3.4742119312286377 tensor(0.) tensor(0.) 0.0 0.0
3.502876043319702 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.7688:  77%|████████████████████████████████████████████████████▊                | 383/500 [00:05<00:01, 73.14batch/s]

3.3033294677734375 tensor(0.) tensor(0.) 0.0 0.0
3.4665327072143555 tensor(0.) tensor(0.) 0.0 0.0
3.612516403198242 tensor(0.) tensor(0.) 0.0 0.0
3.40140962600708 tensor(0.) tensor(0.) 0.0 0.0
2.985684871673584 tensor(0.) tensor(0.) 0.0 0.0
3.482794761657715 tensor(0.) tensor(0.) 0.0 0.0
3.3095154762268066 tensor(0.) tensor(0.) 0.0 0.0
3.124460458755493 tensor(0.) 

Epoch 0 Loss: 3.7611:  78%|█████████████████████████████████████████████████████▉               | 391/500 [00:05<00:01, 73.63batch/s]

tensor(0.) 0.0 0.0
3.559451103210449 tensor(0.) tensor(0.) 0.0 0.0
3.3306338787078857 tensor(0.) tensor(0.) 0.0 0.0
3.469362258911133 tensor(0.) tensor(0.) 0.0 0.0
3.3914780616760254 tensor(0.) tensor(0.) 0.0 0.0
3.476231098175049 tensor(0.) tensor(0.) 0.0 0.0
3.310025691986084 tensor(0.) tensor(0.) 0.0 0.0
3.490215539932251 tensor(0.) tensor(0.) 0.0 0.0
3.3477137088775635 tensor(0.) 

Epoch 0 Loss: 3.7562:  78%|█████████████████████████████████████████████████████▉               | 391/500 [00:05<00:01, 73.63batch/s]

tensor(0.) 0.0 0.0
3.292710065841675 tensor(0.) tensor(0.) 0.0 0.0
3.35092830657959 tensor(0.) tensor(0.) 0.0 0.0
3.613215446472168 tensor(0.) tensor(0.) 0.0 0.0
3.5837414264678955 tensor(0.) tensor(0.) 0.0 0.0
3.646416425704956 tensor(0.) tensor(0.) 0.0 0.0
3.554081916809082 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.7490:  80%|███████████████████████████████████████████████████████              | 399/500 [00:05<00:01, 71.24batch/s]

3.089742660522461 tensor(0.) tensor(0.) 0.0 0.0
3.3365273475646973 tensor(0.) tensor(0.) 0.0 0.0
3.311164140701294 tensor(0.) tensor(0.) 0.0 0.0
3.3544564247131348 tensor(0.) tensor(0.) 0.0 0.0
3.3132009506225586 tensor(0.) tensor(0.) 0.0 0.0
3.454101800918579 tensor(0.) tensor(0.) 0.0 0.0
3.505499839782715 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.7426:  81%|████████████████████████████████████████████████████████▏            | 407/500 [00:05<00:01, 70.67batch/s]

3.381852388381958 tensor(0.) tensor(0.) 0.0 0.0
3.5244362354278564 tensor(0.) tensor(0.) 0.0 0.0
3.181438684463501 tensor(0.) tensor(0.) 0.0 0.0
3.2851369380950928 tensor(0.) tensor(0.) 0.0 0.0
3.385788917541504 tensor(0.) tensor(0.) 0.0 0.0
3.568772315979004 tensor(0.) tensor(0.) 0.0 0.0
3.282167911529541 tensor(0.) tensor(0.) 0.0 0.0
3.3067705631256104 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.7339:  83%|█████████████████████████████████████████████████████████▎           | 415/500 [00:05<00:01, 70.89batch/s]

3.2609031200408936 tensor(0.) tensor(0.) 0.0 0.0
3.416073799133301 tensor(0.) tensor(0.) 0.0 0.0
3.2669243812561035 tensor(0.) tensor(0.) 0.0 0.0
3.4020071029663086 tensor(0.) tensor(0.) 0.0 0.0
3.153566360473633 tensor(0.) tensor(0.) 0.0 0.0
3.2500903606414795 tensor(0.) tensor(0.) 0.0 0.0
3.245645761489868 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.7277:  85%|██████████████████████████████████████████████████████████▎          | 423/500 [00:06<00:01, 71.51batch/s]

3.502854108810425 tensor(0.) tensor(0.) 0.0 0.0
3.1853158473968506 tensor(0.) tensor(0.) 0.0 0.0
3.6419572830200195 tensor(0.) tensor(0.) 0.0 0.0
3.110314130783081 tensor(0.) tensor(0.) 0.0 0.0
3.3136792182922363 tensor(0.) tensor(0.) 0.0 0.0
3.2496519088745117 tensor(0.) tensor(0.) 0.0 0.0
3.4655990600585938 tensor(0.) tensor(0.) 0.0 0.0
3.1772544384002686 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.7190:  86%|███████████████████████████████████████████████████████████▍         | 431/500 [00:06<00:00, 71.01batch/s]

3.398805856704712 tensor(0.) tensor(0.) 0.0 0.0
3.0674898624420166 tensor(0.) tensor(0.) 0.0 0.0
3.292203426361084 tensor(0.) tensor(0.) 0.0 0.0
3.298386335372925 tensor(0.) tensor(0.) 0.0 0.0
3.024559736251831 tensor(0.) tensor(0.) 0.0 0.0
3.4207873344421387 tensor(0.) tensor(0.) 0.0 0.0
3.3658621311187744 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.7108:  88%|████████████████████████████████████████████████████████████▌        | 439/500 [00:06<00:00, 72.50batch/s]

3.413735866546631 tensor(0.) tensor(0.) 0.0 0.0
3.230513334274292 tensor(0.) tensor(0.) 0.0 0.0
3.554039239883423 tensor(0.) tensor(0.) 0.0 0.0
3.3409032821655273 tensor(0.) tensor(0.) 0.0 0.0
3.3389534950256348 tensor(0.) tensor(0.) 0.0 0.0
2.988346815109253 tensor(0.) tensor(0.) 0.0 0.0
3.365377902984619 tensor(0.) tensor(0.) 0.0 0.0
3.427966356277466 tensor(0.) tensor(0.) 0.0 0.0
3.1821649074554443 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.7052:  89%|█████████████████████████████████████████████████████████████▋       | 447/500 [00:06<00:00, 72.21batch/s]

3.3250064849853516 tensor(0.) tensor(0.) 0.0 0.0
3.6306591033935547 tensor(0.) tensor(0.) 0.0 0.0
2.95220947265625 tensor(0.) tensor(0.) 0.0 0.0
3.199345350265503 tensor(0.) tensor(0.) 0.0 0.0
3.27028751373291 tensor(0.) tensor(0.) 0.0 0.0
3.3385794162750244 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.6977:  91%|██████████████████████████████████████████████████████████████▊      | 455/500 [00:06<00:00, 73.40batch/s]

3.36958646774292 tensor(0.) tensor(0.) 0.0 0.0
3.3830642700195312 tensor(0.) tensor(0.) 0.0 0.0
3.5449352264404297 tensor(0.) tensor(0.) 0.0 0.0
3.426476240158081 tensor(0.) tensor(0.) 0.0 0.0
3.1157500743865967 tensor(0.) tensor(0.) 0.0 0.0
3.189082622528076 tensor(0.) tensor(0.) 0.0 0.0
3.4170782566070557 tensor(0.) tensor(0.) 0.0 0.0
3.644669771194458 tensor(0.) tensor(0.) 0.0 0.0
3.300337314605713 tensor(0.) tensor(0.) 0.0 0.0
3.2012381553649902 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.6930:  93%|███████████████████████████████████████████████████████████████▉     | 463/500 [00:06<00:00, 74.20batch/s]

2.963592767715454 tensor(0.) tensor(0.) 0.0 0.0
3.261183977127075 tensor(0.) tensor(0.) 0.0 0.0
3.5501980781555176 tensor(0.) tensor(0.) 0.0 0.0
3.402794122695923 tensor(0.) tensor(0.) 0.0 0.0
3.3468997478485107 tensor(0.) tensor(0.) 0.0 0.0
3.5018908977508545 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.6853:  94%|████████████████████████████████████████████████████████████████▉    | 471/500 [00:06<00:00, 74.57batch/s]

3.2962429523468018 tensor(0.) tensor(0.) 0.0 0.0
3.5786547660827637 tensor(0.) tensor(0.) 0.0 0.0
3.2053916454315186 tensor(0.) tensor(0.) 0.0 0.0
3.2922322750091553 tensor(0.) tensor(0.) 0.0 0.0
3.3355395793914795 tensor(0.) tensor(0.) 0.0 0.0
3.4635558128356934 tensor(0.) tensor(0.) 0.0 0.0
3.195871591567993 tensor(0.) tensor(0.) 0.0 0.0
3.285862684249878 tensor(0.) tensor(0.) 0.0 0.0
3.3052878379821777 tensor(0.) tensor(0.) 0.0 0.0
3.315542697906494 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.6810:  96%|██████████████████████████████████████████████████████████████████   | 479/500 [00:06<00:00, 72.11batch/s]

3.3896689414978027 tensor(0.) tensor(0.) 0.0 0.0
3.069835901260376 tensor(0.) tensor(0.) 0.0 0.0
3.1238396167755127 tensor(0.) tensor(0.) 0.0 0.0
3.096428155899048 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.6732:  97%|███████████████████████████████████████████████████████████████████▏ | 487/500 [00:06<00:00, 71.26batch/s]

3.188117027282715 tensor(0.) tensor(0.) 0.0 0.0
3.3497378826141357 tensor(0.) tensor(0.) 0.0 0.0
3.499358892440796 tensor(0.) tensor(0.) 0.0 0.0
3.297847032546997 tensor(0.) tensor(0.) 0.0 0.0
3.396071434020996 tensor(0.) tensor(0.) 0.0 0.0
3.118525743484497 tensor(0.) tensor(0.) 0.0 0.0
3.417001724243164 tensor(0.) tensor(0.) 0.0 0.0
3.285083055496216 tensor(0.) tensor(0.) 0.0 0.0
3.3833112716674805 tensor(0.) tensor(0.) 0.0 0.0
3.036771297454834 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.6701:  99%|████████████████████████████████████████████████████████████████████▎| 495/500 [00:07<00:00, 71.37batch/s]

3.4854984283447266 tensor(0.) tensor(0.) 0.0 0.0
3.2290003299713135 tensor(0.) tensor(0.) 0.0 0.0
3.355071783065796 tensor(0.) tensor(0.) 0.0 0.0
3.532233953475952 tensor(0.) tensor(0.) 0.0 0.0
3.2322335243225098 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.6666: 100%|█████████████████████████████████████████████████████████████████████| 500/500 [00:07<00:00, 70.23batch/s]

3.55289888381958 tensor(0.) tensor(0.) 0.0 0.0
3.442765712738037 tensor(0.) tensor(0.) 0.0 0.0
3.2076756954193115 tensor(0.) tensor(0.) 0.0 0.0
3.252236843109131 tensor(0.) tensor(0.) 0.0 0.0
3.1555633544921875 tensor(0.) tensor(0.) 0.0 0.0
Student Training Loss: 3.6666366095542906



Epoch 1 Loss: 2.8976:   0%|                                                                               | 0/500 [00:00<?, ?batch/s]

2.8745501041412354 tensor(0.) tensor(0.) 0.0 0.0
2.7470552921295166 tensor(0.) tensor(0.) 0.0 0.0
3.071228265762329 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9003:   3%|█▊                                                                    | 13/500 [00:00<00:07, 61.91batch/s]

3.084273338317871 tensor(0.) tensor(0.) 0.0 0.0
2.888686180114746 tensor(0.) tensor(0.) 0.0 0.0
2.8954546451568604 tensor(0.) tensor(0.) 0.0 0.0
2.994077444076538 tensor(0.) tensor(0.) 0.0 0.0
2.9364893436431885 tensor(0.) tensor(0.) 0.0 0.0
3.04093599319458 tensor(0.) tensor(0.) 0.0 0.0
2.9506659507751465 tensor(0.) tensor(0.) 0.0 0.0
2.7060658931732178 tensor(0.) tensor(0.) 0.0 0.0
2.8015267848968506 tensor(0.) tensor(0.) 0.0 0.0
2.713238000869751 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8828:   3%|█▊                                                                    | 13/500 [00:00<00:07, 61.91batch/s]

2.910571813583374 tensor(0.) tensor(0.) 0.0 0.0
2.8879482746124268 tensor(0.) tensor(0.) 0.0 0.0
2.814162015914917 tensor(0.) tensor(0.) 0.0 0.0
2.691377878189087 tensor(0.) tensor(0.) 0.0 0.0
2.913795232772827 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8782:   5%|███▊                                                                  | 27/500 [00:00<00:07, 66.71batch/s]

2.9853153228759766 tensor(0.) tensor(0.) 0.0 0.0
2.9790823459625244 tensor(0.) tensor(0.) 0.0 0.0
2.9798190593719482 tensor(0.) tensor(0.) 0.0 0.0
2.6537024974823 tensor(0.) tensor(0.) 0.0 0.0
2.714679002761841 tensor(0.) tensor(0.) 0.0 0.0
2.72721529006958 tensor(0.) tensor(0.) 0.0 0.0
2.6293463706970215 tensor(0.) tensor(0.) 0.0 0.0
3.2604196071624756 tensor(0.) tensor(0.) 0.0 0.0
2.860049247741699 tensor(0.) tensor(0.) 0.0 0.0
2.7490968704223633 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8829:   5%|███▊                                                                  | 27/500 [00:00<00:07, 66.71batch/s]

2.906039237976074 tensor(0.) tensor(0.) 0.0 0.0
2.9221956729888916 tensor(0.) tensor(0.) 0.0 0.0
3.153710126876831 tensor(0.) tensor(0.) 0.0 0.0
2.8115060329437256 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8806:   7%|████▉                                                                 | 35/500 [00:00<00:07, 65.72batch/s]

2.749678134918213 tensor(0.) tensor(0.) 0.0 0.0
2.6180737018585205 tensor(0.) tensor(0.) 0.0 0.0
3.0973544120788574 tensor(0.) tensor(0.) 0.0 0.0
2.787613868713379 tensor(0.) tensor(0.) 0.0 0.0
2.8814327716827393 tensor(0.) tensor(0.) 0.0 0.0
3.001896858215332 tensor(0.) tensor(0.) 0.0 0.0
2.9917702674865723 tensor(0.) tensor(0.) 0.0 0.0
2.8434174060821533 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8789:   8%|█████▉                                                                | 42/500 [00:00<00:07, 63.70batch/s]

2.7893378734588623 tensor(0.) tensor(0.) 0.0 0.0
2.876246452331543 tensor(0.) tensor(0.) 0.0 0.0
2.967684268951416 tensor(0.) tensor(0.) 0.0 0.0
2.8142249584198 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8789:  10%|██████▊                                                               | 49/500 [00:00<00:07, 59.32batch/s]

2.7265331745147705 tensor(0.) tensor(0.) 0.0 0.0
2.835200548171997 tensor(0.) tensor(0.) 0.0 0.0
2.78459095954895 tensor(0.) tensor(0.) 0.0 0.0
3.209634780883789 tensor(0.) tensor(0.) 0.0 0.0
2.9031107425689697 tensor(0.) tensor(0.) 0.0 0.0
2.6832032203674316 tensor(0.) tensor(0.) 0.0 0.0
2.984297275543213 tensor(0.) tensor(0.) 0.0 0.0
2.9021096229553223 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8801:  11%|███████▊                                                              | 56/500 [00:00<00:07, 62.07batch/s]

2.7143948078155518 tensor(0.) tensor(0.) 0.0 0.0
3.0141892433166504 tensor(0.) tensor(0.) 0.0 0.0
3.021984815597534 tensor(0.) tensor(0.) 0.0 0.0
2.8713269233703613 tensor(0.) tensor(0.) 0.0 0.0
2.844008445739746 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8915:  13%|████████▊                                                             | 63/500 [00:01<00:06, 63.02batch/s]

3.028769016265869 tensor(0.) tensor(0.) 0.0 0.0
2.82389497756958 tensor(0.) tensor(0.) 0.0 0.0
2.755511999130249 tensor(0.) tensor(0.) 0.0 0.0
2.7066543102264404 tensor(0.) tensor(0.) 0.0 0.0
2.9846081733703613 tensor(0.) tensor(0.) 0.0 0.0
3.307788133621216 tensor(0.) tensor(0.) 0.0 0.0
2.9116411209106445 tensor(0.) tensor(0.) 0.0 0.0
3.077253818511963 tensor(0.) tensor(0.) 0.0 0.0
3.072427749633789 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8880:  14%|█████████▊                                                            | 70/500 [00:01<00:06, 62.54batch/s]

2.749185085296631 tensor(0.) tensor(0.) 0.0 0.0
2.4809093475341797 tensor(0.) tensor(0.) 0.0 0.0
3.049945592880249 tensor(0.) tensor(0.) 0.0 0.0
3.042490005493164 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8832:  15%|██████████▊                                                           | 77/500 [00:01<00:07, 59.89batch/s]

2.8792874813079834 tensor(0.) tensor(0.) 0.0 0.0
2.9102513790130615 tensor(0.) tensor(0.) 0.0 0.0
2.917623281478882 tensor(0.) tensor(0.) 0.0 0.0
2.804323673248291 tensor(0.) tensor(0.) 0.0 0.0
2.7815587520599365 tensor(0.) tensor(0.) 0.0 0.0
2.6331841945648193 tensor(0.) tensor(0.) 0.0 0.0
2.932962656021118 tensor(0.) tensor(0.) 0.0 0.0
2.8722875118255615 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8815:  15%|██████████▊                                                           | 77/500 [00:01<00:07, 59.89batch/s]

2.8104124069213867 tensor(0.) tensor(0.) 0.0 0.0
3.0358169078826904 tensor(0.) tensor(0.) 0.0 0.0
2.8006274700164795 tensor(0.) tensor(0.) 0.0 0.0
2.749925136566162 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8874:  17%|███████████▊                                                          | 84/500 [00:01<00:06, 59.93batch/s]

2.9061391353607178 tensor(0.) tensor(0.) 0.0 0.0
2.9619925022125244 tensor(0.) tensor(0.) 0.0 0.0
3.1657721996307373 tensor(0.) tensor(0.) 0.0 0.0
2.949329137802124 tensor(0.) tensor(0.) 0.0 0.0
3.024190664291382 tensor(0.) tensor(0.) 0.0 0.0
2.9257986545562744 tensor(0.) tensor(0.) 0.0 0.0
2.999873399734497 tensor(0.) tensor(0.) 0.0 0.0
2.6453351974487305 tensor(0.) tensor(0.) 0.0 0.0
2.6045563220977783 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8835:  18%|████████████▋                                                         | 91/500 [00:01<00:06, 59.80batch/s]

2.958340644836426 tensor(0.) tensor(0.) 0.0 0.0
2.8802459239959717 tensor(0.) tensor(0.) 0.0 0.0
2.7402613162994385 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8767:  20%|█████████████▋                                                        | 98/500 [00:01<00:06, 59.99batch/s]

3.118457555770874 tensor(0.) tensor(0.) 0.0 0.0
2.812506914138794 tensor(0.) tensor(0.) 0.0 0.0
2.709115982055664 tensor(0.) tensor(0.) 0.0 0.0
2.732802152633667 tensor(0.) tensor(0.) 0.0 0.0
2.6509292125701904 tensor(0.) tensor(0.) 0.0 0.0
2.849775791168213 tensor(0.) tensor(0.) 0.0 0.0
2.7620184421539307 tensor(0.) tensor(0.) 0.0 0.0
2.734823226928711 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8713:  21%|██████████████▍                                                      | 105/500 [00:01<00:06, 57.73batch/s]

2.7215094566345215 tensor(0.) tensor(0.) 0.0 0.0
2.560056686401367 tensor(0.) tensor(0.) 0.0 0.0
2.826066493988037 tensor(0.) tensor(0.) 0.0 0.0
2.8319451808929443 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8667:  23%|███████████████▌                                                     | 113/500 [00:01<00:06, 62.46batch/s]

2.921097755432129 tensor(0.) tensor(0.) 0.0 0.0
2.7080655097961426 tensor(0.) tensor(0.) 0.0 0.0
2.6886250972747803 tensor(0.) tensor(0.) 0.0 0.0
2.7044677734375 tensor(0.) tensor(0.) 0.0 0.0
2.866813898086548 tensor(0.) tensor(0.) 0.0 0.0
2.5976743698120117 tensor(0.) tensor(0.) 0.0 0.0
2.8516845703125 tensor(0.) tensor(0.) 0.0 0.0
3.1082639694213867 tensor(0.) tensor(0.) 0.0 0.0
2.872926950454712 tensor(0.) tensor(0.) 0.0 0.0
2.9086856842041016 tensor(0.) tensor(0.) 0.0 0.0
2.811312198638916 tensor(0.) tensor(0.) 0.0 0.0
3.0408027172088623 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8646:  24%|████████████████▋                                                    | 121/500 [00:01<00:05, 65.73batch/s]

2.4515349864959717 tensor(0.) tensor(0.) 0.0 0.0
2.8461103439331055 tensor(0.) tensor(0.) 0.0 0.0
2.8763463497161865 tensor(0.) tensor(0.) 0.0 0.0
2.9924094676971436 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8593:  26%|█████████████████▊                                                   | 129/500 [00:02<00:05, 67.25batch/s]

2.624133348464966 tensor(0.) tensor(0.) 0.0 0.0
2.8128662109375 tensor(0.) tensor(0.) 0.0 0.0
2.950187921524048 tensor(0.) tensor(0.) 0.0 0.0
2.5971176624298096 tensor(0.) tensor(0.) 0.0 0.0
3.1795852184295654 tensor(0.) tensor(0.) 0.0 0.0
2.727008581161499 tensor(0.) tensor(0.) 0.0 0.0
2.9926106929779053 tensor(0.) tensor(0.) 0.0 0.0
2.694387912750244 tensor(0.) tensor(0.) 0.0 0.0
2.609182357788086 tensor(0.) tensor(0.) 0.0 0.0
2.692763566970825 tensor(0.) tensor(0.) 0.0 0.0
2.803987503051758 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8593:  27%|██████████████████▊                                                  | 136/500 [00:02<00:05, 67.99batch/s]

2.8998706340789795 tensor(0.) tensor(0.) 0.0 0.0
2.812899589538574 tensor(0.) tensor(0.) 0.0 0.0
2.883655309677124 tensor(0.) tensor(0.) 0.0 0.0
2.8434534072875977 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8546:  29%|███████████████████▊                                                 | 144/500 [00:02<00:05, 69.75batch/s]

2.5955464839935303 tensor(0.) tensor(0.) 0.0 0.0
2.847963333129883 tensor(0.) tensor(0.) 0.0 0.0
3.0874392986297607 tensor(0.) tensor(0.) 0.0 0.0
3.0175256729125977 tensor(0.) tensor(0.) 0.0 0.0
2.6106317043304443 tensor(0.) tensor(0.) 0.0 0.0
2.9051520824432373 tensor(0.) tensor(0.) 0.0 0.0
2.7723729610443115 tensor(0.) tensor(0.) 0.0 0.0
2.6606507301330566 tensor(0.) tensor(0.) 0.0 0.0
2.6567788124084473 tensor(0.) tensor(0.) 0.0 0.0
2.743971586227417 tensor(0.) tensor(0.) 0.0 0.0
3.0865824222564697 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8561:  29%|███████████████████▊                                                 | 144/500 [00:02<00:05, 69.75batch/s]

2.6694109439849854 tensor(0.) tensor(0.) 0.0 0.0
2.9937360286712646 tensor(0.) tensor(0.) 0.0 0.0
2.8945369720458984 tensor(0.) tensor(0.) 0.0 0.0
3.0819640159606934 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8551:  32%|█████████████████████▉                                               | 159/500 [00:02<00:05, 68.08batch/s]

2.919668674468994 tensor(0.) tensor(0.) 0.0 0.0
3.0548453330993652 tensor(0.) tensor(0.) 0.0 0.0
2.7707717418670654 tensor(0.) tensor(0.) 0.0 0.0
2.541485548019409 tensor(0.) tensor(0.) 0.0 0.0
2.5944135189056396 tensor(0.) tensor(0.) 0.0 0.0
2.928271770477295 tensor(0.) tensor(0.) 0.0 0.0
2.7832815647125244 tensor(0.) tensor(0.) 0.0 0.0
3.0060722827911377 tensor(0.) tensor(0.) 0.0 0.0
2.6862740516662598 tensor(0.) tensor(0.) 0.0 0.0
2.8884317874908447 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8512:  32%|█████████████████████▉                                               | 159/500 [00:02<00:05, 68.08batch/s]

2.6268248558044434 tensor(0.) tensor(0.) 0.0 0.0
2.7018752098083496 tensor(0.) tensor(0.) 0.0 0.0
2.5885086059570312 tensor(0.) tensor(0.) 0.0 0.0
2.9676103591918945 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8496:  35%|███████████████████████▊                                             | 173/500 [00:02<00:04, 66.29batch/s]

2.7013115882873535 tensor(0.) tensor(0.) 0.0 0.0
2.8730759620666504 tensor(0.) tensor(0.) 0.0 0.0
3.052232265472412 tensor(0.) tensor(0.) 0.0 0.0
2.800832509994507 tensor(0.) tensor(0.) 0.0 0.0
2.742105484008789 tensor(0.) tensor(0.) 0.0 0.0
2.782266855239868 tensor(0.) tensor(0.) 0.0 0.0
2.8377435207366943 tensor(0.) tensor(0.) 0.0 0.0
2.56596040725708 tensor(0.) tensor(0.) 0.0 0.0
2.81154203414917 tensor(0.) tensor(0.) 0.0 0.0
2.9536709785461426 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8477:  36%|████████████████████████▊                                            | 180/500 [00:02<00:04, 66.96batch/s]

2.6822168827056885 tensor(0.) tensor(0.) 0.0 0.0
2.8971807956695557 tensor(0.) tensor(0.) 0.0 0.0
3.015223741531372 tensor(0.) tensor(0.) 0.0 0.0
2.450094223022461 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8453:  37%|█████████████████████████▊                                           | 187/500 [00:02<00:04, 63.00batch/s]

2.697554588317871 tensor(0.) tensor(0.) 0.0 0.0
2.639228105545044 tensor(0.) tensor(0.) 0.0 0.0
2.6343207359313965 tensor(0.) tensor(0.) 0.0 0.0
2.915436029434204 tensor(0.) tensor(0.) 0.0 0.0
2.9169323444366455 tensor(0.) tensor(0.) 0.0 0.0
2.9420740604400635 tensor(0.) tensor(0.) 0.0 0.0
2.76725697517395 tensor(0.) tensor(0.) 0.0 0.0
2.8267016410827637 tensor(0.) tensor(0.) 0.0 0.0
2.844730854034424 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8449:  37%|█████████████████████████▊                                           | 187/500 [00:03<00:04, 63.00batch/s]

2.969191074371338 tensor(0.) tensor(0.) 0.0 0.0
2.62321400642395 tensor(0.) tensor(0.) 0.0 0.0
2.862039089202881 tensor(0.) tensor(0.) 0.0 0.0
2.471047878265381 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8414:  40%|███████████████████████████▋                                         | 201/500 [00:03<00:04, 63.13batch/s]

2.878054141998291 tensor(0.) tensor(0.) 0.0 0.0
2.733863115310669 tensor(0.) tensor(0.) 0.0 0.0
2.9705846309661865 tensor(0.) tensor(0.) 0.0 0.0
2.6117305755615234 tensor(0.) tensor(0.) 0.0 0.0
2.820207118988037 tensor(0.) tensor(0.) 0.0 0.0
2.698310136795044 tensor(0.) tensor(0.) 0.0 0.0
2.970004081726074 tensor(0.) tensor(0.) 0.0 0.0
2.8590707778930664 tensor(0.) tensor(0.) 0.0 0.0
2.733323097229004 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8391:  40%|███████████████████████████▋                                         | 201/500 [00:03<00:04, 63.13batch/s]

2.702954053878784 tensor(0.) tensor(0.) 0.0 0.0
2.8659753799438477 tensor(0.) tensor(0.) 0.0 0.0
2.6667542457580566 tensor(0.) tensor(0.) 0.0 0.0
2.6576037406921387 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8355:  43%|█████████████████████████████▋                                       | 215/500 [00:03<00:04, 62.84batch/s]

2.9031713008880615 tensor(0.) tensor(0.) 0.0 0.0
2.5347790718078613 tensor(0.) tensor(0.) 0.0 0.0
2.821420192718506 tensor(0.) tensor(0.) 0.0 0.0
2.4600436687469482 tensor(0.) tensor(0.) 0.0 0.0
2.8961265087127686 tensor(0.) tensor(0.) 0.0 0.0
2.6927249431610107 tensor(0.) tensor(0.) 0.0 0.0
3.1425135135650635 tensor(0.) tensor(0.) 0.0 0.0
2.4359190464019775 tensor(0.) tensor(0.) 0.0 0.0
2.8955397605895996 tensor(0.) tensor(0.) 0.0 0.0
2.7019808292388916 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8347:  43%|█████████████████████████████▋                                       | 215/500 [00:03<00:04, 62.84batch/s]

2.7731008529663086 tensor(0.) tensor(0.) 0.0 0.0
2.855008602142334 tensor(0.) tensor(0.) 0.0 0.0
2.590407371520996 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8325:  44%|██████████████████████████████▋                                      | 222/500 [00:03<00:04, 63.91batch/s]

3.0094170570373535 tensor(0.) tensor(0.) 0.0 0.0
2.811894416809082 tensor(0.) tensor(0.) 0.0 0.0
2.956746816635132 tensor(0.) tensor(0.) 0.0 0.0
2.972275733947754 tensor(0.) tensor(0.) 0.0 0.0
2.620649814605713 tensor(0.) tensor(0.) 0.0 0.0
2.6591949462890625 tensor(0.) tensor(0.) 0.0 0.0
2.637686252593994 tensor(0.) tensor(0.) 0.0 0.0
3.136604070663452 tensor(0.) tensor(0.) 0.0 0.0
2.4519200325012207 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8304:  46%|███████████████████████████████▌                                     | 229/500 [00:03<00:04, 60.14batch/s]

2.61934232711792 tensor(0.) tensor(0.) 0.0 0.0
2.6737613677978516 tensor(0.) tensor(0.) 0.0 0.0
2.7055611610412598 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8305:  47%|████████████████████████████████▌                                    | 236/500 [00:03<00:04, 60.62batch/s]

2.6959002017974854 tensor(0.) tensor(0.) 0.0 0.0
2.8174328804016113 tensor(0.) tensor(0.) 0.0 0.0
2.6676294803619385 tensor(0.) tensor(0.) 0.0 0.0
2.600600242614746 tensor(0.) tensor(0.) 0.0 0.0
2.7301604747772217 tensor(0.) tensor(0.) 0.0 0.0
3.1038787364959717 tensor(0.) tensor(0.) 0.0 0.0
2.6725893020629883 tensor(0.) tensor(0.) 0.0 0.0
3.2694649696350098 tensor(0.) tensor(0.) 0.0 0.0
3.0562245845794678 tensor(0.) tensor(0.) 0.0 0.0
2.7256414890289307 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8308:  49%|█████████████████████████████████▌                                   | 243/500 [00:03<00:04, 61.31batch/s]

2.7700610160827637 tensor(0.) tensor(0.) 0.0 0.0
2.680757761001587 tensor(0.) tensor(0.) 0.0 0.0
3.1211087703704834 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8297:  50%|██████████████████████████████████▌                                  | 250/500 [00:04<00:04, 61.70batch/s]

2.7283759117126465 tensor(0.) tensor(0.) 0.0 0.0
2.8716437816619873 tensor(0.) tensor(0.) 0.0 0.0
2.724710702896118 tensor(0.) tensor(0.) 0.0 0.0
2.87374210357666 tensor(0.) tensor(0.) 0.0 0.0
2.833839178085327 tensor(0.) tensor(0.) 0.0 0.0
2.9162051677703857 tensor(0.) tensor(0.) 0.0 0.0
2.8073270320892334 tensor(0.) tensor(0.) 0.0 0.0
2.4165380001068115 tensor(0.) tensor(0.) 0.0 0.0
3.026355028152466 tensor(0.) tensor(0.) 0.0 0.0
2.872232437133789 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8287:  50%|██████████████████████████████████▌                                  | 250/500 [00:04<00:04, 61.70batch/s]

2.790315628051758 tensor(0.) tensor(0.) 0.0 0.0
2.5526697635650635 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8278:  53%|████████████████████████████████████▍                                | 264/500 [00:04<00:03, 60.88batch/s]

2.7507550716400146 tensor(0.) tensor(0.) 0.0 0.0
3.102219820022583 tensor(0.) tensor(0.) 0.0 0.0
2.5167932510375977 tensor(0.) tensor(0.) 0.0 0.0
2.787607431411743 tensor(0.) tensor(0.) 0.0 0.0
2.5824127197265625 tensor(0.) tensor(0.) 0.0 0.0
2.9178171157836914 tensor(0.) tensor(0.) 0.0 0.0
2.953550338745117 tensor(0.) tensor(0.) 0.0 0.0
2.9477367401123047 tensor(0.) tensor(0.) 0.0 0.0
2.6369364261627197 tensor(0.) tensor(0.) 0.0 0.0
2.8725082874298096 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8281:  53%|████████████████████████████████████▍                                | 264/500 [00:04<00:03, 60.88batch/s]

2.910449743270874 tensor(0.) tensor(0.) 0.0 0.0
2.82527494430542 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8300:  56%|██████████████████████████████████████▌                              | 279/500 [00:04<00:03, 60.74batch/s]

2.848578453063965 tensor(0.) tensor(0.) 0.0 0.0
2.7817986011505127 tensor(0.) tensor(0.) 0.0 0.0
3.115353584289551 tensor(0.) tensor(0.) 0.0 0.0
3.0231451988220215 tensor(0.) tensor(0.) 0.0 0.0
2.7898316383361816 tensor(0.) tensor(0.) 0.0 0.0
2.7287251949310303 tensor(0.) tensor(0.) 0.0 0.0
3.0645503997802734 tensor(0.) tensor(0.) 0.0 0.0
2.6278743743896484 tensor(0.) tensor(0.) 0.0 0.0
2.901564359664917 tensor(0.) tensor(0.) 0.0 0.0
2.7898447513580322 tensor(0.) tensor(0.) 0.0 0.0
2.9618101119995117 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8314:  56%|██████████████████████████████████████▌                              | 279/500 [00:04<00:03, 60.74batch/s]

3.060638189315796 tensor(0.) tensor(0.) 0.0 0.0
2.9771158695220947 tensor(0.) tensor(0.) 0.0 0.0
2.9075491428375244 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8278:  57%|███████████████████████████████████████▌                             | 287/500 [00:04<00:03, 61.87batch/s]

2.7213470935821533 tensor(0.) tensor(0.) 0.0 0.0
2.7267324924468994 tensor(0.) tensor(0.) 0.0 0.0
2.6617603302001953 tensor(0.) tensor(0.) 0.0 0.0
2.831829309463501 tensor(0.) tensor(0.) 0.0 0.0
2.964423894882202 tensor(0.) tensor(0.) 0.0 0.0
2.8713366985321045 tensor(0.) tensor(0.) 0.0 0.0
2.603330612182617 tensor(0.) tensor(0.) 0.0 0.0
2.4010820388793945 tensor(0.) tensor(0.) 0.0 0.0
2.5523698329925537 tensor(0.) tensor(0.) 0.0 0.0
2.87357234954834 tensor(0.) tensor(0.) 0.0 0.0
2.6552228927612305 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8250:  59%|████████████████████████████████████████▋                            | 295/500 [00:04<00:03, 64.23batch/s]

2.6119155883789062 tensor(0.) tensor(0.) 0.0 0.0
2.4710135459899902 tensor(0.) tensor(0.) 0.0 0.0
2.724226713180542 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8239:  61%|█████████████████████████████████████████▊                           | 303/500 [00:04<00:03, 65.47batch/s]

2.7783420085906982 tensor(0.) tensor(0.) 0.0 0.0
2.761502981185913 tensor(0.) tensor(0.) 0.0 0.0
2.913303852081299 tensor(0.) tensor(0.) 0.0 0.0
2.603384494781494 tensor(0.) tensor(0.) 0.0 0.0
2.6842005252838135 tensor(0.) tensor(0.) 0.0 0.0
2.8939528465270996 tensor(0.) tensor(0.) 0.0 0.0
2.6660752296447754 tensor(0.) tensor(0.) 0.0 0.0
2.8081371784210205 tensor(0.) tensor(0.) 0.0 0.0
2.9599740505218506 tensor(0.) tensor(0.) 0.0 0.0
2.8558571338653564 tensor(0.) tensor(0.) 0.0 0.0
2.9099230766296387 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8245:  61%|█████████████████████████████████████████▊                           | 303/500 [00:04<00:03, 65.47batch/s]

2.9814536571502686 tensor(0.) tensor(0.) 0.0 0.0
2.717872381210327 tensor(0.) tensor(0.) 0.0 0.0
2.8799076080322266 tensor(0.) tensor(0.) 0.0 0.0
2.745466709136963 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8205:  64%|████████████████████████████████████████████                         | 319/500 [00:05<00:02, 68.47batch/s]

2.682202100753784 tensor(0.) tensor(0.) 0.0 0.0
2.681356430053711 tensor(0.) tensor(0.) 0.0 0.0
2.8947319984436035 tensor(0.) tensor(0.) 0.0 0.0
2.699104070663452 tensor(0.) tensor(0.) 0.0 0.0
2.7792177200317383 tensor(0.) tensor(0.) 0.0 0.0
2.795973300933838 tensor(0.) tensor(0.) 0.0 0.0
2.5322461128234863 tensor(0.) tensor(0.) 0.0 0.0
2.72637939453125 tensor(0.) tensor(0.) 0.0 0.0
2.8524279594421387 tensor(0.) tensor(0.) 0.0 0.0
2.5938880443573 tensor(0.) tensor(0.) 0.0 0.0
2.6207544803619385 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8179:  64%|████████████████████████████████████████████                         | 319/500 [00:05<00:02, 68.47batch/s]

2.695702314376831 tensor(0.) tensor(0.) 0.0 0.0
2.832779884338379 tensor(0.) tensor(0.) 0.0 0.0
2.3566389083862305 tensor(0.) tensor(0.) 0.0 0.0
2.5383822917938232 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8151:  67%|██████████████████████████████████████████████▏                      | 335/500 [00:05<00:02, 69.82batch/s]

2.7641711235046387 tensor(0.) tensor(0.) 0.0 0.0
3.074404239654541 tensor(0.) tensor(0.) 0.0 0.0
3.045112371444702 tensor(0.) tensor(0.) 0.0 0.0
2.888523817062378 tensor(0.) tensor(0.) 0.0 0.0
2.692758560180664 tensor(0.) tensor(0.) 0.0 0.0
2.3961527347564697 tensor(0.) tensor(0.) 0.0 0.0
2.560054063796997 tensor(0.) tensor(0.) 0.0 0.0
2.649318218231201 tensor(0.) tensor(0.) 0.0 0.0
2.5926249027252197 tensor(0.) tensor(0.) 0.0 0.0
2.5617454051971436 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8141:  67%|██████████████████████████████████████████████▏                      | 335/500 [00:05<00:02, 69.82batch/s]

2.7557625770568848 tensor(0.) tensor(0.) 0.0 0.0
2.3830041885375977 tensor(0.) tensor(0.) 0.0 0.0
2.9891843795776367 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8093:  69%|███████████████████████████████████████████████▎                     | 343/500 [00:05<00:02, 67.95batch/s]

2.412848472595215 tensor(0.) tensor(0.) 0.0 0.0
2.7145886421203613 tensor(0.) tensor(0.) 0.0 0.0
2.7626540660858154 tensor(0.) tensor(0.) 0.0 0.0
2.51753306388855 tensor(0.) tensor(0.) 0.0 0.0
2.598093271255493 tensor(0.) tensor(0.) 0.0 0.0
2.8641388416290283 tensor(0.) tensor(0.) 0.0 0.0
2.6299386024475098 tensor(0.) tensor(0.) 0.0 0.0
2.5539872646331787 tensor(0.) tensor(0.) 0.0 0.0
2.7464840412139893 tensor(0.) tensor(0.) 0.0 0.0
2.643437147140503 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8091:  70%|████████████████████████████████████████████████▎                    | 350/500 [00:05<00:02, 65.26batch/s]

2.634680986404419 tensor(0.) tensor(0.) 0.0 0.0
2.887261152267456 tensor(0.) tensor(0.) 0.0 0.0
2.8412773609161377 tensor(0.) tensor(0.) 0.0 0.0
2.5756571292877197 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8054:  71%|█████████████████████████████████████████████████▎                   | 357/500 [00:05<00:02, 63.74batch/s]

2.5588555335998535 tensor(0.) tensor(0.) 0.0 0.0
2.70181941986084 tensor(0.) tensor(0.) 0.0 0.0
2.7241616249084473 tensor(0.) tensor(0.) 0.0 0.0
2.7514593601226807 tensor(0.) tensor(0.) 0.0 0.0
2.5625698566436768 tensor(0.) tensor(0.) 0.0 0.0
2.524357557296753 tensor(0.) tensor(0.) 0.0 0.0
2.6952319145202637 tensor(0.) tensor(0.) 0.0 0.0
2.864717960357666 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8049:  73%|██████████████████████████████████████████████████▏                  | 364/500 [00:05<00:02, 59.97batch/s]

2.8571929931640625 tensor(0.) tensor(0.) 0.0 0.0
2.534605026245117 tensor(0.) tensor(0.) 0.0 0.0
2.830812692642212 tensor(0.) tensor(0.) 0.0 0.0
2.8229990005493164 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8041:  74%|███████████████████████████████████████████████████▏                 | 371/500 [00:05<00:02, 60.00batch/s]

2.859029531478882 tensor(0.) tensor(0.) 0.0 0.0
2.943397283554077 tensor(0.) tensor(0.) 0.0 0.0
2.7040560245513916 tensor(0.) tensor(0.) 0.0 0.0
2.779874801635742 tensor(0.) tensor(0.) 0.0 0.0
2.8634729385375977 tensor(0.) tensor(0.) 0.0 0.0
2.648545503616333 tensor(0.) tensor(0.) 0.0 0.0
2.7766802310943604 tensor(0.) tensor(0.) 0.0 0.0
2.5635204315185547 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8032:  74%|███████████████████████████████████████████████████▏                 | 371/500 [00:05<00:02, 60.00batch/s]

2.8233795166015625 tensor(0.) tensor(0.) 0.0 0.0
2.402663230895996 tensor(0.) tensor(0.) 0.0 0.0
2.9076452255249023 tensor(0.) tensor(0.) 0.0 0.0
2.7466368675231934 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8009:  77%|████████████████████████████████████████████████████▉                | 384/500 [00:06<00:01, 58.68batch/s]

2.524656057357788 tensor(0.) tensor(0.) 0.0 0.0
2.6478633880615234 tensor(0.) tensor(0.) 0.0 0.0
3.093317985534668 tensor(0.) tensor(0.) 0.0 0.0
2.6306545734405518 tensor(0.) tensor(0.) 0.0 0.0
2.489030361175537 tensor(0.) tensor(0.) 0.0 0.0
2.5526931285858154 tensor(0.) tensor(0.) 0.0 0.0
2.7385034561157227 tensor(0.) tensor(0.) 0.0 0.0
2.856532573699951 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8009:  77%|████████████████████████████████████████████████████▉                | 384/500 [00:06<00:01, 58.68batch/s]

2.7296764850616455 tensor(0.) tensor(0.) 0.0 0.0
2.547175645828247 tensor(0.) tensor(0.) 0.0 0.0
3.1376171112060547 tensor(0.) tensor(0.) 0.0 0.0
2.775149345397949 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.7983:  79%|██████████████████████████████████████████████████████▊              | 397/500 [00:06<00:01, 60.51batch/s]

2.5981180667877197 tensor(0.) tensor(0.) 0.0 0.0
2.577728271484375 tensor(0.) tensor(0.) 0.0 0.0
2.8077359199523926 tensor(0.) tensor(0.) 0.0 0.0
2.6294002532958984 tensor(0.) tensor(0.) 0.0 0.0
2.6224050521850586 tensor(0.) tensor(0.) 0.0 0.0
2.6892218589782715 tensor(0.) tensor(0.) 0.0 0.0
2.7109317779541016 tensor(0.) tensor(0.) 0.0 0.0
2.744124174118042 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.7988:  79%|██████████████████████████████████████████████████████▊              | 397/500 [00:06<00:01, 60.51batch/s]

2.682298183441162 tensor(0.) tensor(0.) 0.0 0.0
2.9309744834899902 tensor(0.) tensor(0.) 0.0 0.0
2.824836492538452 tensor(0.) tensor(0.) 0.0 0.0
2.974961280822754 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.7955:  81%|███████████████████████████████████████████████████████▊             | 404/500 [00:06<00:01, 57.91batch/s]

2.773136615753174 tensor(0.) tensor(0.) 0.0 0.0
2.5940675735473633 tensor(0.) tensor(0.) 0.0 0.0
2.4453177452087402 tensor(0.) tensor(0.) 0.0 0.0
2.8484630584716797 tensor(0.) tensor(0.) 0.0 0.0
2.8589563369750977 tensor(0.) tensor(0.) 0.0 0.0
2.582252264022827 tensor(0.) tensor(0.) 0.0 0.0
2.368523597717285 tensor(0.) tensor(0.) 0.0 0.0
2.551173448562622 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.7959:  82%|████████████████████████████████████████████████████████▌            | 410/500 [00:06<00:01, 57.37batch/s]

3.1127922534942627 tensor(0.) tensor(0.) 0.0 0.0
2.6397390365600586 tensor(0.) tensor(0.) 0.0 0.0
2.9063875675201416 tensor(0.) tensor(0.) 0.0 0.0
2.700579881668091 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.7968:  83%|█████████████████████████████████████████████████████████▌           | 417/500 [00:06<00:01, 59.25batch/s]

2.7638635635375977 tensor(0.) tensor(0.) 0.0 0.0
2.4708194732666016 tensor(0.) tensor(0.) 0.0 0.0
2.80753755569458 tensor(0.) tensor(0.) 0.0 0.0
3.026949405670166 tensor(0.) tensor(0.) 0.0 0.0
2.783003568649292 tensor(0.) tensor(0.) 0.0 0.0
2.913267135620117 tensor(0.) tensor(0.) 0.0 0.0
2.938999891281128 tensor(0.) tensor(0.) 0.0 0.0
2.8048336505889893 tensor(0.) tensor(0.) 0.0 0.0
2.927760124206543 tensor(0.) tensor(0.) 0.0 0.0
2.8993523120880127 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.7949:  85%|██████████████████████████████████████████████████████████▋          | 425/500 [00:06<00:01, 63.42batch/s]

2.626059055328369 tensor(0.) tensor(0.) 0.0 0.0
2.34232497215271 tensor(0.) tensor(0.) 0.0 0.0
2.6503090858459473 tensor(0.) tensor(0.) 0.0 0.0
2.739306926727295 tensor(0.) tensor(0.) 0.0 0.0
2.8088345527648926 tensor(0.) tensor(0.) 0.0 0.0
2.725609540939331 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.7930:  87%|███████████████████████████████████████████████████████████▊         | 433/500 [00:06<00:01, 65.84batch/s]

2.931352138519287 tensor(0.) tensor(0.) 0.0 0.0
2.7725164890289307 tensor(0.) tensor(0.) 0.0 0.0
2.5961649417877197 tensor(0.) tensor(0.) 0.0 0.0
2.945831060409546 tensor(0.) tensor(0.) 0.0 0.0
2.9425690174102783 tensor(0.) tensor(0.) 0.0 0.0
2.2903871536254883 tensor(0.) tensor(0.) 0.0 0.0
2.6408777236938477 tensor(0.) tensor(0.) 0.0 0.0
2.4925336837768555 tensor(0.) tensor(0.) 0.0 0.0
2.7264814376831055 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.7921:  88%|████████████████████████████████████████████████████████████▋        | 440/500 [00:07<00:00, 65.61batch/s]

2.7173285484313965 tensor(0.) tensor(0.) 0.0 0.0
2.7058041095733643 tensor(0.) tensor(0.) 0.0 0.0
2.848512887954712 tensor(0.) tensor(0.) 0.0 0.0
2.799825429916382 tensor(0.) tensor(0.) 0.0 0.0
2.5573995113372803 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.7902:  90%|█████████████████████████████████████████████████████████████▊       | 448/500 [00:07<00:00, 67.39batch/s]

2.6935503482818604 tensor(0.) tensor(0.) 0.0 0.0
2.5815515518188477 tensor(0.) tensor(0.) 0.0 0.0
2.6883230209350586 tensor(0.) tensor(0.) 0.0 0.0
2.490177631378174 tensor(0.) tensor(0.) 0.0 0.0
2.8729751110076904 tensor(0.) tensor(0.) 0.0 0.0
2.6602933406829834 tensor(0.) tensor(0.) 0.0 0.0
3.089956045150757 tensor(0.) tensor(0.) 0.0 0.0
2.5969631671905518 tensor(0.) tensor(0.) 0.0 0.0
2.593475580215454 tensor(0.) tensor(0.) 0.0 0.0
2.7143735885620117 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.7884:  91%|██████████████████████████████████████████████████████████████▉      | 456/500 [00:07<00:00, 68.66batch/s]

2.7837536334991455 tensor(0.) tensor(0.) 0.0 0.0
2.6695868968963623 tensor(0.) tensor(0.) 0.0 0.0
2.4021360874176025 tensor(0.) tensor(0.) 0.0 0.0
2.5374293327331543 tensor(0.) tensor(0.) 0.0 0.0
2.711606740951538 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.7859:  93%|████████████████████████████████████████████████████████████████     | 464/500 [00:07<00:00, 69.68batch/s]

2.6825449466705322 tensor(0.) tensor(0.) 0.0 0.0
2.79171085357666 tensor(0.) tensor(0.) 0.0 0.0
2.756950616836548 tensor(0.) tensor(0.) 0.0 0.0
2.6140642166137695 tensor(0.) tensor(0.) 0.0 0.0
2.5820701122283936 tensor(0.) tensor(0.) 0.0 0.0
2.5005974769592285 tensor(0.) tensor(0.) 0.0 0.0
2.731499671936035 tensor(0.) tensor(0.) 0.0 0.0
2.656620502471924 tensor(0.) tensor(0.) 0.0 0.0
2.721329927444458 tensor(0.) tensor(0.) 0.0 0.0
2.750535011291504 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.7843:  94%|█████████████████████████████████████████████████████████████████▏   | 472/500 [00:07<00:00, 69.69batch/s]

2.7895681858062744 tensor(0.) tensor(0.) 0.0 0.0
2.6691880226135254 tensor(0.) tensor(0.) 0.0 0.0
2.5844526290893555 tensor(0.) tensor(0.) 0.0 0.0
2.370225191116333 tensor(0.) tensor(0.) 0.0 0.0
2.8592450618743896 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.7810:  96%|██████████████████████████████████████████████████████████████████▏  | 480/500 [00:07<00:00, 70.65batch/s]

2.6738805770874023 tensor(0.) tensor(0.) 0.0 0.0
2.493382215499878 tensor(0.) tensor(0.) 0.0 0.0
2.9101500511169434 tensor(0.) tensor(0.) 0.0 0.0
2.5153648853302 tensor(0.) tensor(0.) 0.0 0.0
2.603243112564087 tensor(0.) tensor(0.) 0.0 0.0
2.396115779876709 tensor(0.) tensor(0.) 0.0 0.0
2.6912546157836914 tensor(0.) tensor(0.) 0.0 0.0
2.275240421295166 tensor(0.) tensor(0.) 0.0 0.0
2.8400943279266357 tensor(0.) tensor(0.) 0.0 0.0
2.633211612701416 tensor(0.) 

Epoch 1 Loss: 2.7781:  98%|███████████████████████████████████████████████████████████████████▎ | 488/500 [00:07<00:00, 70.75batch/s]

tensor(0.) 0.0 0.0
2.126197099685669 tensor(0.) tensor(0.) 0.0 0.0
2.7196731567382812 tensor(0.) tensor(0.) 0.0 0.0
2.4750585556030273 tensor(0.) tensor(0.) 0.0 0.0
2.802746057510376 tensor(0.) tensor(0.) 0.0 0.0
2.4796009063720703 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.7757:  99%|████████████████████████████████████████████████████████████████████▍| 496/500 [00:07<00:00, 68.15batch/s]

2.4665939807891846 tensor(0.) tensor(0.) 0.0 0.0
2.5590016841888428 tensor(0.) tensor(0.) 0.0 0.0
2.8629677295684814 tensor(0.) tensor(0.) 0.0 0.0
2.662250280380249 tensor(0.) tensor(0.) 0.0 0.0
2.8030524253845215 tensor(0.) tensor(0.) 0.0 0.0
2.8522183895111084 tensor(0.) tensor(0.) 0.0 0.0
2.483513832092285 tensor(0.) tensor(0.) 0.0 0.0
2.360957622528076 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.7739: 100%|█████████████████████████████████████████████████████████████████████| 500/500 [00:07<00:00, 63.71batch/s]

2.448038339614868 tensor(0.) tensor(0.) 0.0 0.0
2.5000200271606445 tensor(0.) tensor(0.) 0.0 0.0
2.485592842102051 tensor(0.) tensor(0.) 0.0 0.0
2.7762088775634766 tensor(0.) tensor(0.) 0.0 0.0
Teacher Training Loss: 2.7739026803970335



Epoch 1 Loss: 3.2032:   0%|                                                                               | 0/500 [00:00<?, ?batch/s]

3.536783456802368 tensor(0.) tensor(0.) 0.0 0.0
3.016861915588379 tensor(0.) tensor(0.) 0.0 0.0
3.4037108421325684 tensor(0.) tensor(0.) 0.0 0.0
2.7885491847991943 tensor(0.) tensor(0.) 0.0 0.0
3.2701659202575684 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.1841:   3%|█▉                                                                    | 14/500 [00:00<00:07, 67.91batch/s]

3.0237576961517334 tensor(0.) tensor(0.) 0.0 0.0
2.810622453689575 tensor(0.) tensor(0.) 0.0 0.0
3.436161756515503 tensor(0.) tensor(0.) 0.0 0.0
3.172590970993042 tensor(0.) tensor(0.) 0.0 0.0
3.1687331199645996 tensor(0.) tensor(0.) 0.0 0.0
3.472142219543457 tensor(0.) tensor(0.) 0.0 0.0
3.3940505981445312 tensor(0.) tensor(0.) 0.0 0.0
3.127530574798584 tensor(0.) tensor(0.) 0.0 0.0
2.9562814235687256 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.1645:   3%|█▉                                                                    | 14/500 [00:00<00:07, 67.91batch/s]

3.1072423458099365 tensor(0.) tensor(0.) 0.0 0.0
3.189981698989868 tensor(0.) tensor(0.) 0.0 0.0
3.0835633277893066 tensor(0.) tensor(0.) 0.0 0.0
3.1221015453338623 tensor(0.) tensor(0.) 0.0 0.0
3.1874494552612305 tensor(0.) tensor(0.) 0.0 0.0
3.0215539932250977 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.1330:   6%|████▏                                                                 | 30/500 [00:00<00:06, 73.17batch/s]

2.7099831104278564 tensor(0.) tensor(0.) 0.0 0.0
3.0552074909210205 tensor(0.) tensor(0.) 0.0 0.0
3.1156418323516846 tensor(0.) tensor(0.) 0.0 0.0
3.2237067222595215 tensor(0.) tensor(0.) 0.0 0.0
2.7807891368865967 tensor(0.) tensor(0.) 0.0 0.0
3.1096925735473633 tensor(0.) tensor(0.) 0.0 0.0
3.3477964401245117 tensor(0.) tensor(0.) 0.0 0.0
3.105480670928955 tensor(0.) tensor(0.) 0.0 0.0
3.164407253265381 tensor(0.) tensor(0.) 0.0 0.0
3.0861260890960693 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.1341:   6%|████▏                                                                 | 30/500 [00:00<00:06, 73.17batch/s]

3.4444830417633057 tensor(0.) tensor(0.) 0.0 0.0
2.971606731414795 tensor(0.) tensor(0.) 0.0 0.0
3.0319159030914307 tensor(0.) tensor(0.) 0.0 0.0
3.1210968494415283 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.1365:   8%|█████▎                                                                | 38/500 [00:00<00:06, 67.18batch/s]

3.419908046722412 tensor(0.) tensor(0.) 0.0 0.0
3.089076280593872 tensor(0.) tensor(0.) 0.0 0.0
3.156548500061035 tensor(0.) tensor(0.) 0.0 0.0
2.871854543685913 tensor(0.) tensor(0.) 0.0 0.0
2.9376866817474365 tensor(0.) tensor(0.) 0.0 0.0
3.1672301292419434 tensor(0.) tensor(0.) 0.0 0.0
3.081951856613159 tensor(0.) tensor(0.) 0.0 0.0
3.1136298179626465 tensor(0.) tensor(0.) 0.0 0.0
3.581578254699707 tensor(0.) tensor(0.) 0.0 0.0
3.0301084518432617 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.1408:   9%|██████▍                                                               | 46/500 [00:00<00:06, 68.55batch/s]

3.3380658626556396 tensor(0.) tensor(0.) 0.0 0.0
3.2823715209960938 tensor(0.) tensor(0.) 0.0 0.0
2.7795419692993164 tensor(0.) tensor(0.) 0.0 0.0
3.347961187362671 tensor(0.) tensor(0.) 0.0 0.0
3.144282341003418 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.1410:  11%|███████▌                                                              | 54/500 [00:00<00:06, 69.84batch/s]

3.2058377265930176 tensor(0.) tensor(0.) 0.0 0.0
3.0257372856140137 tensor(0.) tensor(0.) 0.0 0.0
3.212385654449463 tensor(0.) tensor(0.) 0.0 0.0
3.021141290664673 tensor(0.) tensor(0.) 0.0 0.0
2.8841333389282227 tensor(0.) tensor(0.) 0.0 0.0
2.9048421382904053 tensor(0.) tensor(0.) 0.0 0.0
3.2805120944976807 tensor(0.) tensor(0.) 0.0 0.0
3.4110093116760254 tensor(0.) tensor(0.) 0.0 0.0
3.4293429851531982 tensor(0.) tensor(0.) 0.0 0.0
3.0455684661865234 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.1337:  12%|████████▋                                                             | 62/500 [00:00<00:06, 69.59batch/s]

3.0808866024017334 tensor(0.) tensor(0.) 0.0 0.0
2.70845890045166 tensor(0.) tensor(0.) 0.0 0.0
3.0033516883850098 tensor(0.) tensor(0.) 0.0 0.0
3.31095027923584 tensor(0.) tensor(0.) 0.0 0.0
2.9520773887634277 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.1235:  14%|█████████▊                                                            | 70/500 [00:01<00:06, 70.04batch/s]

3.3190646171569824 tensor(0.) tensor(0.) 0.0 0.0
2.9187591075897217 tensor(0.) tensor(0.) 0.0 0.0
3.221972942352295 tensor(0.) tensor(0.) 0.0 0.0
2.963360548019409 tensor(0.) tensor(0.) 0.0 0.0
2.8433029651641846 tensor(0.) tensor(0.) 0.0 0.0
2.9911792278289795 tensor(0.) tensor(0.) 0.0 0.0
2.9743194580078125 tensor(0.) tensor(0.) 0.0 0.0
3.0491645336151123 tensor(0.) tensor(0.) 0.0 0.0
3.018772840499878 tensor(0.) tensor(0.) 0.0 0.0
3.463916063308716 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.1227:  16%|██████████▉                                                           | 78/500 [00:01<00:05, 71.02batch/s]

3.1122043132781982 tensor(0.) tensor(0.) 0.0 0.0
3.2655556201934814 tensor(0.) tensor(0.) 0.0 0.0
2.9568731784820557 tensor(0.) tensor(0.) 0.0 0.0
3.2238986492156982 tensor(0.) tensor(0.) 0.0 0.0
2.9924416542053223 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.1267:  17%|████████████                                                          | 86/500 [00:01<00:05, 69.66batch/s]

3.0510165691375732 tensor(0.) tensor(0.) 0.0 0.0
3.365116596221924 tensor(0.) tensor(0.) 0.0 0.0
2.8630001544952393 tensor(0.) tensor(0.) 0.0 0.0
3.402158737182617 tensor(0.) tensor(0.) 0.0 0.0
3.0585813522338867 tensor(0.) tensor(0.) 0.0 0.0
3.2446651458740234 tensor(0.) tensor(0.) 0.0 0.0
3.3673782348632812 tensor(0.) tensor(0.) 0.0 0.0
2.8654086589813232 tensor(0.) tensor(0.) 0.0 0.0
3.023158550262451 tensor(0.) tensor(0.) 0.0 0.0
3.349644660949707 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.1209:  19%|█████████████▏                                                        | 94/500 [00:01<00:05, 72.22batch/s]

3.314056634902954 tensor(0.) tensor(0.) 0.0 0.0
3.0131583213806152 tensor(0.) tensor(0.) 0.0 0.0
2.7839581966400146 tensor(0.) tensor(0.) 0.0 0.0
3.158217191696167 tensor(0.) tensor(0.) 0.0 0.0
2.817605495452881 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.1352:  21%|██████████████▏                                                      | 103/500 [00:01<00:05, 73.03batch/s]

3.2369518280029297 tensor(0.) tensor(0.) 0.0 0.0
3.1984927654266357 tensor(0.) tensor(0.) 0.0 0.0
3.3594276905059814 tensor(0.) tensor(0.) 0.0 0.0
3.019611120223999 tensor(0.) tensor(0.) 0.0 0.0
3.2541842460632324 tensor(0.) tensor(0.) 0.0 0.0
3.2561590671539307 tensor(0.) tensor(0.) 0.0 0.0
3.243788242340088 tensor(0.) tensor(0.) 0.0 0.0
3.3093254566192627 tensor(0.) tensor(0.) 0.0 0.0
3.3310136795043945 tensor(0.) tensor(0.) 0.0 0.0
3.313107490539551 tensor(0.) tensor(0.) 0.0 0.0
3.301785945892334 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.1334:  21%|██████████████▏                                                      | 103/500 [00:01<00:05, 73.03batch/s]

3.098173141479492 tensor(0.) tensor(0.) 0.0 0.0
2.8720788955688477 tensor(0.) tensor(0.) 0.0 0.0
3.083955764770508 tensor(0.) tensor(0.) 0.0 0.0
3.1696832180023193 tensor(0.) tensor(0.) 0.0 0.0
3.263676404953003 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.1386:  24%|████████████████▍                                                    | 119/500 [00:01<00:05, 72.72batch/s]

3.35023832321167 tensor(0.) tensor(0.) 0.0 0.0
3.4476795196533203 tensor(0.) tensor(0.) 0.0 0.0
3.279904365539551 tensor(0.) tensor(0.) 0.0 0.0
3.001302480697632 tensor(0.) tensor(0.) 0.0 0.0
3.147027015686035 tensor(0.) tensor(0.) 0.0 0.0
3.153731107711792 tensor(0.) tensor(0.) 0.0 0.0
3.241689443588257 tensor(0.) tensor(0.) 0.0 0.0
3.2142999172210693 tensor(0.) tensor(0.) 0.0 0.0
3.06752872467041 tensor(0.) tensor(0.) 0.0 0.0
3.05241060256958 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.1417:  24%|████████████████▍                                                    | 119/500 [00:01<00:05, 72.72batch/s]

3.1718084812164307 tensor(0.) tensor(0.) 0.0 0.0
3.315037250518799 tensor(0.) tensor(0.) 0.0 0.0
3.2209208011627197 tensor(0.) tensor(0.) 0.0 0.0
3.3116986751556396 tensor(0.) tensor(0.) 0.0 0.0
3.059796094894409 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.1415:  27%|██████████████████▋                                                  | 135/500 [00:01<00:05, 72.39batch/s]

3.2557613849639893 tensor(0.) tensor(0.) 0.0 0.0
3.0085678100585938 tensor(0.) tensor(0.) 0.0 0.0
3.2058937549591064 tensor(0.) tensor(0.) 0.0 0.0
3.0976402759552 tensor(0.) tensor(0.) 0.0 0.0
3.1155881881713867 tensor(0.) tensor(0.) 0.0 0.0
3.0769968032836914 tensor(0.) tensor(0.) 0.0 0.0
2.8900768756866455 tensor(0.) tensor(0.) 0.0 0.0
3.3362884521484375 tensor(0.) tensor(0.) 0.0 0.0
3.1584017276763916 tensor(0.) tensor(0.) 0.0 0.0
3.2420568466186523 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.1421:  27%|██████████████████▋                                                  | 135/500 [00:01<00:05, 72.39batch/s]

3.2976608276367188 tensor(0.) tensor(0.) 0.0 0.0
3.023167133331299 tensor(0.) tensor(0.) 0.0 0.0
3.030261754989624 tensor(0.) tensor(0.) 0.0 0.0
3.3176915645599365 tensor(0.) tensor(0.) 0.0 0.0
3.118447780609131 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.1405:  29%|███████████████████▋                                                 | 143/500 [00:02<00:04, 73.13batch/s]

3.0010504722595215 tensor(0.) tensor(0.) 0.0 0.0
2.9309418201446533 tensor(0.) tensor(0.) 0.0 0.0
2.9992423057556152 tensor(0.) tensor(0.) 0.0 0.0
3.307853937149048 tensor(0.) tensor(0.) 0.0 0.0
3.11197566986084 tensor(0.) tensor(0.) 0.0 0.0
3.0066115856170654 tensor(0.) tensor(0.) 0.0 0.0
3.2921385765075684 tensor(0.) tensor(0.) 0.0 0.0
3.3353993892669678 tensor(0.) tensor(0.) 0.0 0.0
3.091322422027588 tensor(0.) tensor(0.) 0.0 0.0
3.1041815280914307 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.1424:  30%|████████████████████▊                                                | 151/500 [00:02<00:04, 72.54batch/s]

3.5191457271575928 tensor(0.) tensor(0.) 0.0 0.0
3.0925686359405518 tensor(0.) tensor(0.) 0.0 0.0
3.0785064697265625 tensor(0.) tensor(0.) 0.0 0.0
3.16233491897583 tensor(0.) tensor(0.) 0.0 0.0
3.14742374420166 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.1405:  32%|█████████████████████▉                                               | 159/500 [00:02<00:04, 72.07batch/s]

3.1716623306274414 tensor(0.) tensor(0.) 0.0 0.0
3.088578701019287 tensor(0.) tensor(0.) 0.0 0.0
2.8577327728271484 tensor(0.) tensor(0.) 0.0 0.0
2.9858367443084717 tensor(0.) tensor(0.) 0.0 0.0
3.2423746585845947 tensor(0.) tensor(0.) 0.0 0.0
2.8972854614257812 tensor(0.) tensor(0.) 0.0 0.0
3.2432503700256348 tensor(0.) tensor(0.) 0.0 0.0
3.295147180557251 tensor(0.) tensor(0.) 0.0 0.0
3.111295223236084 tensor(0.) tensor(0.) 0.0 0.0
3.2249317169189453 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.1426:  33%|███████████████████████                                              | 167/500 [00:02<00:04, 72.03batch/s]

3.181605339050293 tensor(0.) tensor(0.) 0.0 0.0
3.1662991046905518 tensor(0.) tensor(0.) 0.0 0.0
3.2823123931884766 tensor(0.) tensor(0.) 0.0 0.0
3.1713292598724365 tensor(0.) tensor(0.) 0.0 0.0
3.2457518577575684 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.1378:  35%|████████████████████████▏                                            | 175/500 [00:02<00:04, 71.61batch/s]

3.202694892883301 tensor(0.) tensor(0.) 0.0 0.0
3.0427215099334717 tensor(0.) tensor(0.) 0.0 0.0
3.2716424465179443 tensor(0.) tensor(0.) 0.0 0.0
3.037198543548584 tensor(0.) tensor(0.) 0.0 0.0
2.9291787147521973 tensor(0.) tensor(0.) 0.0 0.0
2.9814443588256836 tensor(0.) tensor(0.) 0.0 0.0
3.1318581104278564 tensor(0.) tensor(0.) 0.0 0.0
2.7242541313171387 tensor(0.) tensor(0.) 0.0 0.0
3.1042544841766357 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.1380:  37%|█████████████████████████▎                                           | 183/500 [00:02<00:04, 70.62batch/s]

3.0835700035095215 tensor(0.) tensor(0.) 0.0 0.0
3.1563384532928467 tensor(0.) tensor(0.) 0.0 0.0
3.322150230407715 tensor(0.) tensor(0.) 0.0 0.0
2.8776440620422363 tensor(0.) tensor(0.) 0.0 0.0
3.3002233505249023 tensor(0.) tensor(0.) 0.0 0.0
3.1462693214416504 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.1370:  38%|██████████████████████████▎                                          | 191/500 [00:02<00:04, 70.24batch/s]

3.0650017261505127 tensor(0.) tensor(0.) 0.0 0.0
3.0611050128936768 tensor(0.) tensor(0.) 0.0 0.0
3.1802492141723633 tensor(0.) tensor(0.) 0.0 0.0
3.1523101329803467 tensor(0.) tensor(0.) 0.0 0.0
2.996251106262207 tensor(0.) tensor(0.) 0.0 0.0
3.2725532054901123 tensor(0.) tensor(0.) 0.0 0.0
2.957428216934204 tensor(0.) tensor(0.) 0.0 0.0
3.2170238494873047 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.1340:  38%|██████████████████████████▎                                          | 191/500 [00:02<00:04, 70.24batch/s]

2.9191653728485107 tensor(0.) tensor(0.) 0.0 0.0
3.19144344329834 tensor(0.) tensor(0.) 0.0 0.0
2.9569597244262695 tensor(0.) tensor(0.) 0.0 0.0
3.020951747894287 tensor(0.) tensor(0.) 0.0 0.0
2.99462890625 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.1312:  41%|████████████████████████████▍                                        | 206/500 [00:02<00:04, 67.24batch/s]

3.0535941123962402 tensor(0.) tensor(0.) 0.0 0.0
2.922008991241455 tensor(0.) tensor(0.) 0.0 0.0
3.145873785018921 tensor(0.) tensor(0.) 0.0 0.0
2.7799041271209717 tensor(0.) tensor(0.) 0.0 0.0
3.4139697551727295 tensor(0.) tensor(0.) 0.0 0.0
3.1079976558685303 tensor(0.) tensor(0.) 0.0 0.0
3.073807954788208 tensor(0.) tensor(0.) 0.0 0.0
2.9935529232025146 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.1290:  41%|████████████████████████████▍                                        | 206/500 [00:03<00:04, 67.24batch/s]

3.3340182304382324 tensor(0.) tensor(0.) 0.0 0.0
3.0949878692626953 tensor(0.) tensor(0.) 0.0 0.0
3.1026418209075928 tensor(0.) tensor(0.) 0.0 0.0
2.8761892318725586 tensor(0.) tensor(0.) 0.0 0.0
2.8918991088867188 tensor(0.) tensor(0.) 0.0 0.0
3.0341479778289795 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.1262:  43%|█████████████████████████████▍                                       | 213/500 [00:03<00:04, 67.23batch/s]

3.016366481781006 tensor(0.) tensor(0.) 0.0 0.0
3.0474185943603516 tensor(0.) tensor(0.) 0.0 0.0
2.8605871200561523 tensor(0.) tensor(0.) 0.0 0.0
3.060323476791382 tensor(0.) tensor(0.) 0.0 0.0
2.969106674194336 tensor(0.) tensor(0.) 0.0 0.0
3.2787420749664307 tensor(0.) tensor(0.) 0.0 0.0
3.1929521560668945 tensor(0.) tensor(0.) 0.0 0.0
3.12847900390625 tensor(0.) tensor(0.) 0.0 0.0
2.975358247756958 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.1302:  44%|██████████████████████████████▍                                      | 221/500 [00:03<00:04, 67.72batch/s]

3.3919713497161865 tensor(0.) tensor(0.) 0.0 0.0
3.3012359142303467 tensor(0.) tensor(0.) 0.0 0.0
3.5230872631073 tensor(0.) tensor(0.) 0.0 0.0
3.219975471496582 tensor(0.) tensor(0.) 0.0 0.0
3.1140434741973877 tensor(0.) tensor(0.) 0.0 0.0
3.1270859241485596 tensor(0.) tensor(0.) 0.0 0.0
3.1255147457122803 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.1268:  46%|███████████████████████████████▌                                     | 229/500 [00:03<00:03, 70.19batch/s]

3.1796889305114746 tensor(0.) tensor(0.) 0.0 0.0
2.8073058128356934 tensor(0.) tensor(0.) 0.0 0.0
3.128342628479004 tensor(0.) tensor(0.) 0.0 0.0
2.9660158157348633 tensor(0.) tensor(0.) 0.0 0.0
3.1220226287841797 tensor(0.) tensor(0.) 0.0 0.0
2.8073482513427734 tensor(0.) tensor(0.) 0.0 0.0
2.9531033039093018 tensor(0.) tensor(0.) 0.0 0.0
3.2657692432403564 tensor(0.) tensor(0.) 0.0 0.0
3.060013771057129 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.1274:  47%|████████████████████████████████▋                                    | 237/500 [00:03<00:03, 72.44batch/s]

3.1701126098632812 tensor(0.) tensor(0.) 0.0 0.0
3.0632565021514893 tensor(0.) tensor(0.) 0.0 0.0
2.808835983276367 tensor(0.) tensor(0.) 0.0 0.0
3.2242887020111084 tensor(0.) tensor(0.) 0.0 0.0
3.3823132514953613 tensor(0.) tensor(0.) 0.0 0.0
3.2334651947021484 tensor(0.) tensor(0.) 0.0 0.0
3.22160267829895 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.1254:  49%|█████████████████████████████████▊                                   | 245/500 [00:03<00:03, 73.03batch/s]

2.874537467956543 tensor(0.) tensor(0.) 0.0 0.0
3.356875419616699 tensor(0.) tensor(0.) 0.0 0.0
3.0457773208618164 tensor(0.) tensor(0.) 0.0 0.0
2.979158639907837 tensor(0.) tensor(0.) 0.0 0.0
3.2362442016601562 tensor(0.) tensor(0.) 0.0 0.0
2.867255449295044 tensor(0.) tensor(0.) 0.0 0.0
3.092623233795166 tensor(0.) tensor(0.) 0.0 0.0
3.0643067359924316 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.1233:  51%|██████████████████████████████████▉                                  | 253/500 [00:03<00:03, 73.23batch/s]

3.1717050075531006 tensor(0.) tensor(0.) 0.0 0.0
2.741175651550293 tensor(0.) tensor(0.) 0.0 0.0
3.1801810264587402 tensor(0.) tensor(0.) 0.0 0.0
2.8821563720703125 tensor(0.) tensor(0.) 0.0 0.0
3.139859676361084 tensor(0.) tensor(0.) 0.0 0.0
2.9318201541900635 tensor(0.) tensor(0.) 0.0 0.0
3.280336856842041 tensor(0.) tensor(0.) 0.0 0.0
3.015131950378418 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.1211:  52%|████████████████████████████████████                                 | 261/500 [00:03<00:03, 72.35batch/s]

3.054018020629883 tensor(0.) tensor(0.) 0.0 0.0
3.193331718444824 tensor(0.) tensor(0.) 0.0 0.0
3.0598649978637695 tensor(0.) tensor(0.) 0.0 0.0
2.930030584335327 tensor(0.) tensor(0.) 0.0 0.0
2.937619686126709 tensor(0.) tensor(0.) 0.0 0.0
3.0941245555877686 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.1170:  54%|█████████████████████████████████████                                | 269/500 [00:03<00:03, 69.76batch/s]

3.0015692710876465 tensor(0.) tensor(0.) 0.0 0.0
2.8345792293548584 tensor(0.) tensor(0.) 0.0 0.0
2.9714105129241943 tensor(0.) tensor(0.) 0.0 0.0
3.072117805480957 tensor(0.) tensor(0.) 0.0 0.0
2.8789284229278564 tensor(0.) tensor(0.) 0.0 0.0
2.9186928272247314 tensor(0.) tensor(0.) 0.0 0.0
3.0414838790893555 tensor(0.) tensor(0.) 0.0 0.0
2.8784477710723877 tensor(0.) 

Epoch 1 Loss: 3.1153:  55%|██████████████████████████████████████▏                              | 277/500 [00:03<00:03, 64.99batch/s]

tensor(0.) 0.0 0.0
3.046272039413452 tensor(0.) tensor(0.) 0.0 0.0
2.5956239700317383 tensor(0.) tensor(0.) 0.0 0.0
3.2264928817749023 tensor(0.) tensor(0.) 0.0 0.0
3.3904318809509277 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.1168:  57%|███████████████████████████████████████▎                             | 285/500 [00:04<00:03, 66.77batch/s]

3.0602896213531494 tensor(0.) tensor(0.) 0.0 0.0
3.4329028129577637 tensor(0.) tensor(0.) 0.0 0.0
3.3228988647460938 tensor(0.) tensor(0.) 0.0 0.0
3.049267053604126 tensor(0.) tensor(0.) 0.0 0.0
3.1356911659240723 tensor(0.) tensor(0.) 0.0 0.0
3.0680935382843018 tensor(0.) tensor(0.) 0.0 0.0
3.2615294456481934 tensor(0.) tensor(0.) 0.0 0.0
2.9964118003845215 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.1139:  57%|███████████████████████████████████████▎                             | 285/500 [00:04<00:03, 66.77batch/s]

2.870940923690796 tensor(0.) tensor(0.) 0.0 0.0
2.9035515785217285 tensor(0.) tensor(0.) 0.0 0.0
3.2597384452819824 tensor(0.) tensor(0.) 0.0 0.0
3.009429931640625 tensor(0.) tensor(0.) 0.0 0.0
2.8673055171966553 tensor(0.) tensor(0.) 0.0 0.0
2.9552533626556396 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.1106:  59%|████████████████████████████████████████▍                            | 293/500 [00:04<00:03, 66.43batch/s]

2.7905166149139404 tensor(0.) tensor(0.) 0.0 0.0
2.9033353328704834 tensor(0.) tensor(0.) 0.0 0.0
2.9667000770568848 tensor(0.) tensor(0.) 0.0 0.0
2.918219804763794 tensor(0.) tensor(0.) 0.0 0.0
3.20628023147583 tensor(0.) tensor(0.) 0.0 0.0
2.875748872756958 tensor(0.) tensor(0.) 0.0 0.0
3.1574525833129883 tensor(0.) tensor(0.) 0.0 0.0
3.0973267555236816 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.1088:  60%|█████████████████████████████████████████▌                           | 301/500 [00:04<00:03, 65.99batch/s]

2.9964046478271484 tensor(0.) tensor(0.) 0.0 0.0
2.987513542175293 tensor(0.) tensor(0.) 0.0 0.0
3.1617672443389893 tensor(0.) tensor(0.) 0.0 0.0
3.1846883296966553 tensor(0.) tensor(0.) 0.0 0.0
2.9299814701080322 tensor(0.) tensor(0.) 0.0 0.0
2.8454513549804688 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.1049:  62%|██████████████████████████████████████████▋                          | 309/500 [00:04<00:02, 68.18batch/s]

3.154909610748291 tensor(0.) tensor(0.) 0.0 0.0
2.93129825592041 tensor(0.) tensor(0.) 0.0 0.0
2.9657094478607178 tensor(0.) tensor(0.) 0.0 0.0
2.823451519012451 tensor(0.) tensor(0.) 0.0 0.0
2.955381393432617 tensor(0.) tensor(0.) 0.0 0.0
2.963479995727539 tensor(0.) tensor(0.) 0.0 0.0
2.8305671215057373 tensor(0.) tensor(0.) 0.0 0.0
3.0268096923828125 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.1029:  63%|███████████████████████████████████████████▌                         | 316/500 [00:04<00:02, 68.25batch/s]

3.2188351154327393 tensor(0.) tensor(0.) 0.0 0.0
3.073099136352539 tensor(0.) tensor(0.) 0.0 0.0
2.9870171546936035 tensor(0.) tensor(0.) 0.0 0.0
2.9644668102264404 tensor(0.) tensor(0.) 0.0 0.0
2.978724479675293 tensor(0.) tensor(0.) 0.0 0.0
2.76078462600708 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0995:  65%|████████████████████████████████████████████▌                        | 323/500 [00:04<00:02, 65.22batch/s]

2.8389956951141357 tensor(0.) tensor(0.) 0.0 0.0
2.980471134185791 tensor(0.) tensor(0.) 0.0 0.0
3.0622634887695312 tensor(0.) tensor(0.) 0.0 0.0
2.8532896041870117 tensor(0.) tensor(0.) 0.0 0.0
3.2119147777557373 tensor(0.) tensor(0.) 0.0 0.0
2.8545949459075928 tensor(0.) tensor(0.) 0.0 0.0
3.050565242767334 tensor(0.) tensor(0.) 0.0 0.0
2.8729159832000732 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0982:  66%|█████████████████████████████████████████████▋                       | 331/500 [00:04<00:02, 65.09batch/s]

3.1373651027679443 tensor(0.) tensor(0.) 0.0 0.0
2.6785471439361572 tensor(0.) tensor(0.) 0.0 0.0
3.1094698905944824 tensor(0.) tensor(0.) 0.0 0.0
2.940730333328247 tensor(0.) tensor(0.) 0.0 0.0
3.028918981552124 tensor(0.) tensor(0.) 0.0 0.0
3.2591872215270996 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0963:  68%|██████████████████████████████████████████████▋                      | 338/500 [00:04<00:02, 65.95batch/s]

2.909735918045044 tensor(0.) tensor(0.) 0.0 0.0
3.0812528133392334 tensor(0.) tensor(0.) 0.0 0.0
2.751661777496338 tensor(0.) tensor(0.) 0.0 0.0
3.0867362022399902 tensor(0.) tensor(0.) 0.0 0.0
3.2226455211639404 tensor(0.) tensor(0.) 0.0 0.0
2.88227915763855 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0949:  69%|███████████████████████████████████████████████▌                     | 345/500 [00:04<00:02, 62.38batch/s]

3.1800780296325684 tensor(0.) tensor(0.) 0.0 0.0
3.0974836349487305 tensor(0.) tensor(0.) 0.0 0.0
2.9816155433654785 tensor(0.) tensor(0.) 0.0 0.0
2.8389883041381836 tensor(0.) tensor(0.) 0.0 0.0
3.0590808391571045 tensor(0.) tensor(0.) 0.0 0.0
2.950967788696289 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0914:  70%|████████████████████████████████████████████████▌                    | 352/500 [00:05<00:02, 62.35batch/s]

3.0191309452056885 tensor(0.) tensor(0.) 0.0 0.0
3.0439577102661133 tensor(0.) tensor(0.) 0.0 0.0
2.798443555831909 tensor(0.) tensor(0.) 0.0 0.0
2.9285361766815186 tensor(0.) tensor(0.) 0.0 0.0
2.5903708934783936 tensor(0.) tensor(0.) 0.0 0.0
2.9722301959991455 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0896:  72%|█████████████████████████████████████████████████▌                   | 359/500 [00:05<00:02, 61.65batch/s]

2.913161516189575 tensor(0.) tensor(0.) 0.0 0.0
2.8519186973571777 tensor(0.) tensor(0.) 0.0 0.0
3.2820115089416504 tensor(0.) tensor(0.) 0.0 0.0
2.9195775985717773 tensor(0.) tensor(0.) 0.0 0.0
2.92012882232666 tensor(0.) tensor(0.) 0.0 0.0
2.831362009048462 tensor(0.) tensor(0.) 0.0 0.0
3.2747914791107178 tensor(0.) tensor(0.) 0.0 0.0
3.1882171630859375 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0890:  72%|█████████████████████████████████████████████████▌                   | 359/500 [00:05<00:02, 61.65batch/s]

3.124467372894287 tensor(0.) tensor(0.) 0.0 0.0
2.9016613960266113 tensor(0.) tensor(0.) 0.0 0.0
3.1529321670532227 tensor(0.) tensor(0.) 0.0 0.0
3.036635398864746 tensor(0.) tensor(0.) 0.0 0.0
3.0617423057556152 tensor(0.) tensor(0.) 0.0 0.0
2.9081475734710693 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0854:  75%|███████████████████████████████████████████████████▊                 | 375/500 [00:05<00:01, 67.76batch/s]

2.5549302101135254 tensor(0.) tensor(0.) 0.0 0.0
3.1958794593811035 tensor(0.) tensor(0.) 0.0 0.0
2.9848439693450928 tensor(0.) tensor(0.) 0.0 0.0
3.1534929275512695 tensor(0.) tensor(0.) 0.0 0.0
3.083139657974243 tensor(0.) tensor(0.) 0.0 0.0
2.904417037963867 tensor(0.) tensor(0.) 0.0 0.0
3.0804758071899414 tensor(0.) tensor(0.) 0.0 0.0
2.7822659015655518 tensor(0.) tensor(0.) 0.0 0.0
3.085977077484131 tensor(0.) tensor(0.) 0.0 0.0
2.7362706661224365 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0831:  75%|███████████████████████████████████████████████████▊                 | 375/500 [00:05<00:01, 67.76batch/s]

2.8894574642181396 tensor(0.) tensor(0.) 0.0 0.0
2.7071869373321533 tensor(0.) tensor(0.) 0.0 0.0
3.107712745666504 tensor(0.) tensor(0.) 0.0 0.0
2.9616284370422363 tensor(0.) tensor(0.) 0.0 0.0
3.0158417224884033 tensor(0.) tensor(0.) 0.0 0.0
2.944741725921631 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0816:  77%|████████████████████████████████████████████████████▊                | 383/500 [00:05<00:01, 68.48batch/s]

2.839421272277832 tensor(0.) tensor(0.) 0.0 0.0
2.839752435684204 tensor(0.) tensor(0.) 0.0 0.0
3.348696708679199 tensor(0.) tensor(0.) 0.0 0.0
3.0332114696502686 tensor(0.) tensor(0.) 0.0 0.0
3.048910140991211 tensor(0.) tensor(0.) 0.0 0.0
2.844108819961548 tensor(0.) tensor(0.) 0.0 0.0
2.947324514389038 tensor(0.) tensor(0.) 0.0 0.0
3.1840317249298096 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0785:  78%|█████████████████████████████████████████████████████▉               | 391/500 [00:05<00:01, 67.71batch/s]

2.7704927921295166 tensor(0.) tensor(0.) 0.0 0.0
2.7682712078094482 tensor(0.) tensor(0.) 0.0 0.0
2.977579355239868 tensor(0.) tensor(0.) 0.0 0.0
2.9927892684936523 tensor(0.) tensor(0.) 0.0 0.0
2.959494113922119 tensor(0.) tensor(0.) 0.0 0.0
2.7695560455322266 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0785:  80%|███████████████████████████████████████████████████████              | 399/500 [00:05<00:01, 67.15batch/s]

3.034916639328003 tensor(0.) tensor(0.) 0.0 0.0
2.872753381729126 tensor(0.) tensor(0.) 0.0 0.0
3.2556064128875732 tensor(0.) tensor(0.) 0.0 0.0
3.0967655181884766 tensor(0.) tensor(0.) 0.0 0.0
3.2747507095336914 tensor(0.) tensor(0.) 0.0 0.0
3.0018808841705322 tensor(0.) tensor(0.) 0.0 0.0
3.176924705505371 tensor(0.) tensor(0.) 0.0 0.0
2.9368326663970947 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0786:  81%|████████████████████████████████████████████████████████             | 406/500 [00:05<00:01, 67.25batch/s]

3.2464613914489746 tensor(0.) tensor(0.) 0.0 0.0
3.288116455078125 tensor(0.) tensor(0.) 0.0 0.0
3.1117944717407227 tensor(0.) tensor(0.) 0.0 0.0
2.773268938064575 tensor(0.) tensor(0.) 0.0 0.0
2.9935760498046875 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0791:  83%|████████████████████████████████████████████████████████▉            | 413/500 [00:06<00:01, 64.36batch/s]

3.1341094970703125 tensor(0.) tensor(0.) 0.0 0.0
2.9945316314697266 tensor(0.) tensor(0.) 0.0 0.0
3.3986566066741943 tensor(0.) tensor(0.) 0.0 0.0
3.094874620437622 tensor(0.) tensor(0.) 0.0 0.0
3.5163509845733643 tensor(0.) tensor(0.) 0.0 0.0
2.9569039344787598 tensor(0.) tensor(0.) 0.0 0.0
2.8264408111572266 tensor(0.) tensor(0.) 0.0 0.0
3.2306761741638184 tensor(0.) tensor(0.) 0.0 0.0
2.7992844581604004 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0791:  84%|█████████████████████████████████████████████████████████▉           | 420/500 [00:06<00:01, 65.70batch/s]

2.975811243057251 tensor(0.) tensor(0.) 0.0 0.0
3.2206594944000244 tensor(0.) tensor(0.) 0.0 0.0
3.1837613582611084 tensor(0.) tensor(0.) 0.0 0.0
2.9351682662963867 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0795:  85%|██████████████████████████████████████████████████████████▉          | 427/500 [00:06<00:01, 64.22batch/s]

2.9732818603515625 tensor(0.) tensor(0.) 0.0 0.0
2.933774471282959 tensor(0.) tensor(0.) 0.0 0.0
2.9959170818328857 tensor(0.) tensor(0.) 0.0 0.0
3.228935480117798 tensor(0.) tensor(0.) 0.0 0.0
3.1979098320007324 tensor(0.) tensor(0.) 0.0 0.0
2.9628424644470215 tensor(0.) tensor(0.) 0.0 0.0
2.911581039428711 tensor(0.) tensor(0.) 0.0 0.0
3.2191219329833984 tensor(0.) tensor(0.) 0.0 0.0
3.1792778968811035 tensor(0.) tensor(0.) 0.0 0.0
3.323676109313965 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0772:  87%|███████████████████████████████████████████████████████████▉         | 434/500 [00:06<00:01, 64.42batch/s]

2.9081809520721436 tensor(0.) tensor(0.) 0.0 0.0
2.8185482025146484 tensor(0.) tensor(0.) 0.0 0.0
2.738600492477417 tensor(0.) tensor(0.) 0.0 0.0
2.8736987113952637 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0746:  88%|████████████████████████████████████████████████████████████▊        | 441/500 [00:06<00:00, 62.88batch/s]

2.886904001235962 tensor(0.) tensor(0.) 0.0 0.0
3.0236899852752686 tensor(0.) tensor(0.) 0.0 0.0
2.8759682178497314 tensor(0.) tensor(0.) 0.0 0.0
2.6618568897247314 tensor(0.) tensor(0.) 0.0 0.0
2.9221553802490234 tensor(0.) tensor(0.) 0.0 0.0
2.9896628856658936 tensor(0.) tensor(0.) 0.0 0.0
2.918337106704712 tensor(0.) tensor(0.) 0.0 0.0
3.175102472305298 tensor(0.) tensor(0.) 0.0 0.0
3.0134987831115723 tensor(0.) tensor(0.) 0.0 0.0
3.1531505584716797 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0738:  90%|█████████████████████████████████████████████████████████████▊       | 448/500 [00:06<00:00, 64.62batch/s]

2.8242242336273193 tensor(0.) tensor(0.) 0.0 0.0
2.906174659729004 tensor(0.) tensor(0.) 0.0 0.0
3.1715497970581055 tensor(0.) tensor(0.) 0.0 0.0
3.023569107055664 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0722:  91%|██████████████████████████████████████████████████████████████▊      | 455/500 [00:06<00:00, 59.61batch/s]

2.9496796131134033 tensor(0.) tensor(0.) 0.0 0.0
2.849234104156494 tensor(0.) tensor(0.) 0.0 0.0
2.7579288482666016 tensor(0.) tensor(0.) 0.0 0.0
2.723970413208008 tensor(0.) tensor(0.) 0.0 0.0
3.3355252742767334 tensor(0.) tensor(0.) 0.0 0.0
3.096283197402954 tensor(0.) tensor(0.) 0.0 0.0
2.994270086288452 tensor(0.) tensor(0.) 0.0 0.0
3.19301700592041 tensor(0.) tensor(0.) 0.0 0.0
3.043860673904419 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0704:  93%|███████████████████████████████████████████████████████████████▉     | 463/500 [00:06<00:00, 63.80batch/s]

2.8879220485687256 tensor(0.) tensor(0.) 0.0 0.0
3.0571420192718506 tensor(0.) tensor(0.) 0.0 0.0
2.9346671104431152 tensor(0.) tensor(0.) 0.0 0.0
2.7797048091888428 tensor(0.) tensor(0.) 0.0 0.0
2.860219717025757 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0699:  94%|████████████████████████████████████████████████████████████████▉    | 471/500 [00:06<00:00, 67.63batch/s]

3.2257659435272217 tensor(0.) tensor(0.) 0.0 0.0
2.907139539718628 tensor(0.) tensor(0.) 0.0 0.0
3.2019965648651123 tensor(0.) tensor(0.) 0.0 0.0
2.8966946601867676 tensor(0.) tensor(0.) 0.0 0.0
3.119097948074341 tensor(0.) tensor(0.) 0.0 0.0
2.9013564586639404 tensor(0.) tensor(0.) 0.0 0.0
3.1602532863616943 tensor(0.) tensor(0.) 0.0 0.0
3.0018715858459473 tensor(0.) tensor(0.) 0.0 0.0
3.045398235321045 tensor(0.) tensor(0.) 0.0 0.0
3.009082317352295 tensor(0.) tensor(0.) 0.0 0.0
2.884072780609131 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0696:  96%|██████████████████████████████████████████████████████████████████   | 479/500 [00:07<00:00, 70.48batch/s]

3.0091888904571533 tensor(0.) tensor(0.) 0.0 0.0
3.2253262996673584 tensor(0.) tensor(0.) 0.0 0.0
3.1934452056884766 tensor(0.) tensor(0.) 0.0 0.0
2.9803354740142822 tensor(0.) tensor(0.) 0.0 0.0
2.960536241531372 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0689:  97%|███████████████████████████████████████████████████████████████████▏ | 487/500 [00:07<00:00, 71.22batch/s]

3.170370578765869 tensor(0.) tensor(0.) 0.0 0.0
3.2705609798431396 tensor(0.) tensor(0.) 0.0 0.0
3.227724552154541 tensor(0.) tensor(0.) 0.0 0.0
2.93156099319458 tensor(0.) tensor(0.) 0.0 0.0
2.6206259727478027 tensor(0.) tensor(0.) 0.0 0.0
3.2306973934173584 tensor(0.) tensor(0.) 0.0 0.0
2.7386345863342285 tensor(0.) tensor(0.) 0.0 0.0
3.107853889465332 tensor(0.) tensor(0.) 0.0 0.0
2.9485559463500977 tensor(0.) tensor(0.) 0.0 0.0
3.1117610931396484 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0669:  99%|████████████████████████████████████████████████████████████████████▎| 495/500 [00:07<00:00, 73.24batch/s]

2.899087905883789 tensor(0.) tensor(0.) 0.0 0.0
2.870023727416992 tensor(0.) tensor(0.) 0.0 0.0
2.8947370052337646 tensor(0.) tensor(0.) 0.0 0.0
2.7515344619750977 tensor(0.) tensor(0.) 0.0 0.0
2.967581272125244 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0660: 100%|█████████████████████████████████████████████████████████████████████| 500/500 [00:07<00:00, 68.31batch/s]

2.957993745803833 tensor(0.) tensor(0.) 0.0 0.0
3.088606834411621 tensor(0.) tensor(0.) 0.0 0.0
3.1044037342071533 tensor(0.) tensor(0.) 0.0 0.0
2.89113712310791 tensor(0.) tensor(0.) 0.0 0.0
2.8429088592529297 tensor(0.) tensor(0.) 0.0 0.0
Student Training Loss: 3.066043072223663





In [13]:
# Evaluation and Metrics
def evaluate(model, dataloader):
    model.eval()
    all_labels = []
    all_preds = []
    start_time = time.time()
    with torch.no_grad():
        for data in dataloader:
            inputs, labels = data
            inputs, labels = inputs.to(device), labels.to(device)
            outputs = model(inputs)
            _, preds = torch.max(outputs.data, 1)
            all_labels.append(labels.cpu().numpy())
            all_preds.append(preds.cpu().numpy())
    end_time = time.time()
    inference_time = end_time - start_time
    all_labels = np.concatenate(all_labels)
    all_preds = np.concatenate(all_preds)
    precision = precision_score(all_labels, all_preds, average='weighted')
    recall = recall_score(all_labels, all_preds, average='weighted')
    accuracy = accuracy_score(all_labels, all_preds)
    f1 = f1_score(all_labels, all_preds, average='weighted')
    return inference_time, precision, recall, accuracy, f1


In [14]:
# Get metrics for both teacher and student
metrics_teacher = evaluate(teacher, testloader)
metrics_student = evaluate(student, testloader)
print('Teacher Metrics:', metrics_teacher)
print('Student Metrics:', metrics_student)

Teacher Metrics: (20.571057081222534, 0.6747847588117001, 0.6709, 0.6709, 0.6643685930197498)
Student Metrics: (6.319691181182861, 0.606594311336325, 0.5805, 0.5805, 0.5771152991241887)


In [17]:
# Save the model weights
torch.save(student.state_dict(), 'student.pth')
torch.save(teacher.state_dict(), 'teacher.pth')

In [18]:
# Save the architecture
import json
student_architecture = {
    'conv1': [3, 16, 5],
    'pool': [2, 2],
    'fc1': [16*14*14, 120],
    'fc2': [120, 100]  # original number of classes
}
with open('student_architecture.json', 'w') as f:
    json.dump(student_architecture, f)
