In [1]:
import torch
import torch.nn as nn
import torch.optim as optim
import torchvision
import torchvision.transforms as transforms
import matplotlib.pyplot as plt
import numpy as np
from sklearn.metrics import precision_score, recall_score, f1_score, accuracy_score
import time
import os
import torch.nn.functional as F
from tqdm import tqdm

In [2]:
print(torch.cuda.is_available())
print(torch.cuda.device_count())
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

True
1


In [3]:
learning_rate = 0.001
num_epochs = 2
num_workers = 2
batch_size = 100

In [4]:
# Load CIFAR-100 data
transform = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize((0.5071, 0.4867, 0.4408), (0.2675, 0.2565, 0.2761))
])
trainset = torchvision.datasets.CIFAR100(root='./data', train=True, download=True, transform=transform)
trainloader = torch.utils.data.DataLoader(trainset, batch_size=batch_size, shuffle=True, num_workers=num_workers)
testset = torchvision.datasets.CIFAR100(root='./data', train=False, download=True, transform=transform)
testloader = torch.utils.data.DataLoader(testset, batch_size=batch_size, shuffle=False, num_workers=num_workers)


Files already downloaded and verified
Files already downloaded and verified


In [5]:
# Define the Teacher model
class Teacher(nn.Module):
    def __init__(self):
        super(Teacher, self).__init__()
        self.conv1 = nn.Conv2d(3, 64, 5)
        self.pool = nn.MaxPool2d(2, 2)
        self.conv2 = nn.Conv2d(64, 128, 5)
        self.fc1 = nn.Linear(128*5*5, 256)
        self.fc2 = nn.Linear(256, 100)

    def forward(self, x):
        x = self.pool(F.relu(self.conv1(x)))
        x = self.pool(F.relu(self.conv2(x)))
        x = x.view(-1, 128*5*5)
        x = F.relu(self.fc1(x))
        x = self.fc2(x)
        return x

# Define the Student model
class Student(nn.Module):
    def __init__(self):
        super(Student, self).__init__()
        self.conv1 = nn.Conv2d(3, 16, 5)
        self.pool = nn.MaxPool2d(2, 2)
        self.fc1 = nn.Linear(16*14*14, 120)
        self.fc2 = nn.Linear(120, 100)

    def forward(self, x):
        x = self.pool(F.relu(self.conv1(x)))
        x = x.view(-1, 16*14*14)
        x = F.relu(self.fc1(x))
        x = self.fc2(x)
        return x

In [6]:
# def fairness_constraint(outputs, sensitive_attrs):
#     # This is a simplified fairness constraint for demonstration purposes.
#     group0_indices = (sensitive_attrs < 5).nonzero(as_tuple=True)
#     group1_indices = (sensitive_attrs >= 5).nonzero(as_tuple=True)
#     positive_rate_group0 = (outputs[group0_indices].max(1)[1] >= 5).float().mean()
#     positive_rate_group1 = (outputs[group1_indices].max(1)[1] >= 5).float().mean()
#     return torch.abs(positive_rate_group0 - positive_rate_group1)

# def adversarial_train_model(model, dataloader, criterion, optimizer, epoch):
#     model.train()
#     running_loss = 0.0
#     progress_bar = tqdm(enumerate(dataloader, 0), total=len(dataloader), unit="batch")
#     for i, data in progress_bar:
#         inputs, labels = data
#         sensitive_attrs = labels  # Assuming label itself as a sensitive attribute
#         optimizer.zero_grad()
#         outputs = model(inputs.to(device))
#         loss = criterion(outputs, labels.to(device))
#         fairness_penalty = fairness_constraint(outputs, sensitive_attrs.to(device))
#         combined_loss = loss + fairness_penalty  # Combine original loss and fairness penalty
#         combined_loss.backward()
#         optimizer.step()
#         running_loss += combined_loss.item()
#         progress_bar.set_description(f"Epoch {epoch} Loss: {running_loss/(i+1):.4f}")
#     return running_loss / len(dataloader)

In [7]:
# Define the fair_metric function from the RELIANT code
def fair_metric(pred, labels, sens):
    idx_s0 = sens == 0
    idx_s1 = sens == 1
    idx_s0_y1 = idx_s0 & (labels == 1)
    idx_s1_y1 = idx_s1 & (labels == 1)

    if idx_s0.sum().item() == 0 or idx_s1.sum().item() == 0 or idx_s0_y1.sum().item() == 0 or idx_s1_y1.sum().item() == 0:
        return torch.tensor(0.0), torch.tensor(0.0)  # Return zeros

    # print(idx_s0.sum().item(), idx_s1.sum().item(), idx_s0_y1.sum().item(), idx_s1_y1.sum().item())
    # smoothing term added
    parity = torch.abs((pred[idx_s0].sum() / (idx_s0.sum().item() + 1e-8)) - (pred[idx_s1].sum() / (idx_s1.sum().item() + 1e-8)))
    equality = torch.abs((pred[idx_s0_y1].sum() / (idx_s0_y1.sum().item() + 1e-8)) - (pred[idx_s1_y1].sum() / (idx_s1_y1.sum().item() + 1e-8)))

    return parity.item(), equality.item()


# Define the approx_loss and approx_loss_eo functions from the RELIANT code
def approx_loss(logits, sens, idx):
    g1 = np.argwhere(sens == 0.0).reshape(-1)
    g2 = np.argwhere(sens == 1.0).reshape(-1)
    idx_set = set(idx.cpu().numpy())
    g1 = np.array(list(set(g1) & idx_set))
    g2 = np.array(list(set(g2) & idx_set))

    if g1.shape[0] == 0 or g2.shape[0] == 0:
        return torch.tensor(0.0) # Return zero
    
    # print(g1.shape[0], g2.shape[0])
    # smoothing term added
    loss = torch.square(approx_func(logits[g1]).sum(axis=0) / (g1.shape[0] + 1e-8) - approx_func(logits[g2]).sum(axis=0) / (g2.shape[0] + 1e-8)).sum()
    return loss


def approx_loss_eo(logits, sens, labels, idx):
    g1 = np.argwhere(sens == 0).reshape(-1)
    g2 = np.argwhere(sens == 1).reshape(-1)
    g = np.argwhere(labels.cpu().numpy() == 1).reshape(-1)
    idx_set = set(idx.cpu().numpy())
    g1 = np.array(list(set(g1) & set(g) & idx_set))
    g2 = np.array(list(set(g2) & set(g) & idx_set))
    
    if g1.shape[0] == 0 or g2.shape[0] == 0:
        return torch.tensor(0.0)  # Return zero 
        
    # print(g1.shape[0], g2.shape[0])
    # smoothing term added
    loss = torch.square(approx_func(logits[g1]).sum(axis=0) / (g1.shape[0] + 1e-8) - approx_func(logits[g2]).sum(axis=0) / (g2.shape[0] + 1e-8)).sum()
    return loss

def approx_func(s):
    x = 2 * s - 1
    result = 1 / 2 + 1 / 2 * x - 1 / 8 / 2 * (5 * x * x * x - 3 * x) + 1 / 16 / 8 * (
                63 * x * x * x * x * x - 70 * x * x * x + 15 * x) - 5 / 128 / 16 * (
                       429 * x * x * x * x * x * x * x - 693 * x * x * x * x * x + 315 * x * x * x - 35 * x) + 7 / 256 / 128 * (
                       12155 * x * x * x * x * x * x * x * x * x - 25740 * x * x * x * x * x * x * x + 18018 * x * x * x * x * x - 4620 * x * x * x + 315 * x)
    # print(s, x, result)
    return result


In [11]:
def adversarial_train_model(model, dataloader, criterion, optimizer, epoch):
    model.train()
    running_loss = 0.0
    progress_bar = tqdm(enumerate(dataloader, 0), total=len(dataloader), unit="batch")
    for i, data in progress_bar:
        inputs, labels = data
        sensitive_attrs = labels  # Assuming label itself as a sensitive attribute
        optimizer.zero_grad()
        outputs = model(inputs.to(device))
        loss = criterion(outputs, labels.to(device))
        
        # Incorporate fairness metrics
        fairness_penalty_sp, fairness_penalty_eo = fair_metric(outputs, labels, sensitive_attrs)
        fairness_penalty_approx = approx_loss(outputs, sensitive_attrs, torch.arange(len(labels)).to(device))
        fairness_penalty_approx_eo = approx_loss_eo(outputs, sensitive_attrs, labels, torch.arange(len(labels)).to(device))
        combined_loss = loss + fairness_penalty_sp + fairness_penalty_eo + fairness_penalty_approx + fairness_penalty_approx_eo

        print(combined_loss.item(), fairness_penalty_sp, fairness_penalty_eo, fairness_penalty_approx.item(), fairness_penalty_approx_eo.item())
        combined_loss.backward()
        optimizer.step()
        running_loss += combined_loss.item()
        progress_bar.set_description(f"Epoch {epoch} Loss: {running_loss/(i+1):.4f}")
    return running_loss / len(dataloader)

In [12]:
# Initialize models, optimizers, and loss function
teacher = Teacher().to(device)
student = Student().to(device)
optimizer_teacher = optim.Adam(teacher.parameters(), lr=learning_rate)
optimizer_student = optim.Adam(student.parameters(), lr=learning_rate)
criterion = nn.CrossEntropyLoss()


In [13]:
# Training Loop
for epoch in range(num_epochs):
    train_loss_teacher = adversarial_train_model(teacher, trainloader, criterion, optimizer_teacher, epoch)
    print(f'Teacher Training Loss: {train_loss_teacher}')
    train_loss_student = adversarial_train_model(student, trainloader, criterion, optimizer_student, epoch)
    print(f'Student Training Loss: {train_loss_student}')

  0%|                                                                                                     | 0/500 [00:00<?, ?batch/s]

4.608104228973389 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.6012:   2%|█▎                                                                     | 9/500 [00:01<00:53,  9.11batch/s]

4.6426167488098145 tensor(0.) tensor(0.) 0.0 0.0
4.671838760375977 tensor(0.) tensor(0.) 0.0 0.0
4.603215217590332 tensor(0.) tensor(0.) 0.0 0.0
4.637296676635742 tensor(0.) tensor(0.) 0.0 0.0
4.595289707183838 tensor(0.) tensor(0.) 0.0 0.0
4.5848188400268555 tensor(0.) tensor(0.) 0.0 0.0
4.594824314117432 tensor(0.) tensor(0.) 0.0 0.0
4.6008195877075195 tensor(0.) tensor(0.) 0.0 0.0
4.578745365142822 tensor(0.) tensor(0.) 0.0 0.0
4.548930644989014 tensor(0.) tensor(0.) 0.0 0.0
4.578417778015137 tensor(0.) tensor(0.) 0.0 0.0
4.570196151733398 tensor(0.) tensor(0.) 0.0 0.0
4.603689670562744 

Epoch 0 Loss: 4.5650:   4%|██▊                                                                   | 20/500 [00:01<00:22, 20.89batch/s]

tensor(0.) tensor(0.) 0.0 0.0
4.563523769378662 tensor(0.) tensor(0.) 0.0 0.0
4.569371223449707 tensor(0.) tensor(0.) 0.0 0.0
4.4847002029418945 tensor(0.) tensor(0.) 0.0 0.0
4.531398773193359 tensor(0.) tensor(0.) 0.0 0.0
4.5512495040893555 tensor(0.) tensor(0.) 0.0 0.0
4.540174961090088 tensor(0.) tensor(0.) 0.0 0.0
4.533462047576904 tensor(0.) tensor(0.) 0.0 0.0
4.478338241577148 tensor(0.) tensor(0.) 0.0 0.0
4.484437465667725 tensor(0.) tensor(0.) 0.0 0.0
4.4039225578308105 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.5091:   6%|████▍                                                                 | 32/500 [00:01<00:14, 32.81batch/s]

4.456805229187012 tensor(0.) tensor(0.) 0.0 0.0
4.511653423309326 tensor(0.) tensor(0.) 0.0 0.0
4.376976490020752 tensor(0.) tensor(0.) 0.0 0.0
4.462331771850586 tensor(0.) tensor(0.) 0.0 0.0
4.4269490242004395 tensor(0.) tensor(0.) 0.0 0.0
4.442114353179932 tensor(0.) tensor(0.) 0.0 0.0
4.300169467926025 tensor(0.) tensor(0.) 0.0 0.0
4.34361457824707 tensor(0.) tensor(0.) 0.0 0.0
4.2790398597717285 tensor(0.) tensor(0.) 0.0 0.0
4.273860931396484 tensor(0.) tensor(0.) 0.0 0.0
4.385021686553955 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.4589:   9%|██████▏                                                               | 44/500 [00:02<00:11, 41.02batch/s]

4.433704853057861 tensor(0.) tensor(0.) 0.0 0.0
4.300039291381836 tensor(0.) tensor(0.) 0.0 0.0
4.392364025115967 tensor(0.) tensor(0.) 0.0 0.0
4.323801040649414 tensor(0.) tensor(0.) 0.0 0.0
4.293554782867432 tensor(0.) tensor(0.) 0.0 0.0
4.204482555389404 tensor(0.) tensor(0.) 0.0 0.0
4.332090377807617 tensor(0.) tensor(0.) 0.0 0.0
4.3198161125183105 tensor(0.) tensor(0.) 0.0 0.0
4.180263519287109 tensor(0.) tensor(0.) 0.0 0.0
4.252702236175537 tensor(0.) tensor(0.) 0.0 0.0
4.260417461395264 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.4033:  11%|███████▊                                                              | 56/500 [00:02<00:09, 47.81batch/s]

4.211421966552734 tensor(0.) tensor(0.) 0.0 0.0
4.217803478240967 tensor(0.) tensor(0.) 0.0 0.0
4.188736915588379 tensor(0.) tensor(0.) 0.0 0.0
4.2888665199279785 tensor(0.) tensor(0.) 0.0 0.0
4.097802639007568 tensor(0.) tensor(0.) 0.0 0.0
4.316612243652344 tensor(0.) tensor(0.) 0.0 0.0
4.138682842254639 tensor(0.) tensor(0.) 0.0 0.0
4.2235107421875 tensor(0.) tensor(0.) 0.0 0.0
4.14380407333374 tensor(0.) tensor(0.) 0.0 0.0
4.182180404663086 tensor(0.) tensor(0.) 0.0 0.0
3.8658928871154785 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.3566:  14%|█████████▌                                                            | 68/500 [00:02<00:08, 50.23batch/s]

4.0982561111450195 tensor(0.) tensor(0.) 0.0 0.0
4.012813091278076 tensor(0.) tensor(0.) 0.0 0.0
4.205860137939453 tensor(0.) tensor(0.) 0.0 0.0
4.188135147094727 tensor(0.) tensor(0.) 0.0 0.0
4.054770469665527 tensor(0.) tensor(0.) 0.0 0.0
4.162526607513428 tensor(0.) tensor(0.) 0.0 0.0
4.125305652618408 tensor(0.) tensor(0.) 0.0 0.0
4.308255195617676 tensor(0.) tensor(0.) 0.0 0.0
4.277288436889648 tensor(0.) tensor(0.) 0.0 0.0
3.846339225769043 tensor(0.) tensor(0.) 0.0 0.0
3.9817616939544678 tensor(0.) tensor(0.) 0.0 0.0
4.1289963722229 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.3147:  16%|███████████▏                                                          | 80/500 [00:02<00:08, 52.14batch/s]

3.998361587524414 tensor(0.) tensor(0.) 0.0 0.0
4.039516448974609 tensor(0.) tensor(0.) 0.0 0.0
4.088989734649658 tensor(0.) tensor(0.) 0.0 0.0
4.026487827301025 tensor(0.) tensor(0.) 0.0 0.0
4.128217697143555 tensor(0.) tensor(0.) 0.0 0.0
4.070472240447998 tensor(0.) tensor(0.) 0.0 0.0
4.158426761627197 tensor(0.) tensor(0.) 0.0 0.0
4.087434768676758 tensor(0.) tensor(0.) 0.0 0.0
4.060348033905029 tensor(0.) tensor(0.) 0.0 0.0
4.153398036956787 tensor(0.) tensor(0.) 0.0 0.0
3.9845941066741943 tensor(0.) tensor(0.) 0.0 0.0
4.0549092292785645 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.2821:  18%|████████████▉                                                         | 92/500 [00:02<00:07, 53.38batch/s]

4.0204176902771 tensor(0.) tensor(0.) 0.0 0.0
3.9977962970733643 tensor(0.) tensor(0.) 0.0 0.0
4.083370685577393 tensor(0.) tensor(0.) 0.0 0.0
4.075772762298584 tensor(0.) tensor(0.) 0.0 0.0
4.040199279785156 tensor(0.) tensor(0.) 0.0 0.0
4.012857437133789 tensor(0.) tensor(0.) 0.0 0.0
4.283752918243408 tensor(0.) tensor(0.) 0.0 0.0
3.9578826427459717 tensor(0.) tensor(0.) 0.0 0.0
4.0084733963012695 tensor(0.) tensor(0.) 0.0 0.0
4.0536675453186035 tensor(0.) tensor(0.) 0.0 0.0
4.189813613891602 tensor(0.) tensor(0.) 0.0 0.0
3.879417657852173 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.2421:  21%|██████████████▎                                                      | 104/500 [00:03<00:07, 53.57batch/s]

3.8356847763061523 tensor(0.) tensor(0.) 0.0 0.0
4.0323286056518555 tensor(0.) tensor(0.) 0.0 0.0
3.8555448055267334 tensor(0.) tensor(0.) 0.0 0.0
3.97299861907959 tensor(0.) tensor(0.) 0.0 0.0
4.065746784210205 tensor(0.) tensor(0.) 0.0 0.0
3.888794183731079 tensor(0.) tensor(0.) 0.0 0.0
4.02353572845459 tensor(0.) tensor(0.) 0.0 0.0
3.9919538497924805 tensor(0.) tensor(0.) 0.0 0.0
4.020637035369873 tensor(0.) tensor(0.) 0.0 0.0
3.826592445373535 tensor(0.) tensor(0.) 0.0 0.0
3.830592632293701 tensor(0.) tensor(0.) 0.0 0.0
3.9882314205169678 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.2057:  23%|████████████████                                                     | 116/500 [00:03<00:07, 54.17batch/s]

3.9524712562561035 tensor(0.) tensor(0.) 0.0 0.0
3.828920602798462 tensor(0.) tensor(0.) 0.0 0.0
3.923715829849243 tensor(0.) tensor(0.) 0.0 0.0
3.878204345703125 tensor(0.) tensor(0.) 0.0 0.0
4.006881237030029 tensor(0.) tensor(0.) 0.0 0.0
4.050559043884277 tensor(0.) tensor(0.) 0.0 0.0
3.849296808242798 tensor(0.) tensor(0.) 0.0 0.0
3.7632007598876953 tensor(0.) tensor(0.) 0.0 0.0
3.9514102935791016 tensor(0.) tensor(0.) 0.0 0.0
3.8907392024993896 tensor(0.) tensor(0.) 0.0 0.0
4.0243964195251465 tensor(0.) tensor(0.) 0.0 0.0
3.787687301635742 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.1735:  26%|█████████████████▋                                                   | 128/500 [00:03<00:06, 53.61batch/s]

3.743241310119629 tensor(0.) tensor(0.) 0.0 0.0
3.870129108428955 tensor(0.) tensor(0.) 0.0 0.0
3.656453847885132 tensor(0.) tensor(0.) 0.0 0.0
4.074156284332275 tensor(0.) tensor(0.) 0.0 0.0
3.8504951000213623 tensor(0.) tensor(0.) 0.0 0.0
3.8423643112182617 tensor(0.) tensor(0.) 0.0 0.0
3.8269805908203125 tensor(0.) tensor(0.) 0.0 0.0
3.794964551925659 tensor(0.) tensor(0.) 0.0 0.0
3.8803534507751465 tensor(0.) tensor(0.) 0.0 0.0
3.9711410999298096 tensor(0.) tensor(0.) 0.0 0.0
3.626082181930542 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.1460:  27%|██████████████████▍                                                  | 134/500 [00:03<00:06, 53.59batch/s]

3.7967369556427 tensor(0.) tensor(0.) 0.0 0.0
3.838374376296997 tensor(0.) tensor(0.) 0.0 0.0
3.7289676666259766 tensor(0.) tensor(0.) 0.0 0.0
3.91568660736084 tensor(0.) tensor(0.) 0.0 0.0
3.7754061222076416 tensor(0.) tensor(0.) 0.0 0.0
3.803170680999756 tensor(0.) tensor(0.) 0.0 0.0
3.812448024749756 tensor(0.) tensor(0.) 0.0 0.0
3.726560115814209 tensor(0.) tensor(0.) 0.0 0.0
3.7801992893218994 tensor(0.) tensor(0.) 0.0 0.0
3.8004369735717773 tensor(0.) tensor(0.) 0.0 0.0
4.112189769744873 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.1200:  29%|████████████████████▏                                                | 146/500 [00:03<00:06, 53.79batch/s]

3.817190647125244 tensor(0.) tensor(0.) 0.0 0.0
3.906707525253296 tensor(0.) tensor(0.) 0.0 0.0
3.6832873821258545 tensor(0.) tensor(0.) 0.0 0.0
3.890232801437378 tensor(0.) tensor(0.) 0.0 0.0
3.7193572521209717 tensor(0.) tensor(0.) 0.0 0.0
3.6728384494781494 tensor(0.) tensor(0.) 0.0 0.0
3.8390820026397705 tensor(0.) tensor(0.) 0.0 0.0
3.9933576583862305 tensor(0.) tensor(0.) 0.0 0.0
3.7455737590789795 tensor(0.) tensor(0.) 0.0 0.0
3.7723963260650635 tensor(0.) tensor(0.) 0.0 0.0
3.6644692420959473 tensor(0.) tensor(0.) 0.0 0.0
3.8549575805664062 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.0950:  32%|█████████████████████▊                                               | 158/500 [00:04<00:06, 53.42batch/s]

3.5101184844970703 tensor(0.) tensor(0.) 0.0 0.0
3.9426207542419434 tensor(0.) tensor(0.) 0.0 0.0
3.853156805038452 tensor(0.) tensor(0.) 0.0 0.0
3.661597967147827 tensor(0.) tensor(0.) 0.0 0.0
3.8864800930023193 tensor(0.) tensor(0.) 0.0 0.0
3.791651725769043 tensor(0.) tensor(0.) 0.0 0.0
3.6949615478515625 tensor(0.) tensor(0.) 0.0 0.0
3.8024861812591553 tensor(0.) tensor(0.) 0.0 0.0
3.8876287937164307 tensor(0.) tensor(0.) 0.0 0.0
3.7586159706115723 tensor(0.) tensor(0.) 0.0 0.0
3.735652446746826 tensor(0.) tensor(0.) 0.0 0.0
3.720656156539917 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.0640:  34%|███████████████████████▍                                             | 170/500 [00:04<00:06, 53.55batch/s]

3.7649242877960205 tensor(0.) tensor(0.) 0.0 0.0
3.6310815811157227 tensor(0.) tensor(0.) 0.0 0.0
3.801987409591675 tensor(0.) tensor(0.) 0.0 0.0
3.5199086666107178 tensor(0.) tensor(0.) 0.0 0.0
3.529629707336426 tensor(0.) tensor(0.) 0.0 0.0
3.470362663269043 tensor(0.) tensor(0.) 0.0 0.0
3.6328318119049072 tensor(0.) tensor(0.) 0.0 0.0
3.629401445388794 tensor(0.) tensor(0.) 0.0 0.0
3.7525691986083984 tensor(0.) tensor(0.) 0.0 0.0
3.6410739421844482 tensor(0.) tensor(0.) 0.0 0.0
3.660372257232666 tensor(0.) tensor(0.) 0.0 0.0
3.639838218688965 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.0403:  36%|█████████████████████████                                            | 182/500 [00:04<00:05, 53.74batch/s]

3.804888963699341 tensor(0.) tensor(0.) 0.0 0.0
3.6378045082092285 tensor(0.) tensor(0.) 0.0 0.0
3.750723361968994 tensor(0.) tensor(0.) 0.0 0.0
3.8767642974853516 tensor(0.) tensor(0.) 0.0 0.0
3.5042731761932373 tensor(0.) tensor(0.) 0.0 0.0
3.6258068084716797 tensor(0.) tensor(0.) 0.0 0.0
3.7110095024108887 tensor(0.) tensor(0.) 0.0 0.0
3.7848727703094482 tensor(0.) tensor(0.) 0.0 0.0
3.715726613998413 tensor(0.) tensor(0.) 0.0 0.0
3.582442045211792 tensor(0.) tensor(0.) 0.0 0.0
3.733105421066284 tensor(0.) tensor(0.) 0.0 0.0
3.764443874359131 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.0196:  39%|██████████████████████████▊                                          | 194/500 [00:04<00:05, 53.81batch/s]

3.5596773624420166 tensor(0.) tensor(0.) 0.0 0.0
3.9379143714904785 tensor(0.) tensor(0.) 0.0 0.0
3.582263231277466 tensor(0.) tensor(0.) 0.0 0.0
3.626725435256958 tensor(0.) tensor(0.) 0.0 0.0
3.7692766189575195 tensor(0.) tensor(0.) 0.0 0.0
3.573045253753662 tensor(0.) tensor(0.) 0.0 0.0
3.595662832260132 tensor(0.) tensor(0.) 0.0 0.0
3.9486234188079834 tensor(0.) tensor(0.) 0.0 0.0
3.67659854888916 tensor(0.) tensor(0.) 0.0 0.0
3.5546469688415527 tensor(0.) tensor(0.) 0.0 0.0
3.782564163208008 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.0030:  41%|████████████████████████████▍                                        | 206/500 [00:05<00:05, 53.73batch/s]

3.7698373794555664 tensor(0.) tensor(0.) 0.0 0.0
3.979818820953369 tensor(0.) tensor(0.) 0.0 0.0
3.600515842437744 tensor(0.) tensor(0.) 0.0 0.0
4.080375671386719 tensor(0.) tensor(0.) 0.0 0.0
3.5767014026641846 tensor(0.) tensor(0.) 0.0 0.0
3.606771230697632 tensor(0.) tensor(0.) 0.0 0.0
3.6414315700531006 tensor(0.) tensor(0.) 0.0 0.0
3.7361626625061035 tensor(0.) tensor(0.) 0.0 0.0
3.5093514919281006 tensor(0.) tensor(0.) 0.0 0.0
3.614044189453125 tensor(0.) tensor(0.) 0.0 0.0
3.6289865970611572 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.9813:  44%|██████████████████████████████                                       | 218/500 [00:05<00:05, 53.81batch/s]

3.553459405899048 tensor(0.) tensor(0.) 0.0 0.0
3.7871108055114746 tensor(0.) tensor(0.) 0.0 0.0
3.5149364471435547 tensor(0.) tensor(0.) 0.0 0.0
3.44370698928833 tensor(0.) tensor(0.) 0.0 0.0
3.5421509742736816 tensor(0.) tensor(0.) 0.0 0.0
3.505810499191284 tensor(0.) tensor(0.) 0.0 0.0
3.491863965988159 tensor(0.) tensor(0.) 0.0 0.0
3.2950551509857178 tensor(0.) tensor(0.) 0.0 0.0
3.6190290451049805 tensor(0.) tensor(0.) 0.0 0.0
3.9600131511688232 tensor(0.) tensor(0.) 0.0 0.0
3.550297498703003 tensor(0.) tensor(0.) 0.0 0.0
3.479581594467163 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.9553:  46%|███████████████████████████████▋                                     | 230/500 [00:05<00:04, 54.00batch/s]

3.4410555362701416 tensor(0.) tensor(0.) 0.0 0.0
3.4560866355895996 tensor(0.) tensor(0.) 0.0 0.0
3.3342864513397217 tensor(0.) tensor(0.) 0.0 0.0
3.3911852836608887 tensor(0.) tensor(0.) 0.0 0.0
3.3671743869781494 tensor(0.) tensor(0.) 0.0 0.0
3.512235403060913 tensor(0.) tensor(0.) 0.0 0.0
3.48222017288208 tensor(0.) tensor(0.) 0.0 0.0
3.48530912399292 tensor(0.) tensor(0.) 0.0 0.0
3.573575019836426 tensor(0.) tensor(0.) 0.0 0.0
3.649876594543457 tensor(0.) tensor(0.) 0.0 0.0
3.5625534057617188 tensor(0.) tensor(0.) 0.0 0.0
3.575521230697632 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.9329:  48%|█████████████████████████████████▍                                   | 242/500 [00:05<00:04, 54.38batch/s]

3.3677093982696533 tensor(0.) tensor(0.) 0.0 0.0
3.5739221572875977 tensor(0.) tensor(0.) 0.0 0.0
3.7022528648376465 tensor(0.) tensor(0.) 0.0 0.0
3.700049638748169 tensor(0.) tensor(0.) 0.0 0.0
3.4771902561187744 tensor(0.) tensor(0.) 0.0 0.0
3.6440320014953613 tensor(0.) tensor(0.) 0.0 0.0
3.4541351795196533 tensor(0.) tensor(0.) 0.0 0.0
3.2981972694396973 tensor(0.) tensor(0.) 0.0 0.0
3.1365914344787598 tensor(0.) tensor(0.) 0.0 0.0
3.51967191696167 tensor(0.) tensor(0.) 0.0 0.0
3.5571205615997314 tensor(0.) tensor(0.) 0.0 0.0
3.3678133487701416 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.9120:  51%|███████████████████████████████████                                  | 254/500 [00:05<00:04, 53.47batch/s]

3.31504487991333 tensor(0.) tensor(0.) 0.0 0.0
3.4089162349700928 tensor(0.) tensor(0.) 0.0 0.0
3.6457741260528564 tensor(0.) tensor(0.) 0.0 0.0
3.4863836765289307 tensor(0.) tensor(0.) 0.0 0.0
3.709977149963379 tensor(0.) tensor(0.) 0.0 0.0
3.6425435543060303 tensor(0.) tensor(0.) 0.0 0.0
3.3133490085601807 tensor(0.) tensor(0.) 0.0 0.0
3.4467718601226807 tensor(0.) tensor(0.) 0.0 0.0
3.4842214584350586 tensor(0.) tensor(0.) 0.0 0.0
3.4278032779693604 tensor(0.) tensor(0.) 0.0 0.0
3.6004395484924316 tensor(0.) tensor(0.) 0.0 0.0
3.381634473800659 tensor(0.) 

Epoch 0 Loss: 3.8933:  53%|████████████████████████████████████▋                                | 266/500 [00:06<00:04, 53.45batch/s]

tensor(0.) 0.0 0.0
3.4347591400146484 tensor(0.) tensor(0.) 0.0 0.0
3.6096158027648926 tensor(0.) tensor(0.) 0.0 0.0
3.555598258972168 tensor(0.) tensor(0.) 0.0 0.0
3.5367531776428223 tensor(0.) tensor(0.) 0.0 0.0
3.433103084564209 tensor(0.) tensor(0.) 0.0 0.0
3.6004958152770996 tensor(0.) tensor(0.) 0.0 0.0
3.2878007888793945 tensor(0.) tensor(0.) 0.0 0.0
3.324148178100586 tensor(0.) tensor(0.) 0.0 0.0
3.279099464416504 tensor(0.) tensor(0.) 0.0 0.0
3.582202672958374 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.8735:  56%|██████████████████████████████████████▎                              | 278/500 [00:06<00:04, 53.94batch/s]

3.3587944507598877 tensor(0.) tensor(0.) 0.0 0.0
3.378037214279175 tensor(0.) tensor(0.) 0.0 0.0
3.293048143386841 tensor(0.) tensor(0.) 0.0 0.0
3.32948637008667 tensor(0.) tensor(0.) 0.0 0.0
3.4655914306640625 tensor(0.) tensor(0.) 0.0 0.0
3.580658197402954 tensor(0.) tensor(0.) 0.0 0.0
3.5391275882720947 tensor(0.) tensor(0.) 0.0 0.0
3.4300787448883057 tensor(0.) tensor(0.) 0.0 0.0
3.4717302322387695 tensor(0.) tensor(0.) 0.0 0.0
3.528480291366577 tensor(0.) tensor(0.) 0.0 0.0
3.261723518371582 tensor(0.) tensor(0.) 0.0 0.0
3.5796988010406494 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.8565:  58%|████████████████████████████████████████                             | 290/500 [00:06<00:03, 53.02batch/s]

3.438469171524048 tensor(0.) tensor(0.) 0.0 0.0
3.359076738357544 tensor(0.) tensor(0.) 0.0 0.0
3.400510787963867 tensor(0.) tensor(0.) 0.0 0.0
3.494638681411743 tensor(0.) tensor(0.) 0.0 0.0
3.4959495067596436 tensor(0.) tensor(0.) 0.0 0.0
3.657529354095459 tensor(0.) tensor(0.) 0.0 0.0
3.3272435665130615 tensor(0.) tensor(0.) 0.0 0.0
3.2856063842773438 tensor(0.) tensor(0.) 0.0 0.0
3.614403009414673 tensor(0.) tensor(0.) 0.0 0.0
3.177074670791626 tensor(0.) tensor(0.) 0.0 0.0
3.431825637817383 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.8385:  59%|████████████████████████████████████████▊                            | 296/500 [00:06<00:03, 54.37batch/s]

3.3803763389587402 tensor(0.) tensor(0.) 0.0 0.0
3.244525194168091 tensor(0.) tensor(0.) 0.0 0.0
3.4342215061187744 tensor(0.) tensor(0.) 0.0 0.0
3.35636043548584 tensor(0.) tensor(0.) 0.0 0.0
3.2366864681243896 tensor(0.) tensor(0.) 0.0 0.0
3.6318981647491455 tensor(0.) tensor(0.) 0.0 0.0
3.28139591217041 tensor(0.) tensor(0.) 0.0 0.0
3.4301583766937256 tensor(0.) tensor(0.) 0.0 0.0
3.3944883346557617 tensor(0.) tensor(0.) 0.0 0.0
3.3899025917053223 tensor(0.) tensor(0.) 0.0 0.0
3.2081191539764404 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.8223:  62%|██████████████████████████████████████████▌                          | 308/500 [00:06<00:03, 54.23batch/s]

3.3936822414398193 tensor(0.) tensor(0.) 0.0 0.0
3.420426845550537 tensor(0.) tensor(0.) 0.0 0.0
3.3347949981689453 tensor(0.) tensor(0.) 0.0 0.0
3.3204128742218018 tensor(0.) tensor(0.) 0.0 0.0
3.5306060314178467 tensor(0.) tensor(0.) 0.0 0.0
3.4885451793670654 tensor(0.) tensor(0.) 0.0 0.0
3.3145253658294678 tensor(0.) tensor(0.) 0.0 0.0
3.2744128704071045 tensor(0.) tensor(0.) 0.0 0.0
3.4886090755462646 tensor(0.) tensor(0.) 0.0 0.0
3.4609694480895996 tensor(0.) tensor(0.) 0.0 0.0
3.133120059967041 tensor(0.) tensor(0.) 0.0 0.0
3.5554723739624023 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.8039:  64%|████████████████████████████████████████████▏                        | 320/500 [00:07<00:03, 53.76batch/s]

3.135828971862793 tensor(0.) tensor(0.) 0.0 0.0
3.3493459224700928 tensor(0.) tensor(0.) 0.0 0.0
3.3333137035369873 tensor(0.) tensor(0.) 0.0 0.0
3.3457939624786377 tensor(0.) tensor(0.) 0.0 0.0
3.123185634613037 tensor(0.) tensor(0.) 0.0 0.0
3.4042229652404785 tensor(0.) tensor(0.) 0.0 0.0
3.225733995437622 tensor(0.) tensor(0.) 0.0 0.0
3.3063738346099854 tensor(0.) tensor(0.) 0.0 0.0
3.52854585647583 tensor(0.) tensor(0.) 0.0 0.0
3.2649405002593994 tensor(0.) tensor(0.) 0.0 0.0
3.3600857257843018 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.7894:  66%|█████████████████████████████████████████████▊                       | 332/500 [00:07<00:03, 53.27batch/s]

3.3834228515625 tensor(0.) tensor(0.) 0.0 0.0
3.3533921241760254 tensor(0.) tensor(0.) 0.0 0.0
3.422806739807129 tensor(0.) tensor(0.) 0.0 0.0
3.43723201751709 tensor(0.) tensor(0.) 0.0 0.0
3.171231985092163 tensor(0.) tensor(0.) 0.0 0.0
3.4279098510742188 tensor(0.) tensor(0.) 0.0 0.0
3.3332858085632324 tensor(0.) tensor(0.) 0.0 0.0
3.4120044708251953 tensor(0.) tensor(0.) 0.0 0.0
3.3134493827819824 tensor(0.) tensor(0.) 0.0 0.0
3.3044257164001465 tensor(0.) tensor(0.) 0.0 0.0
3.4046895503997803 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.7767:  69%|███████████████████████████████████████████████▍                     | 344/500 [00:07<00:02, 53.61batch/s]

3.338223457336426 tensor(0.) tensor(0.) 0.0 0.0
3.4449973106384277 tensor(0.) tensor(0.) 0.0 0.0
3.58355712890625 tensor(0.) tensor(0.) 0.0 0.0
3.2860703468322754 tensor(0.) tensor(0.) 0.0 0.0
3.6026716232299805 tensor(0.) tensor(0.) 0.0 0.0
3.519521474838257 tensor(0.) tensor(0.) 0.0 0.0
3.3213064670562744 tensor(0.) tensor(0.) 0.0 0.0
3.5542044639587402 tensor(0.) tensor(0.) 0.0 0.0
3.4976871013641357 tensor(0.) tensor(0.) 0.0 0.0
3.3008060455322266 tensor(0.) tensor(0.) 0.0 0.0
3.2201080322265625 tensor(0.) tensor(0.) 0.0 0.0
3.405618906021118 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.7624:  71%|█████████████████████████████████████████████████▏                   | 356/500 [00:07<00:02, 53.33batch/s]

3.5951828956604004 tensor(0.) tensor(0.) 0.0 0.0
3.4373714923858643 tensor(0.) tensor(0.) 0.0 0.0
3.380642890930176 tensor(0.) tensor(0.) 0.0 0.0
3.1669533252716064 tensor(0.) tensor(0.) 0.0 0.0
3.3419430255889893 tensor(0.) tensor(0.) 0.0 0.0
3.4419684410095215 tensor(0.) tensor(0.) 0.0 0.0
3.256930351257324 tensor(0.) tensor(0.) 0.0 0.0
3.3586020469665527 tensor(0.) tensor(0.) 0.0 0.0
3.10250186920166 tensor(0.) tensor(0.) 0.0 0.0
3.4353690147399902 tensor(0.) tensor(0.) 0.0 0.0
3.3238837718963623 tensor(0.) tensor(0.) 0.0 0.0
3.3284032344818115 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.7486:  74%|██████████████████████████████████████████████████▊                  | 368/500 [00:08<00:02, 53.96batch/s]

3.2775115966796875 tensor(0.) tensor(0.) 0.0 0.0
3.2208690643310547 tensor(0.) tensor(0.) 0.0 0.0
3.1623597145080566 tensor(0.) tensor(0.) 0.0 0.0
3.352203130722046 tensor(0.) tensor(0.) 0.0 0.0
3.304321050643921 tensor(0.) tensor(0.) 0.0 0.0
3.5199782848358154 tensor(0.) tensor(0.) 0.0 0.0
3.3774538040161133 tensor(0.) tensor(0.) 0.0 0.0
3.132788896560669 tensor(0.) tensor(0.) 0.0 0.0
3.6309149265289307 tensor(0.) tensor(0.) 0.0 0.0
3.0651917457580566 tensor(0.) tensor(0.) 0.0 0.0
3.235069513320923 tensor(0.) tensor(0.) 0.0 0.0
3.489729642868042 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.7340:  76%|████████████████████████████████████████████████████▍                | 380/500 [00:08<00:02, 53.87batch/s]

3.1337127685546875 tensor(0.) tensor(0.) 0.0 0.0
3.379652976989746 tensor(0.) tensor(0.) 0.0 0.0
3.4348201751708984 tensor(0.) tensor(0.) 0.0 0.0
3.368877649307251 tensor(0.) tensor(0.) 0.0 0.0
3.3586266040802 tensor(0.) tensor(0.) 0.0 0.0
3.045637607574463 tensor(0.) tensor(0.) 0.0 0.0
3.107072353363037 tensor(0.) tensor(0.) 0.0 0.0
3.2576982975006104 tensor(0.) tensor(0.) 0.0 0.0
2.9713082313537598 tensor(0.) tensor(0.) 0.0 0.0
3.5403707027435303 tensor(0.) tensor(0.) 0.0 0.0
3.3197851181030273 tensor(0.) tensor(0.) 0.0 0.0
3.1090340614318848 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.7200:  78%|██████████████████████████████████████████████████████               | 392/500 [00:08<00:01, 54.40batch/s]

3.446373224258423 tensor(0.) tensor(0.) 0.0 0.0
3.390624761581421 tensor(0.) tensor(0.) 0.0 0.0
3.3664145469665527 tensor(0.) tensor(0.) 0.0 0.0
3.5075087547302246 tensor(0.) tensor(0.) 0.0 0.0
3.2995498180389404 tensor(0.) tensor(0.) 0.0 0.0
3.3013949394226074 tensor(0.) tensor(0.) 0.0 0.0
3.284684419631958 tensor(0.) tensor(0.) 0.0 0.0
3.2525815963745117 tensor(0.) tensor(0.) 0.0 0.0
2.981260061264038 tensor(0.) tensor(0.) 0.0 0.0
3.092498779296875 tensor(0.) tensor(0.) 0.0 0.0
3.27131724357605 tensor(0.) tensor(0.) 0.0 0.0
3.511012315750122 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.7066:  81%|███████████████████████████████████████████████████████▊             | 404/500 [00:08<00:01, 53.98batch/s]

3.2765872478485107 tensor(0.) tensor(0.) 0.0 0.0
3.239846706390381 tensor(0.) tensor(0.) 0.0 0.0
3.1352601051330566 tensor(0.) tensor(0.) 0.0 0.0
3.1077685356140137 tensor(0.) tensor(0.) 0.0 0.0
3.297207832336426 tensor(0.) tensor(0.) 0.0 0.0
3.119408369064331 tensor(0.) tensor(0.) 0.0 0.0
3.409714937210083 tensor(0.) tensor(0.) 0.0 0.0
3.1965231895446777 tensor(0.) tensor(0.) 0.0 0.0
3.4412941932678223 tensor(0.) tensor(0.) 0.0 0.0
3.1443915367126465 tensor(0.) tensor(0.) 0.0 0.0
3.331237554550171 tensor(0.) tensor(0.) 0.0 0.0
3.375406265258789 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.6915:  83%|█████████████████████████████████████████████████████████▍           | 416/500 [00:08<00:01, 54.85batch/s]

3.2137300968170166 tensor(0.) tensor(0.) 0.0 0.0
3.41129207611084 tensor(0.) tensor(0.) 0.0 0.0
3.2506842613220215 tensor(0.) tensor(0.) 0.0 0.0
3.186915397644043 tensor(0.) tensor(0.) 0.0 0.0
3.387103796005249 tensor(0.) tensor(0.) 0.0 0.0
3.05092191696167 tensor(0.) tensor(0.) 0.0 0.0
2.965606689453125 tensor(0.) tensor(0.) 0.0 0.0
3.294844388961792 tensor(0.) tensor(0.) 0.0 0.0
3.1939444541931152 tensor(0.) tensor(0.) 0.0 0.0
2.972667932510376 tensor(0.) tensor(0.) 0.0 0.0
3.293593168258667 tensor(0.) tensor(0.) 0.0 0.0
3.2612946033477783 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.6801:  86%|███████████████████████████████████████████████████████████          | 428/500 [00:09<00:01, 54.52batch/s]

3.1573760509490967 tensor(0.) tensor(0.) 0.0 0.0
3.3766109943389893 tensor(0.) tensor(0.) 0.0 0.0
3.51774525642395 tensor(0.) tensor(0.) 0.0 0.0
3.528219223022461 tensor(0.) tensor(0.) 0.0 0.0
3.191235065460205 tensor(0.) tensor(0.) 0.0 0.0
3.0492801666259766 tensor(0.) tensor(0.) 0.0 0.0
3.1795413494110107 tensor(0.) tensor(0.) 0.0 0.0
3.132124423980713 tensor(0.) tensor(0.) 0.0 0.0
3.125387191772461 tensor(0.) tensor(0.) 0.0 0.0
3.3560128211975098 tensor(0.) tensor(0.) 0.0 0.0
3.0748674869537354 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.6679:  88%|████████████████████████████████████████████████████████████▋        | 440/500 [00:09<00:01, 53.00batch/s]

3.0194408893585205 tensor(0.) tensor(0.) 0.0 0.0
3.2456674575805664 tensor(0.) tensor(0.) 0.0 0.0
3.291970729827881 tensor(0.) tensor(0.) 0.0 0.0
3.2000746726989746 tensor(0.) tensor(0.) 0.0 0.0
3.1470890045166016 tensor(0.) tensor(0.) 0.0 0.0
3.0940287113189697 tensor(0.) tensor(0.) 0.0 0.0
3.2348427772521973 tensor(0.) tensor(0.) 0.0 0.0
3.111720561981201 tensor(0.) tensor(0.) 0.0 0.0
3.1507859230041504 tensor(0.) tensor(0.) 0.0 0.0
3.49043345451355 tensor(0.) tensor(0.) 0.0 0.0
3.1316640377044678 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.6588:  90%|██████████████████████████████████████████████████████████████▍      | 452/500 [00:09<00:00, 53.38batch/s]

3.2275936603546143 tensor(0.) tensor(0.) 0.0 0.0
3.202484369277954 tensor(0.) tensor(0.) 0.0 0.0
3.117285966873169 tensor(0.) tensor(0.) 0.0 0.0
3.546811103820801 tensor(0.) tensor(0.) 0.0 0.0
3.452544927597046 tensor(0.) tensor(0.) 0.0 0.0
3.3101632595062256 tensor(0.) tensor(0.) 0.0 0.0
3.2973451614379883 tensor(0.) tensor(0.) 0.0 0.0
3.008370876312256 tensor(0.) tensor(0.) 0.0 0.0
3.5243442058563232 tensor(0.) tensor(0.) 0.0 0.0
3.1267006397247314 tensor(0.) tensor(0.) 0.0 0.0
3.432973623275757 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.6488:  92%|███████████████████████████████████████████████████████████████▏     | 458/500 [00:09<00:00, 52.36batch/s]

3.5292205810546875 tensor(0.) tensor(0.) 0.0 0.0
3.3251798152923584 tensor(0.) tensor(0.) 0.0 0.0
2.9692065715789795 tensor(0.) tensor(0.) 0.0 0.0
3.3684113025665283 tensor(0.) tensor(0.) 0.0 0.0
3.270914077758789 tensor(0.) tensor(0.) 0.0 0.0
2.9312024116516113 tensor(0.) tensor(0.) 0.0 0.0
3.2312324047088623 tensor(0.) tensor(0.) 0.0 0.0
3.4708120822906494 tensor(0.) tensor(0.) 0.0 0.0
3.2731704711914062 tensor(0.) tensor(0.) 0.0 0.0
3.101255178451538 tensor(0.) tensor(0.) 0.0 0.0
3.1364548206329346 tensor(0.) tensor(0.) 0.0 0.0
3.024359703063965 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.6375:  95%|█████████████████████████████████████████████████████████████████▋   | 476/500 [00:10<00:00, 53.99batch/s]

3.1913857460021973 tensor(0.) tensor(0.) 0.0 0.0
2.97635555267334 tensor(0.) tensor(0.) 0.0 0.0
3.249587297439575 tensor(0.) tensor(0.) 0.0 0.0
3.1902289390563965 tensor(0.) tensor(0.) 0.0 0.0
3.0728564262390137 tensor(0.) tensor(0.) 0.0 0.0
3.3929924964904785 tensor(0.) tensor(0.) 0.0 0.0
3.186713933944702 tensor(0.) tensor(0.) 0.0 0.0
3.687058448791504 tensor(0.) tensor(0.) 0.0 0.0
3.2743189334869385 tensor(0.) tensor(0.) 0.0 0.0
3.2102231979370117 tensor(0.) tensor(0.) 0.0 0.0
3.28912353515625 tensor(0.) tensor(0.) 0.0 0.0
3.309967279434204 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.6258:  96%|██████████████████████████████████████████████████████████████████▌  | 482/500 [00:10<00:00, 51.32batch/s]

2.9017691612243652 tensor(0.) tensor(0.) 0.0 0.0
3.2090651988983154 tensor(0.) tensor(0.) 0.0 0.0
3.0555269718170166 tensor(0.) tensor(0.) 0.0 0.0
3.0428671836853027 tensor(0.) tensor(0.) 0.0 0.0
3.156118154525757 tensor(0.) tensor(0.) 0.0 0.0
3.0490078926086426 tensor(0.) tensor(0.) 0.0 0.0
3.368025541305542 tensor(0.) tensor(0.) 0.0 0.0
2.8655331134796143 tensor(0.) tensor(0.) 0.0 0.0
3.183537244796753 tensor(0.) tensor(0.) 0.0 0.0
2.852088689804077 tensor(0.) tensor(0.) 0.0 0.0
2.9587929248809814 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.6148:  99%|████████████████████████████████████████████████████████████████████▏| 494/500 [00:10<00:00, 53.22batch/s]

3.3584747314453125 tensor(0.) tensor(0.) 0.0 0.0
3.1643755435943604 tensor(0.) tensor(0.) 0.0 0.0
2.9357876777648926 tensor(0.) tensor(0.) 0.0 0.0
3.1069345474243164 tensor(0.) tensor(0.) 0.0 0.0
3.319643259048462 tensor(0.) tensor(0.) 0.0 0.0
3.1367762088775635 tensor(0.) tensor(0.) 0.0 0.0
2.8832035064697266 tensor(0.) tensor(0.) 0.0 0.0
3.307030439376831 tensor(0.) tensor(0.) 0.0 0.0
3.2155816555023193 tensor(0.) tensor(0.) 0.0 0.0
3.0114965438842773 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.6116: 100%|█████████████████████████████████████████████████████████████████████| 500/500 [00:10<00:00, 47.58batch/s]

3.248356819152832 tensor(0.) tensor(0.) 0.0 0.0
2.9671502113342285 tensor(0.) tensor(0.) 0.0 0.0
3.0376598834991455 tensor(0.) tensor(0.) 0.0 0.0
Teacher Training Loss: 3.6115892267227174



Epoch 0 Loss: 4.5878:   1%|▍                                                                      | 3/500 [00:00<00:17, 28.15batch/s]

4.604698181152344 tensor(0.) tensor(0.) 0.0 0.0
4.6241135597229 tensor(0.) tensor(0.) 0.0 0.0
4.544034004211426 tensor(0.) tensor(0.) 0.0 0.0
4.578185081481934 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.5877:   2%|█▎                                                                     | 9/500 [00:00<00:11, 42.38batch/s]

4.694578647613525 tensor(0.) tensor(0.) 0.0 0.0
4.520771026611328 tensor(0.) tensor(0.) 0.0 0.0
4.61680793762207 tensor(0.) tensor(0.) 0.0 0.0
4.565612316131592 tensor(0.) tensor(0.) 0.0 0.0
4.55836296081543 tensor(0.) tensor(0.) 0.0 0.0
4.59153413772583 tensor(0.) tensor(0.) 0.0 0.0
4.565825939178467 tensor(0.) tensor(0.) 0.0 0.0
4.587297439575195 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.5867:   2%|█▎                                                                     | 9/500 [00:00<00:11, 42.38batch/s]

4.576983451843262 tensor(0.) tensor(0.) 0.0 0.0
4.57017707824707 tensor(0.) tensor(0.) 0.0 0.0
4.600851535797119 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.5479:   4%|██▉                                                                   | 21/500 [00:00<00:09, 50.15batch/s]

4.492121696472168 tensor(0.) tensor(0.) 0.0 0.0
4.533559799194336 tensor(0.) tensor(0.) 0.0 0.0
4.471019744873047 tensor(0.) tensor(0.) 0.0 0.0
4.4579081535339355 tensor(0.) tensor(0.) 0.0 0.0
4.457931041717529 tensor(0.) tensor(0.) 0.0 0.0
4.463308811187744 tensor(0.) tensor(0.) 0.0 0.0
4.513072967529297 tensor(0.) tensor(0.) 0.0 0.0
4.419634819030762 tensor(0.) tensor(0.) 0.0 0.0
4.540194511413574 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.5409:   4%|██▉                                                                   | 21/500 [00:00<00:09, 50.15batch/s]

4.4522318840026855 tensor(0.) tensor(0.) 0.0 0.0
4.462265491485596 tensor(0.) tensor(0.) 0.0 0.0
4.412182807922363 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.5075:   7%|████▌                                                                 | 33/500 [00:00<00:08, 53.09batch/s]

4.4056010246276855 tensor(0.) tensor(0.) 0.0 0.0
4.4361982345581055 tensor(0.) tensor(0.) 0.0 0.0
4.467824935913086 tensor(0.) tensor(0.) 0.0 0.0
4.313623428344727 tensor(0.) tensor(0.) 0.0 0.0
4.448251724243164 tensor(0.) tensor(0.) 0.0 0.0
4.473442077636719 tensor(0.) tensor(0.) 0.0 0.0
4.363773345947266 tensor(0.) tensor(0.) 0.0 0.0
4.389045238494873 tensor(0.) tensor(0.) 0.0 0.0
4.495908737182617 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.4972:   7%|████▌                                                                 | 33/500 [00:00<00:08, 53.09batch/s]

4.267872333526611 tensor(0.) tensor(0.) 0.0 0.0
4.357508182525635 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.4483:   9%|██████▎                                                               | 45/500 [00:00<00:08, 54.36batch/s]

4.410163402557373 tensor(0.) tensor(0.) 0.0 0.0
4.150068759918213 tensor(0.) tensor(0.) 0.0 0.0
4.276391983032227 tensor(0.) tensor(0.) 0.0 0.0
4.183455944061279 tensor(0.) tensor(0.) 0.0 0.0
4.384420394897461 tensor(0.) tensor(0.) 0.0 0.0
4.303646087646484 tensor(0.) tensor(0.) 0.0 0.0
4.173508167266846 tensor(0.) tensor(0.) 0.0 0.0
4.315311908721924 tensor(0.) tensor(0.) 0.0 0.0
4.2214131355285645 tensor(0.) tensor(0.) 0.0 0.0
4.205196857452393 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.4438:   9%|██████▎                                                               | 45/500 [00:00<00:08, 54.36batch/s]

4.33994722366333 tensor(0.) tensor(0.) 0.0 0.0
4.332729816436768 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.4076:  11%|███████▉                                                              | 57/500 [00:01<00:08, 51.88batch/s]

4.2543134689331055 tensor(0.) tensor(0.) 0.0 0.0
4.188808441162109 tensor(0.) tensor(0.) 0.0 0.0
4.219082832336426 tensor(0.) tensor(0.) 0.0 0.0
4.127111434936523 tensor(0.) tensor(0.) 0.0 0.0
4.111276626586914 tensor(0.) tensor(0.) 0.0 0.0
4.144197940826416 tensor(0.) tensor(0.) 0.0 0.0
4.21718168258667 tensor(0.) tensor(0.) 0.0 0.0
4.187610626220703 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.3964:  11%|███████▉                                                              | 57/500 [00:01<00:08, 51.88batch/s]

4.188733100891113 tensor(0.) tensor(0.) 0.0 0.0
4.241551399230957 tensor(0.) tensor(0.) 0.0 0.0
4.1122050285339355 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.3614:  14%|█████████▋                                                            | 69/500 [00:01<00:08, 53.02batch/s]

4.009779930114746 tensor(0.) tensor(0.) 0.0 0.0
4.1132588386535645 tensor(0.) tensor(0.) 0.0 0.0
4.127566814422607 tensor(0.) tensor(0.) 0.0 0.0
4.1174163818359375 tensor(0.) tensor(0.) 0.0 0.0
4.043259620666504 tensor(0.) tensor(0.) 0.0 0.0
4.142719745635986 tensor(0.) tensor(0.) 0.0 0.0
4.180133819580078 tensor(0.) tensor(0.) 0.0 0.0
4.316165447235107 tensor(0.) tensor(0.) 0.0 0.0
4.065917491912842 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.3564:  14%|█████████▋                                                            | 69/500 [00:01<00:08, 53.02batch/s]

4.158134937286377 tensor(0.) tensor(0.) 0.0 0.0
4.2055158615112305 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.3217:  16%|███████████▎                                                          | 81/500 [00:01<00:07, 53.81batch/s]

4.114238739013672 tensor(0.) tensor(0.) 0.0 0.0
3.9502789974212646 tensor(0.) tensor(0.) 0.0 0.0
4.112681865692139 tensor(0.) tensor(0.) 0.0 0.0
3.9782440662384033 tensor(0.) tensor(0.) 0.0 0.0
3.9557580947875977 tensor(0.) tensor(0.) 0.0 0.0
4.130025863647461 tensor(0.) tensor(0.) 0.0 0.0
4.335392475128174 tensor(0.) tensor(0.) 0.0 0.0
4.037320137023926 tensor(0.) tensor(0.) 0.0 0.0
3.994988203048706 tensor(0.) tensor(0.) 0.0 0.0
4.10969352722168 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.3167:  16%|███████████▎                                                          | 81/500 [00:01<00:07, 53.81batch/s]

4.0152997970581055 tensor(0.) tensor(0.) 0.0 0.0
4.205606937408447 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.2872:  19%|█████████████                                                         | 93/500 [00:01<00:07, 53.75batch/s]

3.917588472366333 tensor(0.) tensor(0.) 0.0 0.0
4.018466949462891 tensor(0.) tensor(0.) 0.0 0.0
3.960010051727295 tensor(0.) tensor(0.) 0.0 0.0
3.998516798019409 tensor(0.) tensor(0.) 0.0 0.0
4.082242488861084 tensor(0.) tensor(0.) 0.0 0.0
4.0169501304626465 tensor(0.) tensor(0.) 0.0 0.0
4.177429676055908 tensor(0.) tensor(0.) 0.0 0.0
4.052621364593506 tensor(0.) tensor(0.) 0.0 0.0
4.1611857414245605 tensor(0.) tensor(0.) 0.0 0.0
4.012482166290283 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.2787:  19%|█████████████                                                         | 93/500 [00:01<00:07, 53.75batch/s]

3.762929916381836 tensor(0.) tensor(0.) 0.0 0.0
3.9938364028930664 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.2523:  21%|██████████████▍                                                      | 105/500 [00:02<00:07, 53.65batch/s]

4.140988349914551 tensor(0.) tensor(0.) 0.0 0.0
4.006823539733887 tensor(0.) tensor(0.) 0.0 0.0
4.081213474273682 tensor(0.) tensor(0.) 0.0 0.0
4.096128940582275 tensor(0.) tensor(0.) 0.0 0.0
3.934088706970215 tensor(0.) tensor(0.) 0.0 0.0
3.9426703453063965 tensor(0.) tensor(0.) 0.0 0.0
3.890626907348633 tensor(0.) tensor(0.) 0.0 0.0
4.1952056884765625 tensor(0.) tensor(0.) 0.0 0.0
3.879171133041382 tensor(0.) tensor(0.) 0.0 0.0
3.8247158527374268 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.2456:  21%|██████████████▍                                                      | 105/500 [00:02<00:07, 53.65batch/s]

3.9188156127929688 tensor(0.) tensor(0.) 0.0 0.0
3.863248586654663 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.2153:  23%|████████████████▏                                                    | 117/500 [00:02<00:07, 53.70batch/s]

3.972935438156128 tensor(0.) tensor(0.) 0.0 0.0
3.965423822402954 tensor(0.) tensor(0.) 0.0 0.0
3.8387985229492188 tensor(0.) tensor(0.) 0.0 0.0
3.8898024559020996 tensor(0.) tensor(0.) 0.0 0.0
3.9109749794006348 tensor(0.) tensor(0.) 0.0 0.0
4.025143623352051 tensor(0.) tensor(0.) 0.0 0.0
3.8419907093048096 tensor(0.) tensor(0.) 0.0 0.0
3.756260395050049 tensor(0.) tensor(0.) 0.0 0.0
3.9059972763061523 tensor(0.) tensor(0.) 0.0 0.0
3.768476963043213 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.2103:  23%|████████████████▏                                                    | 117/500 [00:02<00:07, 53.70batch/s]

3.985664129257202 tensor(0.) tensor(0.) 0.0 0.0
3.841620683670044 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.1835:  26%|█████████████████▊                                                   | 129/500 [00:02<00:06, 54.14batch/s]

4.1258134841918945 tensor(0.) tensor(0.) 0.0 0.0
3.786970853805542 tensor(0.) tensor(0.) 0.0 0.0
3.867992639541626 tensor(0.) tensor(0.) 0.0 0.0
3.8181450366973877 tensor(0.) tensor(0.) 0.0 0.0
3.860586643218994 tensor(0.) tensor(0.) 0.0 0.0
3.8212692737579346 tensor(0.) tensor(0.) 0.0 0.0
3.808591365814209 tensor(0.) tensor(0.) 0.0 0.0
3.8956878185272217 tensor(0.) tensor(0.) 0.0 0.0
3.8776063919067383 tensor(0.) tensor(0.) 0.0 0.0
3.7631168365478516 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.1794:  26%|█████████████████▊                                                   | 129/500 [00:02<00:06, 54.14batch/s]

3.8489673137664795 tensor(0.) tensor(0.) 0.0 0.0
3.9725236892700195 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.1551:  28%|███████████████████▍                                                 | 141/500 [00:02<00:06, 53.69batch/s]

3.9321582317352295 tensor(0.) tensor(0.) 0.0 0.0
3.920879602432251 tensor(0.) tensor(0.) 0.0 0.0
3.7970263957977295 tensor(0.) tensor(0.) 0.0 0.0
3.8357512950897217 tensor(0.) tensor(0.) 0.0 0.0
3.569323778152466 tensor(0.) tensor(0.) 0.0 0.0
4.0392069816589355 tensor(0.) tensor(0.) 0.0 0.0
3.908032178878784 tensor(0.) tensor(0.) 0.0 0.0
3.840134382247925 tensor(0.) tensor(0.) 0.0 0.0
3.7967071533203125 tensor(0.) tensor(0.) 0.0 0.0
3.701502799987793 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.1516:  28%|███████████████████▍                                                 | 141/500 [00:02<00:06, 53.69batch/s]

3.852661371231079 tensor(0.) tensor(0.) 0.0 0.0
3.9555678367614746 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.1226:  31%|█████████████████████                                                | 153/500 [00:02<00:06, 54.87batch/s]

3.6959915161132812 tensor(0.) tensor(0.) 0.0 0.0
3.8452844619750977 tensor(0.) tensor(0.) 0.0 0.0
3.781818151473999 tensor(0.) tensor(0.) 0.0 0.0
3.9630091190338135 tensor(0.) tensor(0.) 0.0 0.0
3.4828362464904785 tensor(0.) tensor(0.) 0.0 0.0
3.604705810546875 tensor(0.) tensor(0.) 0.0 0.0
3.7983744144439697 tensor(0.) tensor(0.) 0.0 0.0
3.6989240646362305 tensor(0.) tensor(0.) 0.0 0.0
3.674624443054199 tensor(0.) tensor(0.) 0.0 0.0
3.5030345916748047 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.1176:  31%|█████████████████████                                                | 153/500 [00:02<00:06, 54.87batch/s]

3.6873557567596436 tensor(0.) tensor(0.) 0.0 0.0
3.77554988861084 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.0918:  33%|██████████████████████▊                                              | 165/500 [00:03<00:06, 54.26batch/s]

3.66581392288208 tensor(0.) tensor(0.) 0.0 0.0
3.7634992599487305 tensor(0.) tensor(0.) 0.0 0.0
3.657602310180664 tensor(0.) tensor(0.) 0.0 0.0
3.84132719039917 tensor(0.) tensor(0.) 0.0 0.0
3.5480804443359375 tensor(0.) tensor(0.) 0.0 0.0
3.743192195892334 tensor(0.) tensor(0.) 0.0 0.0
3.565528154373169 tensor(0.) tensor(0.) 0.0 0.0
3.7051239013671875 tensor(0.) tensor(0.) 0.0 0.0
3.685380458831787 tensor(0.) tensor(0.) 0.0 0.0
3.7246224880218506 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.0896:  33%|██████████████████████▊                                              | 165/500 [00:03<00:06, 54.26batch/s]

3.832119941711426 tensor(0.) tensor(0.) 0.0 0.0
3.987070083618164 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.0677:  35%|████████████████████████▍                                            | 177/500 [00:03<00:05, 54.14batch/s]

3.6781227588653564 tensor(0.) tensor(0.) 0.0 0.0
3.8436014652252197 tensor(0.) tensor(0.) 0.0 0.0
3.66162109375 tensor(0.) tensor(0.) 0.0 0.0
3.5853993892669678 tensor(0.) tensor(0.) 0.0 0.0
3.7441327571868896 tensor(0.) tensor(0.) 0.0 0.0
3.5695080757141113 tensor(0.) tensor(0.) 0.0 0.0
3.864459276199341 tensor(0.) tensor(0.) 0.0 0.0
3.5809311866760254 tensor(0.) tensor(0.) 0.0 0.0
3.715632438659668 tensor(0.) tensor(0.) 0.0 0.0
3.7537198066711426 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.0635:  35%|████████████████████████▍                                            | 177/500 [00:03<00:05, 54.14batch/s]

3.6406383514404297 tensor(0.) tensor(0.) 0.0 0.0
3.7386465072631836 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.0420:  38%|██████████████████████████                                           | 189/500 [00:03<00:05, 54.67batch/s]

3.5893239974975586 tensor(0.) tensor(0.) 0.0 0.0
3.9783546924591064 tensor(0.) tensor(0.) 0.0 0.0
3.579563617706299 tensor(0.) tensor(0.) 0.0 0.0
3.8430516719818115 tensor(0.) tensor(0.) 0.0 0.0
3.7393078804016113 tensor(0.) tensor(0.) 0.0 0.0
3.4959042072296143 tensor(0.) tensor(0.) 0.0 0.0
3.531733512878418 tensor(0.) tensor(0.) 0.0 0.0
3.525676965713501 tensor(0.) tensor(0.) 0.0 0.0
3.636791944503784 tensor(0.) tensor(0.) 0.0 0.0
3.630302667617798 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.0386:  38%|██████████████████████████                                           | 189/500 [00:03<00:05, 54.67batch/s]

3.7880783081054688 tensor(0.) tensor(0.) 0.0 0.0
3.6299049854278564 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.0157:  40%|███████████████████████████▋                                         | 201/500 [00:03<00:05, 54.71batch/s]

3.666827917098999 tensor(0.) tensor(0.) 0.0 0.0
3.566718816757202 tensor(0.) tensor(0.) 0.0 0.0
3.7759511470794678 tensor(0.) tensor(0.) 0.0 0.0
3.6386020183563232 tensor(0.) tensor(0.) 0.0 0.0
3.4077112674713135 tensor(0.) tensor(0.) 0.0 0.0
3.485886335372925 tensor(0.) tensor(0.) 0.0 0.0
3.515477180480957 tensor(0.) tensor(0.) 0.0 0.0
3.493762254714966 tensor(0.) tensor(0.) 0.0 0.0
3.719846248626709 tensor(0.) tensor(0.) 0.0 0.0
3.495729684829712 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.0125:  40%|███████████████████████████▋                                         | 201/500 [00:03<00:05, 54.71batch/s]

3.6488735675811768 tensor(0.) tensor(0.) 0.0 0.0
3.733208656311035 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.9934:  43%|█████████████████████████████▍                                       | 213/500 [00:04<00:05, 54.33batch/s]

3.5326056480407715 tensor(0.) tensor(0.) 0.0 0.0
3.608661413192749 tensor(0.) tensor(0.) 0.0 0.0
3.413674831390381 tensor(0.) tensor(0.) 0.0 0.0
3.562016010284424 tensor(0.) tensor(0.) 0.0 0.0
3.390277147293091 tensor(0.) tensor(0.) 0.0 0.0
3.5412042140960693 tensor(0.) tensor(0.) 0.0 0.0
3.783867120742798 tensor(0.) tensor(0.) 0.0 0.0
3.7107949256896973 tensor(0.) tensor(0.) 0.0 0.0
3.703702926635742 tensor(0.) tensor(0.) 0.0 0.0
3.7884154319763184 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.9904:  43%|█████████████████████████████▍                                       | 213/500 [00:04<00:05, 54.33batch/s]

3.5092196464538574 tensor(0.) tensor(0.) 0.0 0.0
3.8194398880004883 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.9716:  45%|███████████████████████████████                                      | 225/500 [00:04<00:05, 54.47batch/s]

3.583767890930176 tensor(0.) tensor(0.) 0.0 0.0
3.5638952255249023 tensor(0.) tensor(0.) 0.0 0.0
3.533756971359253 tensor(0.) tensor(0.) 0.0 0.0
3.5845587253570557 tensor(0.) tensor(0.) 0.0 0.0
3.752883195877075 tensor(0.) tensor(0.) 0.0 0.0
3.553253412246704 tensor(0.) tensor(0.) 0.0 0.0
3.6971445083618164 tensor(0.) tensor(0.) 0.0 0.0
3.703512191772461 tensor(0.) tensor(0.) 0.0 0.0
3.3857834339141846 tensor(0.) tensor(0.) 0.0 0.0
3.3013346195220947 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.9696:  45%|███████████████████████████████                                      | 225/500 [00:04<00:05, 54.47batch/s]

3.731499433517456 tensor(0.) tensor(0.) 0.0 0.0
3.753765344619751 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.9551:  47%|████████████████████████████████▋                                    | 237/500 [00:04<00:04, 54.16batch/s]

3.745765447616577 tensor(0.) tensor(0.) 0.0 0.0
3.4741122722625732 tensor(0.) tensor(0.) 0.0 0.0
3.7300097942352295 tensor(0.) tensor(0.) 0.0 0.0
3.7539420127868652 tensor(0.) tensor(0.) 0.0 0.0
3.589521884918213 tensor(0.) tensor(0.) 0.0 0.0
3.6496241092681885 tensor(0.) tensor(0.) 0.0 0.0
3.6589620113372803 tensor(0.) tensor(0.) 0.0 0.0
3.607466459274292 tensor(0.) tensor(0.) 0.0 0.0
3.5428361892700195 tensor(0.) tensor(0.) 0.0 0.0
3.501920461654663 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.9526:  47%|████████████████████████████████▋                                    | 237/500 [00:04<00:04, 54.16batch/s]

3.708827257156372 tensor(0.) tensor(0.) 0.0 0.0
3.607322931289673 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.9345:  50%|██████████████████████████████████▎                                  | 249/500 [00:04<00:04, 54.63batch/s]

3.2712819576263428 tensor(0.) tensor(0.) 0.0 0.0
3.408487558364868 tensor(0.) tensor(0.) 0.0 0.0
3.491938829421997 tensor(0.) tensor(0.) 0.0 0.0
3.5310823917388916 tensor(0.) tensor(0.) 0.0 0.0
3.392174005508423 tensor(0.) tensor(0.) 0.0 0.0
3.564095973968506 tensor(0.) tensor(0.) 0.0 0.0
3.7358412742614746 tensor(0.) tensor(0.) 0.0 0.0
3.474170446395874 tensor(0.) tensor(0.) 0.0 0.0
3.4870336055755615 tensor(0.) tensor(0.) 0.0 0.0
3.6422722339630127 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.9316:  50%|██████████████████████████████████▎                                  | 249/500 [00:04<00:04, 54.63batch/s]

3.353165626525879 tensor(0.) tensor(0.) 0.0 0.0
3.7895891666412354 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.9167:  52%|████████████████████████████████████                                 | 261/500 [00:04<00:04, 53.69batch/s]

3.503937005996704 tensor(0.) tensor(0.) 0.0 0.0
3.8212759494781494 tensor(0.) tensor(0.) 0.0 0.0
3.4513330459594727 tensor(0.) tensor(0.) 0.0 0.0
3.398965835571289 tensor(0.) tensor(0.) 0.0 0.0
3.323371171951294 tensor(0.) tensor(0.) 0.0 0.0
3.7346079349517822 tensor(0.) tensor(0.) 0.0 0.0
3.3726327419281006 tensor(0.) tensor(0.) 0.0 0.0
3.572986125946045 tensor(0.) tensor(0.) 0.0 0.0
3.765479803085327 tensor(0.) tensor(0.) 0.0 0.0
3.465031385421753 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.9145:  52%|████████████████████████████████████                                 | 261/500 [00:04<00:04, 53.69batch/s]

3.4295754432678223 tensor(0.) tensor(0.) 0.0 0.0
3.8048229217529297 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.8998:  55%|█████████████████████████████████████▋                               | 273/500 [00:05<00:04, 53.11batch/s]

3.4166359901428223 tensor(0.) tensor(0.) 0.0 0.0
3.468562126159668 tensor(0.) tensor(0.) 0.0 0.0
3.416750431060791 tensor(0.) tensor(0.) 0.0 0.0
3.5375418663024902 tensor(0.) tensor(0.) 0.0 0.0
3.5285065174102783 tensor(0.) tensor(0.) 0.0 0.0
3.3976614475250244 tensor(0.) tensor(0.) 0.0 0.0
3.4634287357330322 tensor(0.) tensor(0.) 0.0 0.0
3.4643216133117676 tensor(0.) tensor(0.) 0.0 0.0
3.525331974029541 tensor(0.) tensor(0.) 0.0 0.0
3.3397772312164307 

Epoch 0 Loss: 3.8957:  55%|█████████████████████████████████████▋                               | 273/500 [00:05<00:04, 53.11batch/s]

tensor(0.) tensor(0.) 0.0 0.0
3.347587823867798 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.8857:  56%|██████████████████████████████████████▌                              | 279/500 [00:05<00:04, 52.95batch/s]

3.647968053817749 tensor(0.) tensor(0.) 0.0 0.0
3.6744418144226074 tensor(0.) tensor(0.) 0.0 0.0
3.331373929977417 tensor(0.) tensor(0.) 0.0 0.0
3.551872968673706 tensor(0.) tensor(0.) 0.0 0.0
3.5702085494995117 tensor(0.) tensor(0.) 0.0 0.0
3.501572847366333 tensor(0.) tensor(0.) 0.0 0.0
3.662149667739868 tensor(0.) tensor(0.) 0.0 0.0
3.6521127223968506 tensor(0.) tensor(0.) 0.0 0.0
3.6120269298553467 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.8833:  57%|███████████████████████████████████████▎                             | 285/500 [00:05<00:04, 53.17batch/s]

3.7491605281829834 tensor(0.) tensor(0.) 0.0 0.0
3.3440821170806885 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.8658:  58%|████████████████████████████████████████▏                            | 291/500 [00:05<00:03, 53.22batch/s]

3.4871437549591064 tensor(0.) tensor(0.) 0.0 0.0
3.3489890098571777 tensor(0.) tensor(0.) 0.0 0.0
3.2944648265838623 tensor(0.) tensor(0.) 0.0 0.0
3.5468544960021973 tensor(0.) tensor(0.) 0.0 0.0
3.462465286254883 tensor(0.) tensor(0.) 0.0 0.0
3.3813302516937256 tensor(0.) tensor(0.) 0.0 0.0
3.225127935409546 tensor(0.) tensor(0.) 0.0 0.0
3.342548131942749 tensor(0.) tensor(0.) 0.0 0.0
3.3018698692321777 tensor(0.) tensor(0.) 0.0 0.0
3.2717065811157227 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.8644:  59%|████████████████████████████████████████▉                            | 297/500 [00:05<00:03, 53.50batch/s]

3.456575632095337 tensor(0.) tensor(0.) 0.0 0.0
3.736873149871826 

Epoch 0 Loss: 3.8515:  61%|█████████████████████████████████████████▊                           | 303/500 [00:05<00:03, 52.44batch/s]

tensor(0.) tensor(0.) 0.0 0.0
3.4073550701141357 tensor(0.) tensor(0.) 0.0 0.0
3.5491161346435547 tensor(0.) tensor(0.) 0.0 0.0
3.4751901626586914 tensor(0.) tensor(0.) 0.0 0.0
3.484619140625 tensor(0.) tensor(0.) 0.0 0.0
3.3290131092071533 tensor(0.) tensor(0.) 0.0 0.0
3.4920740127563477 tensor(0.) tensor(0.) 0.0 0.0
3.464261054992676 tensor(0.) tensor(0.) 0.0 0.0
3.3801443576812744 tensor(0.) tensor(0.) 0.0 0.0
3.6434524059295654 tensor(0.) tensor(0.) 0.0 0.0
3.549203872680664 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.8357:  63%|███████████████████████████████████████████▍                         | 315/500 [00:05<00:03, 53.96batch/s]

3.303767204284668 tensor(0.) tensor(0.) 0.0 0.0
3.3113090991973877 tensor(0.) tensor(0.) 0.0 0.0
3.4005086421966553 tensor(0.) tensor(0.) 0.0 0.0
3.7847635746002197 tensor(0.) tensor(0.) 0.0 0.0
3.3795669078826904 tensor(0.) tensor(0.) 0.0 0.0
3.5657217502593994 tensor(0.) tensor(0.) 0.0 0.0
3.25130558013916 tensor(0.) tensor(0.) 0.0 0.0
3.422214984893799 tensor(0.) tensor(0.) 0.0 0.0
3.396632671356201 tensor(0.) tensor(0.) 0.0 0.0
3.4533960819244385 tensor(0.) tensor(0.) 0.0 0.0
3.4397366046905518 tensor(0.) tensor(0.) 0.0 0.0
3.4745256900787354 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.8206:  65%|█████████████████████████████████████████████▏                       | 327/500 [00:06<00:03, 53.82batch/s]

3.5105979442596436 tensor(0.) tensor(0.) 0.0 0.0
3.249985456466675 tensor(0.) tensor(0.) 0.0 0.0
3.468904972076416 tensor(0.) tensor(0.) 0.0 0.0
3.210836887359619 tensor(0.) tensor(0.) 0.0 0.0
3.6388890743255615 tensor(0.) tensor(0.) 0.0 0.0
3.391505241394043 tensor(0.) tensor(0.) 0.0 0.0
3.3415799140930176 tensor(0.) tensor(0.) 0.0 0.0
3.4267265796661377 tensor(0.) tensor(0.) 0.0 0.0
3.483325242996216 tensor(0.) tensor(0.) 0.0 0.0
3.501706600189209 tensor(0.) tensor(0.) 0.0 0.0
3.445730209350586 tensor(0.) tensor(0.) 0.0 0.0
3.3332464694976807 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.8069:  68%|██████████████████████████████████████████████▊                      | 339/500 [00:06<00:02, 54.32batch/s]

3.361600875854492 tensor(0.) tensor(0.) 0.0 0.0
3.398005485534668 tensor(0.) tensor(0.) 0.0 0.0
3.5453803539276123 tensor(0.) tensor(0.) 0.0 0.0
3.5049827098846436 tensor(0.) tensor(0.) 0.0 0.0
3.602457284927368 tensor(0.) tensor(0.) 0.0 0.0
3.250852346420288 tensor(0.) tensor(0.) 0.0 0.0
3.657463788986206 tensor(0.) tensor(0.) 0.0 0.0
3.5929348468780518 tensor(0.) tensor(0.) 0.0 0.0
3.1861541271209717 tensor(0.) tensor(0.) 0.0 0.0
3.381019353866577 tensor(0.) tensor(0.) 0.0 0.0
3.269024610519409 tensor(0.) tensor(0.) 0.0 0.0
3.379704236984253 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.7933:  70%|████████████████████████████████████████████████▍                    | 351/500 [00:06<00:02, 54.09batch/s]

3.3555541038513184 tensor(0.) tensor(0.) 0.0 0.0
3.3050143718719482 tensor(0.) tensor(0.) 0.0 0.0
3.359229326248169 tensor(0.) tensor(0.) 0.0 0.0
3.3492417335510254 tensor(0.) tensor(0.) 0.0 0.0
3.5760996341705322 tensor(0.) tensor(0.) 0.0 0.0
3.3507351875305176 tensor(0.) tensor(0.) 0.0 0.0
3.4104702472686768 tensor(0.) tensor(0.) 0.0 0.0
3.4976871013641357 tensor(0.) tensor(0.) 0.0 0.0
3.637389898300171 tensor(0.) tensor(0.) 0.0 0.0
3.3170828819274902 tensor(0.) tensor(0.) 0.0 0.0
3.527850389480591 tensor(0.) tensor(0.) 0.0 0.0
3.151529550552368 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.7822:  73%|██████████████████████████████████████████████████                   | 363/500 [00:06<00:02, 53.55batch/s]

3.629500389099121 tensor(0.) tensor(0.) 0.0 0.0
3.4853570461273193 tensor(0.) tensor(0.) 0.0 0.0
3.457637071609497 tensor(0.) tensor(0.) 0.0 0.0
3.4619576930999756 tensor(0.) tensor(0.) 0.0 0.0
3.45123291015625 tensor(0.) tensor(0.) 0.0 0.0
3.4750027656555176 tensor(0.) tensor(0.) 0.0 0.0
3.3884942531585693 tensor(0.) tensor(0.) 0.0 0.0
3.2355563640594482 tensor(0.) tensor(0.) 0.0 0.0
3.4159116744995117 tensor(0.) tensor(0.) 0.0 0.0
3.238875389099121 tensor(0.) tensor(0.) 0.0 0.0
3.424638271331787 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.7678:  75%|███████████████████████████████████████████████████▊                 | 375/500 [00:07<00:02, 54.41batch/s]

3.2220048904418945 tensor(0.) tensor(0.) 0.0 0.0
3.2236058712005615 tensor(0.) tensor(0.) 0.0 0.0
3.6043460369110107 tensor(0.) tensor(0.) 0.0 0.0
3.422910451889038 tensor(0.) tensor(0.) 0.0 0.0
3.3979074954986572 tensor(0.) tensor(0.) 0.0 0.0
3.0972423553466797 tensor(0.) tensor(0.) 0.0 0.0
3.3029367923736572 tensor(0.) tensor(0.) 0.0 0.0
3.180116653442383 tensor(0.) tensor(0.) 0.0 0.0
3.1500003337860107 tensor(0.) tensor(0.) 0.0 0.0
3.1993257999420166 tensor(0.) tensor(0.) 0.0 0.0
3.343836784362793 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.7569:  77%|█████████████████████████████████████████████████████▍               | 387/500 [00:07<00:02, 55.78batch/s]

3.3048040866851807 tensor(0.) tensor(0.) 0.0 0.0
3.4865822792053223 tensor(0.) tensor(0.) 0.0 0.0
3.4407880306243896 tensor(0.) tensor(0.) 0.0 0.0
3.5909154415130615 tensor(0.) tensor(0.) 0.0 0.0
3.3402674198150635 tensor(0.) tensor(0.) 0.0 0.0
3.439012050628662 tensor(0.) tensor(0.) 0.0 0.0
3.489610195159912 tensor(0.) tensor(0.) 0.0 0.0
3.159276008605957 tensor(0.) tensor(0.) 0.0 0.0
3.308314323425293 tensor(0.) tensor(0.) 0.0 0.0
3.5787458419799805 tensor(0.) tensor(0.) 0.0 0.0
3.442195177078247 tensor(0.) tensor(0.) 0.0 0.0
3.385502815246582 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.7421:  80%|███████████████████████████████████████████████████████              | 399/500 [00:07<00:01, 55.95batch/s]

3.2972116470336914 tensor(0.) tensor(0.) 0.0 0.0
3.3605833053588867 tensor(0.) tensor(0.) 0.0 0.0
3.334664821624756 tensor(0.) tensor(0.) 0.0 0.0
3.22941517829895 tensor(0.) tensor(0.) 0.0 0.0
3.2466325759887695 tensor(0.) tensor(0.) 0.0 0.0
3.183581829071045 tensor(0.) tensor(0.) 0.0 0.0
3.569638729095459 tensor(0.) tensor(0.) 0.0 0.0
3.493220806121826 tensor(0.) tensor(0.) 0.0 0.0
3.256193161010742 tensor(0.) tensor(0.) 0.0 0.0
3.1995186805725098 tensor(0.) tensor(0.) 0.0 0.0
3.172579288482666 tensor(0.) tensor(0.) 0.0 0.0
2.8086154460906982 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.7300:  82%|████████████████████████████████████████████████████████▋            | 411/500 [00:07<00:01, 53.72batch/s]

3.2821433544158936 tensor(0.) tensor(0.) 0.0 0.0
3.301135540008545 tensor(0.) tensor(0.) 0.0 0.0
3.340886116027832 tensor(0.) tensor(0.) 0.0 0.0
3.1055428981781006 tensor(0.) tensor(0.) 0.0 0.0
3.1728012561798096 tensor(0.) tensor(0.) 0.0 0.0
3.538290023803711 tensor(0.) tensor(0.) 0.0 0.0
3.2780141830444336 tensor(0.) tensor(0.) 0.0 0.0
3.05928111076355 tensor(0.) tensor(0.) 0.0 0.0
3.286435842514038 tensor(0.) tensor(0.) 0.0 0.0
3.514261245727539 tensor(0.) tensor(0.) 0.0 0.0
3.292353868484497 tensor(0.) tensor(0.) 0.0 0.0
3.31427001953125 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.7183:  85%|██████████████████████████████████████████████████████████▎          | 423/500 [00:07<00:01, 54.36batch/s]

3.321704626083374 tensor(0.) tensor(0.) 0.0 0.0
3.331556797027588 tensor(0.) tensor(0.) 0.0 0.0
3.226649284362793 tensor(0.) tensor(0.) 0.0 0.0
3.3626413345336914 tensor(0.) tensor(0.) 0.0 0.0
3.185572624206543 tensor(0.) tensor(0.) 0.0 0.0
3.1697540283203125 tensor(0.) tensor(0.) 0.0 0.0
3.4423890113830566 tensor(0.) tensor(0.) 0.0 0.0
3.323917865753174 tensor(0.) tensor(0.) 0.0 0.0
3.645995855331421 tensor(0.) tensor(0.) 0.0 0.0
3.3294012546539307 tensor(0.) tensor(0.) 0.0 0.0
3.586765766143799 tensor(0.) tensor(0.) 0.0 0.0
3.2359368801116943 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.7058:  87%|████████████████████████████████████████████████████████████         | 435/500 [00:08<00:01, 53.71batch/s]

3.3956406116485596 tensor(0.) tensor(0.) 0.0 0.0
3.3557660579681396 tensor(0.) tensor(0.) 0.0 0.0
3.2934632301330566 tensor(0.) tensor(0.) 0.0 0.0
2.919201374053955 tensor(0.) tensor(0.) 0.0 0.0
3.290814161300659 tensor(0.) tensor(0.) 0.0 0.0
3.321815252304077 tensor(0.) tensor(0.) 0.0 0.0
3.037245988845825 tensor(0.) tensor(0.) 0.0 0.0
3.1714792251586914 tensor(0.) tensor(0.) 0.0 0.0
3.172295331954956 tensor(0.) tensor(0.) 0.0 0.0
3.3626129627227783 tensor(0.) tensor(0.) 0.0 0.0
3.1425979137420654 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.6954:  89%|█████████████████████████████████████████████████████████████▋       | 447/500 [00:08<00:00, 53.32batch/s]

3.280689001083374 tensor(0.) tensor(0.) 0.0 0.0
3.079854965209961 tensor(0.) tensor(0.) 0.0 0.0
3.118229389190674 tensor(0.) tensor(0.) 0.0 0.0
3.565366506576538 tensor(0.) tensor(0.) 0.0 0.0
3.3208038806915283 tensor(0.) tensor(0.) 0.0 0.0
3.4567923545837402 tensor(0.) tensor(0.) 0.0 0.0
3.309070348739624 tensor(0.) tensor(0.) 0.0 0.0
3.2386474609375 tensor(0.) tensor(0.) 0.0 0.0
3.374516248703003 tensor(0.) tensor(0.) 0.0 0.0
3.108264446258545 tensor(0.) tensor(0.) 0.0 0.0
3.2567031383514404 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.6843:  92%|███████████████████████████████████████████████████████████████▎     | 459/500 [00:08<00:00, 53.64batch/s]

3.475057363510132 tensor(0.) tensor(0.) 0.0 0.0
3.3873860836029053 tensor(0.) tensor(0.) 0.0 0.0
3.11405873298645 tensor(0.) tensor(0.) 0.0 0.0
3.145684003829956 tensor(0.) tensor(0.) 0.0 0.0
3.304598808288574 tensor(0.) tensor(0.) 0.0 0.0
3.3500635623931885 tensor(0.) tensor(0.) 0.0 0.0
3.1497180461883545 tensor(0.) tensor(0.) 0.0 0.0
3.246211290359497 tensor(0.) tensor(0.) 0.0 0.0
2.994413137435913 tensor(0.) tensor(0.) 0.0 0.0
3.251345634460449 tensor(0.) tensor(0.) 0.0 0.0
3.480971097946167 tensor(0.) tensor(0.) 0.0 0.0
3.306422710418701 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.6730:  94%|████████████████████████████████████████████████████████████████▉    | 471/500 [00:08<00:00, 54.63batch/s]

3.2247092723846436 tensor(0.) tensor(0.) 0.0 0.0
3.0489487648010254 tensor(0.) tensor(0.) 0.0 0.0
3.2794265747070312 tensor(0.) tensor(0.) 0.0 0.0
3.4317972660064697 tensor(0.) tensor(0.) 0.0 0.0
3.2664382457733154 tensor(0.) tensor(0.) 0.0 0.0
3.378424882888794 tensor(0.) tensor(0.) 0.0 0.0
3.3961598873138428 tensor(0.) tensor(0.) 0.0 0.0
2.959185838699341 tensor(0.) tensor(0.) 0.0 0.0
3.4006447792053223 tensor(0.) tensor(0.) 0.0 0.0
3.385634183883667 tensor(0.) tensor(0.) 0.0 0.0
3.0560953617095947 tensor(0.) tensor(0.) 0.0 0.0
3.065772294998169 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.6608:  97%|██████████████████████████████████████████████████████████████████▋  | 483/500 [00:09<00:00, 54.52batch/s]

3.1726717948913574 tensor(0.) tensor(0.) 0.0 0.0
2.934765577316284 tensor(0.) tensor(0.) 0.0 0.0
3.2875776290893555 tensor(0.) tensor(0.) 0.0 0.0
2.9259448051452637 tensor(0.) tensor(0.) 0.0 0.0
3.349623441696167 tensor(0.) tensor(0.) 0.0 0.0
3.216975450515747 tensor(0.) tensor(0.) 0.0 0.0
3.369309663772583 tensor(0.) tensor(0.) 0.0 0.0
3.032747268676758 tensor(0.) tensor(0.) 0.0 0.0
3.2987608909606934 tensor(0.) tensor(0.) 0.0 0.0
3.2175748348236084 tensor(0.) tensor(0.) 0.0 0.0
3.345139741897583 tensor(0.) tensor(0.) 0.0 0.0
3.0263593196868896 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.6485:  99%|████████████████████████████████████████████████████████████████████▎| 495/500 [00:09<00:00, 55.67batch/s]

3.314316511154175 tensor(0.) tensor(0.) 0.0 0.0
3.1572349071502686 tensor(0.) tensor(0.) 0.0 0.0
3.2362921237945557 tensor(0.) tensor(0.) 0.0 0.0
3.1795763969421387 tensor(0.) tensor(0.) 0.0 0.0
3.095817804336548 tensor(0.) tensor(0.) 0.0 0.0
3.081089496612549 tensor(0.) tensor(0.) 0.0 0.0
3.276766061782837 tensor(0.) tensor(0.) 0.0 0.0
2.819695472717285 tensor(0.) tensor(0.) 0.0 0.0
2.8887481689453125 tensor(0.) tensor(0.) 0.0 0.0
3.0424039363861084 tensor(0.) tensor(0.) 0.0 0.0
3.1600778102874756 tensor(0.) tensor(0.) 0.0 0.0
3.554306745529175 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.6443: 100%|█████████████████████████████████████████████████████████████████████| 500/500 [00:09<00:00, 53.76batch/s]

3.1475260257720947 tensor(0.) tensor(0.) 0.0 0.0
3.2589333057403564 tensor(0.) tensor(0.) 0.0 0.0
3.0530028343200684 tensor(0.) tensor(0.) 0.0 0.0
3.065192461013794 tensor(0.) tensor(0.) 0.0 0.0
Student Training Loss: 3.6443170280456543



Epoch 1 Loss: 3.0090:   0%|                                                                               | 0/500 [00:00<?, ?batch/s]

2.8695297241210938 tensor(0.) tensor(0.) 0.0 0.0
3.1625351905822754 tensor(0.) tensor(0.) 0.0 0.0
2.9544811248779297 tensor(0.) tensor(0.) 0.0 0.0
3.0493688583374023 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0039:   2%|█▍                                                                    | 10/500 [00:00<00:10, 48.12batch/s]

3.047285795211792 tensor(0.) tensor(0.) 0.0 0.0
3.1068015098571777 tensor(0.) tensor(0.) 0.0 0.0
3.0811941623687744 tensor(0.) tensor(0.) 0.0 0.0
2.857180118560791 tensor(0.) tensor(0.) 0.0 0.0
3.1652209758758545 tensor(0.) tensor(0.) 0.0 0.0
2.7974443435668945 tensor(0.) tensor(0.) 0.0 0.0
2.895514488220215 tensor(0.) tensor(0.) 0.0 0.0
3.0604608058929443 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0035:   2%|█▍                                                                    | 10/500 [00:00<00:10, 48.12batch/s]

2.934537410736084 tensor(0.) tensor(0.) 0.0 0.0
3.056955337524414 tensor(0.) tensor(0.) 0.0 0.0
3.013798236846924 tensor(0.) tensor(0.) 0.0 0.0
2.8799877166748047 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9952:   4%|███                                                                   | 22/500 [00:00<00:09, 50.19batch/s]

3.175192356109619 tensor(0.) tensor(0.) 0.0 0.0
2.6546595096588135 tensor(0.) tensor(0.) 0.0 0.0
3.158292531967163 tensor(0.) tensor(0.) 0.0 0.0
3.004368305206299 tensor(0.) tensor(0.) 0.0 0.0
2.7541897296905518 tensor(0.) tensor(0.) 0.0 0.0
3.032238721847534 tensor(0.) tensor(0.) 0.0 0.0
3.1773483753204346 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9948:   4%|███                                                                   | 22/500 [00:00<00:09, 50.19batch/s]

2.936316728591919 tensor(0.) tensor(0.) 0.0 0.0
3.0798380374908447 tensor(0.) tensor(0.) 0.0 0.0
2.9400503635406494 tensor(0.) tensor(0.) 0.0 0.0
3.0134851932525635 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9857:   6%|███▉                                                                  | 28/500 [00:00<00:09, 51.26batch/s]

2.939631700515747 tensor(0.) tensor(0.) 0.0 0.0
2.917640447616577 tensor(0.) tensor(0.) 0.0 0.0
2.7453243732452393 tensor(0.) tensor(0.) 0.0 0.0
2.9507668018341064 tensor(0.) tensor(0.) 0.0 0.0
3.0225613117218018 tensor(0.) tensor(0.) 0.0 0.0
3.0953917503356934 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9799:   7%|████▊                                                                 | 34/500 [00:00<00:09, 50.01batch/s]

2.9654242992401123 tensor(0.) tensor(0.) 0.0 0.0
2.9785399436950684 tensor(0.) tensor(0.) 0.0 0.0
2.8553597927093506 tensor(0.) tensor(0.) 0.0 0.0
2.926900625228882 tensor(0.) tensor(0.) 0.0 0.0
3.1837899684906006 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9917:   8%|█████▌                                                                | 40/500 [00:00<00:08, 51.54batch/s]

3.240215539932251 tensor(0.) tensor(0.) 0.0 0.0
2.8952548503875732 tensor(0.) tensor(0.) 0.0 0.0
2.975123643875122 tensor(0.) tensor(0.) 0.0 0.0
3.093381881713867 tensor(0.) tensor(0.) 0.0 0.0
3.0371365547180176 tensor(0.) tensor(0.) 0.0 0.0
2.907665729522705 tensor(0.) tensor(0.) 0.0 0.0
3.036304235458374 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9937:   9%|██████▍                                                               | 46/500 [00:00<00:08, 52.09batch/s]

2.9021265506744385 tensor(0.) tensor(0.) 0.0 0.0
3.3413515090942383 tensor(0.) tensor(0.) 0.0 0.0
2.7390732765197754 tensor(0.) tensor(0.) 0.0 0.0
3.083235740661621 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9939:  10%|███████▎                                                              | 52/500 [00:01<00:08, 52.63batch/s]

3.261993169784546 tensor(0.) tensor(0.) 0.0 0.0
2.891071081161499 tensor(0.) tensor(0.) 0.0 0.0
3.124547004699707 tensor(0.) tensor(0.) 0.0 0.0
2.840261459350586 tensor(0.) tensor(0.) 0.0 0.0
2.8907785415649414 tensor(0.) tensor(0.) 0.0 0.0
2.828418016433716 tensor(0.) tensor(0.) 0.0 0.0
3.128582239151001 tensor(0.) tensor(0.) 0.0 0.0
2.8699893951416016 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9843:  12%|████████                                                              | 58/500 [00:01<00:08, 52.18batch/s]

2.8588898181915283 tensor(0.) tensor(0.) 0.0 0.0
2.843538522720337 tensor(0.) tensor(0.) 0.0 0.0
2.827174425125122 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9827:  13%|████████▉                                                             | 64/500 [00:01<00:08, 52.45batch/s]

2.592580795288086 tensor(0.) tensor(0.) 0.0 0.0
3.007706642150879 tensor(0.) tensor(0.) 0.0 0.0
3.086498737335205 tensor(0.) tensor(0.) 0.0 0.0
3.07119083404541 tensor(0.) tensor(0.) 0.0 0.0
3.0646724700927734 tensor(0.) tensor(0.) 0.0 0.0
2.802659511566162 tensor(0.) tensor(0.) 0.0 0.0
3.084841012954712 tensor(0.) tensor(0.) 0.0 0.0
2.9157016277313232 tensor(0.) tensor(0.) 0.0 0.0
3.1269423961639404 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9878:  14%|█████████▊                                                            | 70/500 [00:01<00:08, 53.04batch/s]

3.2960095405578613 tensor(0.) tensor(0.) 0.0 0.0
3.0315985679626465 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9930:  15%|██████████▋                                                           | 76/500 [00:01<00:07, 53.36batch/s]

2.999377727508545 tensor(0.) tensor(0.) 0.0 0.0
2.9479265213012695 tensor(0.) tensor(0.) 0.0 0.0
3.2808828353881836 tensor(0.) tensor(0.) 0.0 0.0
3.1981942653656006 tensor(0.) tensor(0.) 0.0 0.0
3.1029393672943115 tensor(0.) tensor(0.) 0.0 0.0
2.851114273071289 tensor(0.) tensor(0.) 0.0 0.0
2.77058482170105 tensor(0.) tensor(0.) 0.0 0.0
3.013692617416382 tensor(0.) tensor(0.) 0.0 0.0
3.141397714614868 tensor(0.) tensor(0.) 0.0 0.0
2.953725814819336 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9909:  16%|███████████▍                                                          | 82/500 [00:01<00:07, 53.41batch/s]

2.8591370582580566 tensor(0.) tensor(0.) 0.0 0.0
3.0233445167541504 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9838:  18%|████████████▎                                                         | 88/500 [00:01<00:07, 53.49batch/s]

2.9753470420837402 tensor(0.) tensor(0.) 0.0 0.0
2.9084765911102295 tensor(0.) tensor(0.) 0.0 0.0
2.6915388107299805 tensor(0.) tensor(0.) 0.0 0.0
2.9061756134033203 tensor(0.) tensor(0.) 0.0 0.0
2.949758291244507 tensor(0.) tensor(0.) 0.0 0.0
2.982340097427368 tensor(0.) tensor(0.) 0.0 0.0
3.1123363971710205 tensor(0.) tensor(0.) 0.0 0.0
2.9749021530151367 tensor(0.) tensor(0.) 0.0 0.0
2.7324821949005127 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9813:  19%|█████████████▏                                                        | 94/500 [00:01<00:07, 53.19batch/s]

2.9514670372009277 tensor(0.) tensor(0.) 0.0 0.0
2.778986930847168 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9826:  20%|█████████████▊                                                       | 100/500 [00:01<00:07, 54.10batch/s]

2.7716989517211914 tensor(0.) tensor(0.) 0.0 0.0
2.6544055938720703 tensor(0.) tensor(0.) 0.0 0.0
2.8041346073150635 tensor(0.) tensor(0.) 0.0 0.0
3.080228328704834 tensor(0.) tensor(0.) 0.0 0.0
3.012834072113037 tensor(0.) tensor(0.) 0.0 0.0
2.908947229385376 tensor(0.) tensor(0.) 0.0 0.0
3.2688186168670654 tensor(0.) tensor(0.) 0.0 0.0
3.4794256687164307 tensor(0.) tensor(0.) 0.0 0.0
2.941814661026001 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9818:  20%|█████████████▊                                                       | 100/500 [00:01<00:07, 54.10batch/s]

2.943122148513794 tensor(0.) tensor(0.) 0.0 0.0
3.067667007446289 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9790:  22%|███████████████▍                                                     | 112/500 [00:02<00:07, 51.84batch/s]

2.791651725769043 tensor(0.) tensor(0.) 0.0 0.0
3.0126147270202637 tensor(0.) tensor(0.) 0.0 0.0
2.9644641876220703 tensor(0.) tensor(0.) 0.0 0.0
2.893792152404785 tensor(0.) tensor(0.) 0.0 0.0
2.640021324157715 tensor(0.) tensor(0.) 0.0 0.0
3.1298885345458984 tensor(0.) tensor(0.) 0.0 0.0
2.960202932357788 tensor(0.) tensor(0.) 0.0 0.0
3.060798406600952 tensor(0.) tensor(0.) 0.0 0.0
2.9568982124328613 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9792:  22%|███████████████▍                                                     | 112/500 [00:02<00:07, 51.84batch/s]

3.1551859378814697 tensor(0.) tensor(0.) 0.0 0.0
2.8506722450256348 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9761:  25%|█████████████████                                                    | 124/500 [00:02<00:07, 52.79batch/s]

2.763916254043579 tensor(0.) tensor(0.) 0.0 0.0
2.9977457523345947 tensor(0.) tensor(0.) 0.0 0.0
2.8999927043914795 tensor(0.) tensor(0.) 0.0 0.0
3.1389594078063965 tensor(0.) tensor(0.) 0.0 0.0
2.9498462677001953 tensor(0.) tensor(0.) 0.0 0.0
3.0772359371185303 tensor(0.) tensor(0.) 0.0 0.0
2.764399766921997 tensor(0.) tensor(0.) 0.0 0.0
2.8534817695617676 tensor(0.) tensor(0.) 0.0 0.0
2.9791574478149414 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9741:  25%|█████████████████                                                    | 124/500 [00:02<00:07, 52.79batch/s]

2.7574617862701416 tensor(0.) tensor(0.) 0.0 0.0
2.9310367107391357 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9675:  26%|█████████████████▉                                                   | 130/500 [00:02<00:07, 50.12batch/s]

2.4612574577331543 tensor(0.) tensor(0.) 0.0 0.0
2.8763506412506104 tensor(0.) tensor(0.) 0.0 0.0
2.9311130046844482 tensor(0.) tensor(0.) 0.0 0.0
3.1465322971343994 tensor(0.) tensor(0.) 0.0 0.0
2.8279974460601807 tensor(0.) tensor(0.) 0.0 0.0
2.875727653503418 tensor(0.) tensor(0.) 0.0 0.0
2.817814588546753 tensor(0.) tensor(0.) 0.0 0.0
2.53965425491333 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9638:  27%|██████████████████▊                                                  | 136/500 [00:02<00:07, 50.02batch/s]

3.1617538928985596 tensor(0.) tensor(0.) 0.0 0.0
2.6967685222625732 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9644:  28%|███████████████████▌                                                 | 142/500 [00:02<00:06, 51.65batch/s]

2.8800857067108154 tensor(0.) tensor(0.) 0.0 0.0
3.0257880687713623 tensor(0.) tensor(0.) 0.0 0.0
2.8489179611206055 tensor(0.) tensor(0.) 0.0 0.0
3.1076388359069824 tensor(0.) tensor(0.) 0.0 0.0
3.190110206604004 tensor(0.) tensor(0.) 0.0 0.0
2.8202579021453857 tensor(0.) tensor(0.) 0.0 0.0
2.8690788745880127 tensor(0.) tensor(0.) 0.0 0.0
2.953226327896118 tensor(0.) tensor(0.) 0.0 0.0
3.068286180496216 tensor(0.) tensor(0.) 0.0 0.0
2.9254183769226074 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9625:  30%|████████████████████▍                                                | 148/500 [00:02<00:06, 52.96batch/s]

2.7155518531799316 tensor(0.) tensor(0.) 0.0 0.0
3.1900932788848877 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9650:  31%|█████████████████████▎                                               | 154/500 [00:03<00:06, 52.64batch/s]

2.7855257987976074 tensor(0.) tensor(0.) 0.0 0.0
3.017352819442749 tensor(0.) tensor(0.) 0.0 0.0
3.2404937744140625 tensor(0.) tensor(0.) 0.0 0.0
3.2310965061187744 tensor(0.) tensor(0.) 0.0 0.0
2.6774590015411377 tensor(0.) tensor(0.) 0.0 0.0
2.647646427154541 tensor(0.) tensor(0.) 0.0 0.0
2.887655735015869 tensor(0.) tensor(0.) 0.0 0.0
3.2065885066986084 tensor(0.) tensor(0.) 0.0 0.0
3.1386606693267822 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9653:  32%|██████████████████████                                               | 160/500 [00:03<00:06, 54.36batch/s]

2.978881597518921 tensor(0.) tensor(0.) 0.0 0.0
3.0027527809143066 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9611:  33%|██████████████████████▉                                              | 166/500 [00:03<00:06, 53.43batch/s]

2.64503812789917 tensor(0.) tensor(0.) 0.0 0.0
2.866023302078247 tensor(0.) tensor(0.) 0.0 0.0
2.965773105621338 tensor(0.) tensor(0.) 0.0 0.0
3.0385942459106445 tensor(0.) tensor(0.) 0.0 0.0
2.83024263381958 tensor(0.) tensor(0.) 0.0 0.0
3.0141761302948 tensor(0.) tensor(0.) 0.0 0.0
2.943406581878662 tensor(0.) tensor(0.) 0.0 0.0
2.831341028213501 tensor(0.) tensor(0.) 0.0 0.0
2.839902877807617 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9602:  33%|██████████████████████▉                                              | 166/500 [00:03<00:06, 53.43batch/s]

3.0060999393463135 tensor(0.) tensor(0.) 0.0 0.0
2.7639718055725098 tensor(0.) tensor(0.) 0.0 0.0
2.937054395675659 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9579:  36%|████████████████████████▌                                            | 178/500 [00:03<00:06, 52.78batch/s]

2.9448604583740234 tensor(0.) tensor(0.) 0.0 0.0
3.078994035720825 tensor(0.) tensor(0.) 0.0 0.0
2.7912065982818604 tensor(0.) tensor(0.) 0.0 0.0
3.0248918533325195 tensor(0.) tensor(0.) 0.0 0.0
2.6579885482788086 tensor(0.) tensor(0.) 0.0 0.0
2.9144091606140137 tensor(0.) tensor(0.) 0.0 0.0
2.8449347019195557 tensor(0.) tensor(0.) 0.0 0.0
3.034188747406006 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9574:  36%|████████████████████████▌                                            | 178/500 [00:03<00:06, 52.78batch/s]

2.8932223320007324 tensor(0.) tensor(0.) 0.0 0.0
2.821537494659424 tensor(0.) tensor(0.) 0.0 0.0
3.0727643966674805 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9487:  38%|██████████████████████████▏                                          | 190/500 [00:03<00:05, 53.21batch/s]

2.7591795921325684 tensor(0.) tensor(0.) 0.0 0.0
2.705376386642456 tensor(0.) tensor(0.) 0.0 0.0
2.825340509414673 tensor(0.) tensor(0.) 0.0 0.0
2.7195186614990234 tensor(0.) tensor(0.) 0.0 0.0
2.738823175430298 tensor(0.) tensor(0.) 0.0 0.0
2.714134454727173 tensor(0.) tensor(0.) 0.0 0.0
2.790292978286743 tensor(0.) tensor(0.) 0.0 0.0
3.2066774368286133 tensor(0.) tensor(0.) 0.0 0.0
2.487779140472412 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9501:  38%|██████████████████████████▏                                          | 190/500 [00:03<00:05, 53.21batch/s]

3.1401925086975098 tensor(0.) tensor(0.) 0.0 0.0
3.0286757946014404 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9460:  40%|███████████████████████████▉                                         | 202/500 [00:03<00:05, 53.51batch/s]

2.933157444000244 tensor(0.) tensor(0.) 0.0 0.0
2.9456417560577393 tensor(0.) tensor(0.) 0.0 0.0
2.960336923599243 tensor(0.) tensor(0.) 0.0 0.0
2.833871841430664 tensor(0.) tensor(0.) 0.0 0.0
2.985025405883789 tensor(0.) tensor(0.) 0.0 0.0
2.741786241531372 tensor(0.) tensor(0.) 0.0 0.0
2.9250125885009766 tensor(0.) tensor(0.) 0.0 0.0
2.491346836090088 tensor(0.) tensor(0.) 0.0 0.0
2.897597312927246 tensor(0.) tensor(0.) 0.0 0.0
2.9043197631835938 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9440:  40%|███████████████████████████▉                                         | 202/500 [00:03<00:05, 53.51batch/s]

2.569514751434326 tensor(0.) tensor(0.) 0.0 0.0
2.7334113121032715 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9382:  43%|█████████████████████████████▌                                       | 214/500 [00:04<00:05, 53.35batch/s]

2.630122423171997 tensor(0.) tensor(0.) 0.0 0.0
2.974302053451538 tensor(0.) tensor(0.) 0.0 0.0
2.9345452785491943 tensor(0.) tensor(0.) 0.0 0.0
2.7482712268829346 tensor(0.) tensor(0.) 0.0 0.0
2.751408338546753 tensor(0.) tensor(0.) 0.0 0.0
2.6179590225219727 tensor(0.) tensor(0.) 0.0 0.0
2.886618137359619 tensor(0.) tensor(0.) 0.0 0.0
3.2143993377685547 tensor(0.) tensor(0.) 0.0 0.0
2.7009897232055664 tensor(0.) tensor(0.) 0.0 0.0
2.7134039402008057 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9362:  43%|█████████████████████████████▌                                       | 214/500 [00:04<00:05, 53.35batch/s]

2.7282683849334717 tensor(0.) tensor(0.) 0.0 0.0
2.6824288368225098 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9305:  45%|███████████████████████████████▏                                     | 226/500 [00:04<00:05, 53.68batch/s]

2.842642307281494 tensor(0.) tensor(0.) 0.0 0.0
2.973818063735962 tensor(0.) tensor(0.) 0.0 0.0
2.4999570846557617 tensor(0.) tensor(0.) 0.0 0.0
2.6906898021698 tensor(0.) tensor(0.) 0.0 0.0
3.070019245147705 tensor(0.) tensor(0.) 0.0 0.0
2.7034342288970947 tensor(0.) tensor(0.) 0.0 0.0
2.8149607181549072 tensor(0.) tensor(0.) 0.0 0.0
3.088536024093628 tensor(0.) tensor(0.) 0.0 0.0
2.7161731719970703 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9301:  45%|███████████████████████████████▏                                     | 226/500 [00:04<00:05, 53.68batch/s]

2.8370261192321777 tensor(0.) tensor(0.) 0.0 0.0
3.134951591491699 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9298:  48%|████████████████████████████████▊                                    | 238/500 [00:04<00:04, 52.75batch/s]

2.6048271656036377 tensor(0.) tensor(0.) 0.0 0.0
2.955953359603882 tensor(0.) tensor(0.) 0.0 0.0
2.960651159286499 tensor(0.) tensor(0.) 0.0 0.0
3.019273042678833 tensor(0.) tensor(0.) 0.0 0.0
2.7965407371520996 tensor(0.) tensor(0.) 0.0 0.0
2.900017738342285 tensor(0.) tensor(0.) 0.0 0.0
3.1053714752197266 tensor(0.) tensor(0.) 0.0 0.0
2.8655290603637695 tensor(0.) tensor(0.) 0.0 0.0
2.8755075931549072 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9308:  48%|████████████████████████████████▊                                    | 238/500 [00:04<00:04, 52.75batch/s]

3.324728012084961 tensor(0.) tensor(0.) 0.0 0.0
2.7828280925750732 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9286:  49%|█████████████████████████████████▋                                   | 244/500 [00:04<00:04, 52.79batch/s]

2.7923476696014404 tensor(0.) tensor(0.) 0.0 0.0
2.787658929824829 tensor(0.) tensor(0.) 0.0 0.0
3.0015487670898438 tensor(0.) tensor(0.) 0.0 0.0
2.8832473754882812 tensor(0.) tensor(0.) 0.0 0.0
2.7097246646881104 tensor(0.) tensor(0.) 0.0 0.0
2.966042995452881 tensor(0.) tensor(0.) 0.0 0.0
2.9592959880828857 tensor(0.) tensor(0.) 0.0 0.0
2.7946245670318604 tensor(0.) tensor(0.) 0.0 0.0
2.6315174102783203 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9272:  50%|██████████████████████████████████▌                                  | 250/500 [00:04<00:04, 50.56batch/s]

2.8736324310302734 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9244:  51%|███████████████████████████████████▎                                 | 256/500 [00:04<00:04, 50.99batch/s]

2.884493112564087 tensor(0.) tensor(0.) 0.0 0.0
2.7784268856048584 tensor(0.) tensor(0.) 0.0 0.0
2.7688703536987305 tensor(0.) tensor(0.) 0.0 0.0
2.864236831665039 tensor(0.) tensor(0.) 0.0 0.0
3.120821952819824 tensor(0.) tensor(0.) 0.0 0.0
2.6985387802124023 tensor(0.) tensor(0.) 0.0 0.0
2.8142457008361816 tensor(0.) tensor(0.) 0.0 0.0
2.9355392456054688 tensor(0.) tensor(0.) 0.0 0.0
2.7508513927459717 tensor(0.) tensor(0.) 0.0 0.0
3.0052523612976074 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9233:  51%|███████████████████████████████████▎                                 | 256/500 [00:05<00:04, 50.99batch/s]

2.5648183822631836 tensor(0.) tensor(0.) 0.0 0.0
2.8454694747924805 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9219:  54%|████████████████████████████████████▉                                | 268/500 [00:05<00:04, 52.15batch/s]

2.7273061275482178 tensor(0.) tensor(0.) 0.0 0.0
3.2539334297180176 tensor(0.) tensor(0.) 0.0 0.0
2.9707746505737305 tensor(0.) tensor(0.) 0.0 0.0
2.558838129043579 tensor(0.) tensor(0.) 0.0 0.0
2.631330966949463 tensor(0.) tensor(0.) 0.0 0.0
2.738567590713501 tensor(0.) tensor(0.) 0.0 0.0
2.9333279132843018 tensor(0.) tensor(0.) 0.0 0.0
3.1325271129608154 tensor(0.) tensor(0.) 0.0 0.0
3.0474002361297607 tensor(0.) tensor(0.) 0.0 0.0
2.937026262283325 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9226:  54%|████████████████████████████████████▉                                | 268/500 [00:05<00:04, 52.15batch/s]

3.102480173110962 tensor(0.) tensor(0.) 0.0 0.0
2.998687505722046 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9186:  56%|██████████████████████████████████████▋                              | 280/500 [00:05<00:04, 52.99batch/s]

3.157543659210205 tensor(0.) tensor(0.) 0.0 0.0
2.5749969482421875 tensor(0.) tensor(0.) 0.0 0.0
2.6529674530029297 tensor(0.) tensor(0.) 0.0 0.0
2.5493693351745605 tensor(0.) tensor(0.) 0.0 0.0
2.6704282760620117 tensor(0.) tensor(0.) 0.0 0.0
2.831113576889038 tensor(0.) tensor(0.) 0.0 0.0
3.010377883911133 tensor(0.) tensor(0.) 0.0 0.0
2.662705659866333 tensor(0.) tensor(0.) 0.0 0.0
2.9993362426757812 tensor(0.) tensor(0.) 0.0 0.0
2.9122910499572754 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9180:  56%|██████████████████████████████████████▋                              | 280/500 [00:05<00:04, 52.99batch/s]

2.7479031085968018 tensor(0.) tensor(0.) 0.0 0.0
2.9484918117523193 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9178:  58%|████████████████████████████████████████▎                            | 292/500 [00:05<00:03, 53.22batch/s]

2.883293867111206 tensor(0.) tensor(0.) 0.0 0.0
2.781261682510376 tensor(0.) tensor(0.) 0.0 0.0
3.0729033946990967 tensor(0.) tensor(0.) 0.0 0.0
3.0750985145568848 tensor(0.) tensor(0.) 0.0 0.0
3.0012035369873047 tensor(0.) tensor(0.) 0.0 0.0
2.7925097942352295 tensor(0.) tensor(0.) 0.0 0.0
2.689023494720459 tensor(0.) tensor(0.) 0.0 0.0
2.9998199939727783 tensor(0.) tensor(0.) 0.0 0.0
2.8707730770111084 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9164:  58%|████████████████████████████████████████▎                            | 292/500 [00:05<00:03, 53.22batch/s]

2.53829288482666 tensor(0.) tensor(0.) 0.0 0.0
2.8919942378997803 tensor(0.) tensor(0.) 0.0 0.0
2.6856441497802734 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9151:  61%|█████████████████████████████████████████▉                           | 304/500 [00:05<00:03, 52.82batch/s]

3.1050667762756348 tensor(0.) tensor(0.) 0.0 0.0
2.799745798110962 tensor(0.) tensor(0.) 0.0 0.0
2.8635547161102295 tensor(0.) tensor(0.) 0.0 0.0
2.75344181060791 tensor(0.) tensor(0.) 0.0 0.0
2.8504276275634766 tensor(0.) tensor(0.) 0.0 0.0
3.1535110473632812 tensor(0.) tensor(0.) 0.0 0.0
3.0068447589874268 tensor(0.) tensor(0.) 0.0 0.0
2.623706340789795 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9155:  61%|█████████████████████████████████████████▉                           | 304/500 [00:05<00:03, 52.82batch/s]

3.0540895462036133 tensor(0.) tensor(0.) 0.0 0.0
3.097771644592285 tensor(0.) tensor(0.) 0.0 0.0
2.7341561317443848 tensor(0.) tensor(0.) 0.0 0.0
2.800445795059204 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9112:  63%|███████████████████████████████████████████▌                         | 316/500 [00:06<00:03, 53.00batch/s]

2.7606453895568848 tensor(0.) tensor(0.) 0.0 0.0
2.883388042449951 tensor(0.) tensor(0.) 0.0 0.0
2.506741523742676 tensor(0.) tensor(0.) 0.0 0.0
2.5894269943237305 tensor(0.) tensor(0.) 0.0 0.0
2.739844560623169 tensor(0.) tensor(0.) 0.0 0.0
2.7553834915161133 tensor(0.) tensor(0.) 0.0 0.0
2.9496026039123535 tensor(0.) tensor(0.) 0.0 0.0
2.882028102874756 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9104:  63%|███████████████████████████████████████████▌                         | 316/500 [00:06<00:03, 53.00batch/s]

3.153599500656128 tensor(0.) tensor(0.) 0.0 0.0
2.5761046409606934 tensor(0.) tensor(0.) 0.0 0.0
2.843311071395874 tensor(0.) tensor(0.) 0.0 0.0
2.812777042388916 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9093:  66%|█████████████████████████████████████████████▎                       | 328/500 [00:06<00:03, 53.53batch/s]

2.638737678527832 tensor(0.) tensor(0.) 0.0 0.0
2.8921871185302734 tensor(0.) tensor(0.) 0.0 0.0
2.9422802925109863 tensor(0.) tensor(0.) 0.0 0.0
2.9799675941467285 tensor(0.) tensor(0.) 0.0 0.0
2.6876723766326904 tensor(0.) tensor(0.) 0.0 0.0
2.7370357513427734 tensor(0.) tensor(0.) 0.0 0.0
3.128765821456909 tensor(0.) tensor(0.) 0.0 0.0
2.7701854705810547 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9093:  66%|█████████████████████████████████████████████▎                       | 328/500 [00:06<00:03, 53.53batch/s]

3.1077218055725098 tensor(0.) tensor(0.) 0.0 0.0
2.9070377349853516 tensor(0.) tensor(0.) 0.0 0.0
2.8399908542633057 tensor(0.) tensor(0.) 0.0 0.0
2.754502534866333 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9062:  68%|██████████████████████████████████████████████▉                      | 340/500 [00:06<00:02, 53.81batch/s]

2.7322778701782227 tensor(0.) tensor(0.) 0.0 0.0
2.750575065612793 tensor(0.) tensor(0.) 0.0 0.0
2.8167641162872314 tensor(0.) tensor(0.) 0.0 0.0
3.217038631439209 tensor(0.) tensor(0.) 0.0 0.0
2.8749403953552246 tensor(0.) tensor(0.) 0.0 0.0
2.708874225616455 tensor(0.) tensor(0.) 0.0 0.0
2.755783796310425 tensor(0.) tensor(0.) 0.0 0.0
2.515685558319092 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9068:  68%|██████████████████████████████████████████████▉                      | 340/500 [00:06<00:02, 53.81batch/s]

2.6606104373931885 tensor(0.) tensor(0.) 0.0 0.0
3.0548431873321533 tensor(0.) tensor(0.) 0.0 0.0
3.227144718170166 tensor(0.) tensor(0.) 0.0 0.0
2.5380301475524902 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9044:  70%|████████████████████████████████████████████████▌                    | 352/500 [00:06<00:02, 53.40batch/s]

2.693326473236084 tensor(0.) tensor(0.) 0.0 0.0
2.744229793548584 tensor(0.) tensor(0.) 0.0 0.0
2.7540173530578613 tensor(0.) tensor(0.) 0.0 0.0
3.065275192260742 tensor(0.) tensor(0.) 0.0 0.0
2.925325393676758 tensor(0.) tensor(0.) 0.0 0.0
2.961480140686035 tensor(0.) tensor(0.) 0.0 0.0
2.7375550270080566 tensor(0.) tensor(0.) 0.0 0.0
3.007345676422119 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9037:  70%|████████████████████████████████████████████████▌                    | 352/500 [00:06<00:02, 53.40batch/s]

2.8965988159179688 tensor(0.) tensor(0.) 0.0 0.0
2.7978034019470215 tensor(0.) tensor(0.) 0.0 0.0
2.655881404876709 tensor(0.) tensor(0.) 0.0 0.0
2.9115631580352783 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9005:  73%|██████████████████████████████████████████████████▏                  | 364/500 [00:06<00:02, 53.44batch/s]

2.8448896408081055 tensor(0.) tensor(0.) 0.0 0.0
2.811070442199707 tensor(0.) tensor(0.) 0.0 0.0
2.509230136871338 tensor(0.) tensor(0.) 0.0 0.0
2.7916736602783203 tensor(0.) tensor(0.) 0.0 0.0
2.844400405883789 tensor(0.) tensor(0.) 0.0 0.0
2.6385912895202637 tensor(0.) tensor(0.) 0.0 0.0
2.707287311553955 tensor(0.) tensor(0.) 0.0 0.0
2.7006680965423584 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8995:  73%|██████████████████████████████████████████████████▏                  | 364/500 [00:07<00:02, 53.44batch/s]

2.903590440750122 tensor(0.) tensor(0.) 0.0 0.0
2.8100063800811768 tensor(0.) tensor(0.) 0.0 0.0
2.8213140964508057 tensor(0.) tensor(0.) 0.0 0.0
3.1468000411987305 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8991:  75%|███████████████████████████████████████████████████▉                 | 376/500 [00:07<00:02, 53.88batch/s]

2.5977437496185303 tensor(0.) tensor(0.) 0.0 0.0
2.909562349319458 tensor(0.) tensor(0.) 0.0 0.0
2.6285269260406494 tensor(0.) tensor(0.) 0.0 0.0
2.713625431060791 tensor(0.) tensor(0.) 0.0 0.0
3.2039153575897217 tensor(0.) tensor(0.) 0.0 0.0
2.885251998901367 tensor(0.) tensor(0.) 0.0 0.0
2.970878839492798 tensor(0.) tensor(0.) 0.0 0.0
2.9108524322509766 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8984:  75%|███████████████████████████████████████████████████▉                 | 376/500 [00:07<00:02, 53.88batch/s]

2.594935417175293 tensor(0.) tensor(0.) 0.0 0.0
2.9935598373413086 tensor(0.) tensor(0.) 0.0 0.0
2.8184618949890137 tensor(0.) tensor(0.) 0.0 0.0
2.6979668140411377 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8951:  78%|█████████████████████████████████████████████████████▌               | 388/500 [00:07<00:02, 54.15batch/s]

2.708033561706543 tensor(0.) tensor(0.) 0.0 0.0
2.6822524070739746 tensor(0.) tensor(0.) 0.0 0.0
2.642321825027466 tensor(0.) tensor(0.) 0.0 0.0
2.777144432067871 tensor(0.) tensor(0.) 0.0 0.0
2.765479803085327 tensor(0.) tensor(0.) 0.0 0.0
2.8379452228546143 tensor(0.) tensor(0.) 0.0 0.0
2.7730188369750977 tensor(0.) tensor(0.) 0.0 0.0
2.8930423259735107 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8941:  78%|█████████████████████████████████████████████████████▌               | 388/500 [00:07<00:02, 54.15batch/s]

2.6831674575805664 tensor(0.) tensor(0.) 0.0 0.0
2.9455127716064453 tensor(0.) tensor(0.) 0.0 0.0
2.697286605834961 tensor(0.) tensor(0.) 0.0 0.0
2.757131338119507 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8928:  80%|███████████████████████████████████████████████████████▏             | 400/500 [00:07<00:01, 53.41batch/s]

2.937730073928833 tensor(0.) tensor(0.) 0.0 0.0
2.8486826419830322 tensor(0.) tensor(0.) 0.0 0.0
2.987539052963257 tensor(0.) tensor(0.) 0.0 0.0
2.5352890491485596 tensor(0.) tensor(0.) 0.0 0.0
2.627512216567993 tensor(0.) tensor(0.) 0.0 0.0
2.8995296955108643 tensor(0.) tensor(0.) 0.0 0.0
3.0247795581817627 tensor(0.) tensor(0.) 0.0 0.0
2.613492488861084 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8905:  80%|███████████████████████████████████████████████████████▏             | 400/500 [00:07<00:01, 53.41batch/s]

2.609438180923462 tensor(0.) tensor(0.) 0.0 0.0
2.876230478286743 tensor(0.) tensor(0.) 0.0 0.0
2.5510594844818115 tensor(0.) tensor(0.) 0.0 0.0
2.7281007766723633 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8865:  82%|████████████████████████████████████████████████████████▊            | 412/500 [00:07<00:01, 52.90batch/s]

2.3167543411254883 tensor(0.) tensor(0.) 0.0 0.0
2.740929365158081 tensor(0.) tensor(0.) 0.0 0.0
2.6342296600341797 tensor(0.) tensor(0.) 0.0 0.0
2.7216522693634033 tensor(0.) tensor(0.) 0.0 0.0
3.0067596435546875 tensor(0.) tensor(0.) 0.0 0.0
2.6234512329101562 tensor(0.) tensor(0.) 0.0 0.0
2.6933677196502686 tensor(0.) tensor(0.) 0.0 0.0
2.5394234657287598 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8855:  82%|████████████████████████████████████████████████████████▊            | 412/500 [00:07<00:01, 52.90batch/s]

2.8773956298828125 tensor(0.) tensor(0.) 0.0 0.0
3.089898109436035 tensor(0.) tensor(0.) 0.0 0.0
2.604325294494629 tensor(0.) tensor(0.) 0.0 0.0
2.611755132675171 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8829:  85%|██████████████████████████████████████████████████████████▌          | 424/500 [00:08<00:01, 53.86batch/s]

2.6555228233337402 tensor(0.) tensor(0.) 0.0 0.0
3.1111438274383545 tensor(0.) tensor(0.) 0.0 0.0
2.72456693649292 tensor(0.) tensor(0.) 0.0 0.0
2.6628329753875732 tensor(0.) tensor(0.) 0.0 0.0
2.7261428833007812 tensor(0.) tensor(0.) 0.0 0.0
2.7760088443756104 tensor(0.) tensor(0.) 0.0 0.0
2.726019859313965 tensor(0.) tensor(0.) 0.0 0.0
2.45969557762146 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8809:  85%|██████████████████████████████████████████████████████████▌          | 424/500 [00:08<00:01, 53.86batch/s]

2.798335075378418 tensor(0.) tensor(0.) 0.0 0.0
2.6306259632110596 tensor(0.) tensor(0.) 0.0 0.0
2.7679576873779297 tensor(0.) tensor(0.) 0.0 0.0
2.8526699542999268 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8791:  87%|████████████████████████████████████████████████████████████▏        | 436/500 [00:08<00:01, 53.67batch/s]

2.9977407455444336 tensor(0.) tensor(0.) 0.0 0.0
2.5343353748321533 tensor(0.) tensor(0.) 0.0 0.0
2.8387906551361084 tensor(0.) tensor(0.) 0.0 0.0
2.6354923248291016 tensor(0.) tensor(0.) 0.0 0.0
2.641965389251709 tensor(0.) tensor(0.) 0.0 0.0
2.913222074508667 tensor(0.) tensor(0.) 0.0 0.0
2.850186824798584 tensor(0.) tensor(0.) 0.0 0.0
2.942779541015625 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8783:  87%|████████████████████████████████████████████████████████████▏        | 436/500 [00:08<00:01, 53.67batch/s]

2.701688289642334 tensor(0.) tensor(0.) 0.0 0.0
2.737856388092041 tensor(0.) tensor(0.) 0.0 0.0
2.7817325592041016 tensor(0.) tensor(0.) 0.0 0.0
2.72471284866333 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8777:  90%|█████████████████████████████████████████████████████████████▊       | 448/500 [00:08<00:00, 53.73batch/s]

3.1029398441314697 tensor(0.) tensor(0.) 0.0 0.0
2.765592336654663 tensor(0.) tensor(0.) 0.0 0.0
2.8285927772521973 tensor(0.) tensor(0.) 0.0 0.0
2.7400991916656494 tensor(0.) tensor(0.) 0.0 0.0
2.8310940265655518 tensor(0.) tensor(0.) 0.0 0.0
3.0622973442077637 tensor(0.) tensor(0.) 0.0 0.0
2.6980063915252686 tensor(0.) tensor(0.) 0.0 0.0
2.9045212268829346 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8772:  90%|█████████████████████████████████████████████████████████████▊       | 448/500 [00:08<00:00, 53.73batch/s]

2.931689500808716 tensor(0.) tensor(0.) 0.0 0.0
2.6174814701080322 tensor(0.) tensor(0.) 0.0 0.0
2.8398666381835938 tensor(0.) tensor(0.) 0.0 0.0
2.773247003555298 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8764:  92%|███████████████████████████████████████████████████████████████▍     | 460/500 [00:08<00:00, 52.97batch/s]

2.6563713550567627 tensor(0.) tensor(0.) 0.0 0.0
2.96649169921875 tensor(0.) tensor(0.) 0.0 0.0
2.9286556243896484 tensor(0.) tensor(0.) 0.0 0.0
3.185145854949951 tensor(0.) tensor(0.) 0.0 0.0
2.509781837463379 tensor(0.) tensor(0.) 0.0 0.0
2.645969867706299 tensor(0.) tensor(0.) 0.0 0.0
2.9819283485412598 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8758:  92%|███████████████████████████████████████████████████████████████▍     | 460/500 [00:08<00:00, 52.97batch/s]

2.9230153560638428 tensor(0.) tensor(0.) 0.0 0.0
2.7619805335998535 tensor(0.) tensor(0.) 0.0 0.0
2.686112403869629 tensor(0.) tensor(0.) 0.0 0.0
2.839421272277832 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8754:  93%|████████████████████████████████████████████████████████████████▎    | 466/500 [00:08<00:00, 52.24batch/s]

2.632460117340088 tensor(0.) tensor(0.) 0.0 0.0
2.8236730098724365 tensor(0.) tensor(0.) 0.0 0.0
2.8672471046447754 tensor(0.) tensor(0.) 0.0 0.0
2.816549301147461 tensor(0.) tensor(0.) 0.0 0.0
3.1472256183624268 tensor(0.) tensor(0.) 0.0 0.0
2.795767307281494 tensor(0.) tensor(0.) 0.0 0.0
2.614163398742676 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8732:  94%|█████████████████████████████████████████████████████████████████▏   | 472/500 [00:09<00:00, 52.02batch/s]

2.726858615875244 tensor(0.) tensor(0.) 0.0 0.0
2.692808151245117 tensor(0.) tensor(0.) 0.0 0.0
2.6526198387145996 tensor(0.) tensor(0.) 0.0 0.0
2.631044626235962 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8723:  96%|█████████████████████████████████████████████████████████████████▉   | 478/500 [00:09<00:00, 52.54batch/s]

3.175675868988037 tensor(0.) tensor(0.) 0.0 0.0
2.944230318069458 tensor(0.) tensor(0.) 0.0 0.0
2.694835901260376 tensor(0.) tensor(0.) 0.0 0.0
2.52781081199646 tensor(0.) tensor(0.) 0.0 0.0
2.3893446922302246 tensor(0.) tensor(0.) 0.0 0.0
2.771486759185791 tensor(0.) tensor(0.) 0.0 0.0
3.186274528503418 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8715:  97%|██████████████████████████████████████████████████████████████████▊  | 484/500 [00:09<00:00, 51.86batch/s]

3.0385048389434814 tensor(0.) tensor(0.) 0.0 0.0
2.671813726425171 tensor(0.) tensor(0.) 0.0 0.0
2.539283514022827 tensor(0.) tensor(0.) 0.0 0.0
2.500591516494751 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8670:  98%|███████████████████████████████████████████████████████████████████▌ | 490/500 [00:09<00:00, 52.55batch/s]

2.4485955238342285 tensor(0.) tensor(0.) 0.0 0.0
2.9010586738586426 tensor(0.) tensor(0.) 0.0 0.0
2.470578908920288 tensor(0.) tensor(0.) 0.0 0.0
2.469322443008423 tensor(0.) tensor(0.) 0.0 0.0
2.78269100189209 tensor(0.) tensor(0.) 0.0 0.0
2.6206183433532715 tensor(0.) tensor(0.) 0.0 0.0
2.5419859886169434 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8647:  99%|████████████████████████████████████████████████████████████████████▍| 496/500 [00:09<00:00, 53.05batch/s]

2.7709712982177734 tensor(0.) tensor(0.) 0.0 0.0
2.709327459335327 tensor(0.) tensor(0.) 0.0 0.0
2.6529102325439453 tensor(0.) tensor(0.) 0.0 0.0
2.1610753536224365 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8643: 100%|█████████████████████████████████████████████████████████████████████| 500/500 [00:09<00:00, 52.65batch/s]

2.7849719524383545 tensor(0.) tensor(0.) 0.0 0.0
2.7452406883239746 tensor(0.) tensor(0.) 0.0 0.0
Teacher Training Loss: 2.864255850791931



Epoch 1 Loss: 3.1995:   0%|                                                                               | 0/500 [00:00<?, ?batch/s]

3.1995155811309814 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.2083:   1%|▍                                                                      | 3/500 [00:00<00:16, 29.69batch/s]

3.313020944595337 tensor(0.) tensor(0.) 0.0 0.0
3.1564395427703857 tensor(0.) tensor(0.) 0.0 0.0
3.464120864868164 tensor(0.) tensor(0.) 0.0 0.0
2.9082589149475098 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0827:   2%|█▍                                                                    | 10/500 [00:00<00:10, 46.24batch/s]

2.991572856903076 tensor(0.) tensor(0.) 0.0 0.0
2.9473981857299805 tensor(0.) tensor(0.) 0.0 0.0
3.278106927871704 tensor(0.) tensor(0.) 0.0 0.0
2.913236618041992 tensor(0.) tensor(0.) 0.0 0.0
2.7323434352874756 tensor(0.) tensor(0.) 0.0 0.0
3.005927085876465 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0597:   2%|█▍                                                                    | 10/500 [00:00<00:10, 46.24batch/s]

3.092587947845459 tensor(0.) tensor(0.) 0.0 0.0
2.774090051651001 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0681:   3%|██▏                                                                   | 16/500 [00:00<00:09, 49.29batch/s]

3.1239941120147705 tensor(0.) tensor(0.) 0.0 0.0
3.190885543823242 tensor(0.) tensor(0.) 0.0 0.0
2.9985110759735107 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0678:   4%|███                                                                   | 22/500 [00:00<00:09, 51.13batch/s]

3.109198570251465 tensor(0.) tensor(0.) 0.0 0.0
2.9270172119140625 tensor(0.) tensor(0.) 0.0 0.0
3.040048122406006 tensor(0.) tensor(0.) 0.0 0.0
2.886324405670166 tensor(0.) tensor(0.) 0.0 0.0
3.0748326778411865 tensor(0.) tensor(0.) 0.0 0.0
3.363851308822632 tensor(0.) tensor(0.) 0.0 0.0
2.8792550563812256 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0675:   4%|███                                                                   | 22/500 [00:00<00:09, 51.13batch/s]

3.2496566772460938 tensor(0.) tensor(0.) 0.0 0.0
2.7765297889709473 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0636:   4%|███                                                                   | 22/500 [00:00<00:09, 51.13batch/s]

3.331278085708618 tensor(0.) tensor(0.) 0.0 0.0
2.9894232749938965 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0518:   7%|████▊                                                                 | 34/500 [00:00<00:08, 51.91batch/s]

3.1383743286132812 tensor(0.) tensor(0.) 0.0 0.0
3.0668551921844482 tensor(0.) tensor(0.) 0.0 0.0
2.7838306427001953 tensor(0.) tensor(0.) 0.0 0.0
2.9498326778411865 tensor(0.) tensor(0.) 0.0 0.0
2.9731392860412598 tensor(0.) tensor(0.) 0.0 0.0
2.970658779144287 tensor(0.) tensor(0.) 0.0 0.0
3.162681818008423 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0626:   7%|████▊                                                                 | 34/500 [00:00<00:08, 51.91batch/s]

3.286954402923584 tensor(0.) tensor(0.) 0.0 0.0
3.205031394958496 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0663:   7%|████▊                                                                 | 34/500 [00:00<00:08, 51.91batch/s]

3.0857889652252197 tensor(0.) tensor(0.) 0.0 0.0
3.1775403022766113 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0763:   8%|█████▌                                                                | 40/500 [00:00<00:08, 52.26batch/s]

3.1076767444610596 tensor(0.) tensor(0.) 0.0 0.0
3.045964002609253 tensor(0.) tensor(0.) 0.0 0.0
3.0420305728912354 tensor(0.) tensor(0.) 0.0 0.0
3.254868507385254 tensor(0.) tensor(0.) 0.0 0.0
3.1294422149658203 tensor(0.) tensor(0.) 0.0 0.0
3.356550931930542 tensor(0.) tensor(0.) 0.0 0.0
2.9811041355133057 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0809:   9%|██████▍                                                               | 46/500 [00:00<00:08, 52.83batch/s]

3.237715244293213 tensor(0.) tensor(0.) 0.0 0.0
3.1306447982788086 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0780:   9%|██████▍                                                               | 46/500 [00:00<00:08, 52.83batch/s]

2.802325487136841 tensor(0.) tensor(0.) 0.0 0.0
3.217188835144043 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0621:  10%|███████▎                                                              | 52/500 [00:01<00:08, 54.16batch/s]

3.1023623943328857 tensor(0.) tensor(0.) 0.0 0.0
3.1444668769836426 tensor(0.) tensor(0.) 0.0 0.0
2.9642269611358643 tensor(0.) tensor(0.) 0.0 0.0
2.8784608840942383 tensor(0.) tensor(0.) 0.0 0.0
2.9222872257232666 tensor(0.) tensor(0.) 0.0 0.0
2.899055242538452 tensor(0.) tensor(0.) 0.0 0.0
2.745589256286621 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0642:  12%|████████                                                              | 58/500 [00:01<00:08, 52.89batch/s]

3.245973825454712 tensor(0.) tensor(0.) 0.0 0.0
2.9984021186828613 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0675:  12%|████████                                                              | 58/500 [00:01<00:08, 52.89batch/s]

3.2207062244415283 tensor(0.) tensor(0.) 0.0 0.0
3.1022369861602783 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0589:  13%|████████▉                                                             | 64/500 [00:01<00:08, 53.25batch/s]

3.1567318439483643 tensor(0.) tensor(0.) 0.0 0.0
3.0387728214263916 tensor(0.) tensor(0.) 0.0 0.0
2.835294246673584 tensor(0.) tensor(0.) 0.0 0.0
2.996502161026001 tensor(0.) tensor(0.) 0.0 0.0
3.0937881469726562 tensor(0.) tensor(0.) 0.0 0.0
3.0191919803619385 tensor(0.) tensor(0.) 0.0 0.0
2.759871006011963 tensor(0.) tensor(0.) 0.0 0.0
3.150387763977051 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0603:  13%|████████▉                                                             | 64/500 [00:01<00:08, 53.25batch/s]

3.224379062652588 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0610:  14%|█████████▊                                                            | 70/500 [00:01<00:08, 53.14batch/s]

3.033444881439209 tensor(0.) tensor(0.) 0.0 0.0
2.972755193710327 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0542:  15%|██████████▋                                                           | 76/500 [00:01<00:07, 53.85batch/s]

3.017752170562744 tensor(0.) tensor(0.) 0.0 0.0
3.024446725845337 tensor(0.) tensor(0.) 0.0 0.0
3.1006462574005127 tensor(0.) tensor(0.) 0.0 0.0
3.412585973739624 tensor(0.) tensor(0.) 0.0 0.0
2.821190118789673 tensor(0.) tensor(0.) 0.0 0.0
2.9828145503997803 tensor(0.) tensor(0.) 0.0 0.0
2.8023929595947266 tensor(0.) tensor(0.) 0.0 0.0
3.078247308731079 tensor(0.) tensor(0.) 0.0 0.0
2.7677011489868164 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0535:  16%|███████████▍                                                          | 82/500 [00:01<00:07, 54.43batch/s]

3.1807236671447754 tensor(0.) tensor(0.) 0.0 0.0
2.8739187717437744 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0498:  18%|████████████▎                                                         | 88/500 [00:01<00:07, 54.75batch/s]

2.9681591987609863 tensor(0.) tensor(0.) 0.0 0.0
2.8226120471954346 tensor(0.) tensor(0.) 0.0 0.0
3.108886957168579 tensor(0.) tensor(0.) 0.0 0.0
2.99139404296875 tensor(0.) tensor(0.) 0.0 0.0
3.311669111251831 tensor(0.) tensor(0.) 0.0 0.0
2.7116198539733887 tensor(0.) tensor(0.) 0.0 0.0
2.9233858585357666 tensor(0.) tensor(0.) 0.0 0.0
3.2579658031463623 tensor(0.) tensor(0.) 0.0 0.0
3.011737585067749 tensor(0.) tensor(0.) 0.0 0.0
3.0799379348754883 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0545:  19%|█████████████▏                                                        | 94/500 [00:01<00:07, 55.66batch/s]

3.3349437713623047 tensor(0.) tensor(0.) 0.0 0.0
3.2090561389923096 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0456:  20%|█████████████▊                                                       | 100/500 [00:01<00:07, 55.03batch/s]

3.083104133605957 tensor(0.) tensor(0.) 0.0 0.0
2.916858196258545 tensor(0.) tensor(0.) 0.0 0.0
3.0325558185577393 tensor(0.) tensor(0.) 0.0 0.0
2.873026132583618 tensor(0.) tensor(0.) 0.0 0.0
3.102968454360962 tensor(0.) tensor(0.) 0.0 0.0
2.9141318798065186 tensor(0.) tensor(0.) 0.0 0.0
2.694288730621338 tensor(0.) tensor(0.) 0.0 0.0
2.933079481124878 tensor(0.) tensor(0.) 0.0 0.0
3.029465436935425 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0483:  20%|█████████████▊                                                       | 100/500 [00:02<00:07, 55.03batch/s]

3.0700864791870117 tensor(0.) tensor(0.) 0.0 0.0
3.301520586013794 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0430:  22%|███████████████▍                                                     | 112/500 [00:02<00:07, 52.77batch/s]

2.9163732528686523 tensor(0.) tensor(0.) 0.0 0.0
2.774195909500122 tensor(0.) tensor(0.) 0.0 0.0
3.0680010318756104 tensor(0.) tensor(0.) 0.0 0.0
3.07071590423584 tensor(0.) tensor(0.) 0.0 0.0
2.9427297115325928 tensor(0.) tensor(0.) 0.0 0.0
3.093441963195801 tensor(0.) tensor(0.) 0.0 0.0
2.886570930480957 tensor(0.) tensor(0.) 0.0 0.0
3.0432746410369873 tensor(0.) tensor(0.) 0.0 0.0
3.0325229167938232 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0440:  22%|███████████████▍                                                     | 112/500 [00:02<00:07, 52.77batch/s]

3.15598726272583 tensor(0.) tensor(0.) 0.0 0.0
3.003605604171753 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0338:  25%|█████████████████                                                    | 124/500 [00:02<00:07, 52.71batch/s]

3.096891403198242 tensor(0.) tensor(0.) 0.0 0.0
3.0319082736968994 tensor(0.) tensor(0.) 0.0 0.0
2.7910614013671875 tensor(0.) tensor(0.) 0.0 0.0
2.810210943222046 tensor(0.) tensor(0.) 0.0 0.0
3.0718119144439697 tensor(0.) tensor(0.) 0.0 0.0
2.6863415241241455 tensor(0.) tensor(0.) 0.0 0.0
3.0116870403289795 tensor(0.) tensor(0.) 0.0 0.0
2.8673336505889893 tensor(0.) tensor(0.) 0.0 0.0
3.0157582759857178 tensor(0.) tensor(0.) 0.0 0.0
2.817774772644043 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0318:  25%|█████████████████                                                    | 124/500 [00:02<00:07, 52.71batch/s]

2.929274559020996 tensor(0.) tensor(0.) 0.0 0.0
2.8800530433654785 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0351:  27%|██████████████████▊                                                  | 136/500 [00:02<00:06, 53.88batch/s]

3.099034070968628 tensor(0.) tensor(0.) 0.0 0.0
3.340287446975708 tensor(0.) tensor(0.) 0.0 0.0
3.3341150283813477 tensor(0.) tensor(0.) 0.0 0.0
3.1911163330078125 tensor(0.) tensor(0.) 0.0 0.0
2.914445400238037 tensor(0.) tensor(0.) 0.0 0.0
2.7102417945861816 tensor(0.) tensor(0.) 0.0 0.0
3.176840305328369 tensor(0.) tensor(0.) 0.0 0.0
2.9166955947875977 tensor(0.) tensor(0.) 0.0 0.0
3.0303876399993896 tensor(0.) tensor(0.) 0.0 0.0
3.058845281600952 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0344:  27%|██████████████████▊                                                  | 136/500 [00:02<00:06, 53.88batch/s]

3.0713272094726562 tensor(0.) tensor(0.) 0.0 0.0
2.9083549976348877 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0322:  30%|████████████████████▌                                                | 149/500 [00:02<00:06, 55.00batch/s]

3.147031307220459 tensor(0.) tensor(0.) 0.0 0.0
3.119217872619629 tensor(0.) tensor(0.) 0.0 0.0
2.652228593826294 tensor(0.) tensor(0.) 0.0 0.0
2.7748665809631348 tensor(0.) tensor(0.) 0.0 0.0
3.025644540786743 tensor(0.) tensor(0.) 0.0 0.0
3.0492708683013916 tensor(0.) tensor(0.) 0.0 0.0
2.8918333053588867 tensor(0.) tensor(0.) 0.0 0.0
3.3870530128479004 tensor(0.) tensor(0.) 0.0 0.0
2.678464412689209 tensor(0.) tensor(0.) 0.0 0.0
3.2792463302612305 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0338:  30%|████████████████████▌                                                | 149/500 [00:02<00:06, 55.00batch/s]

3.195868492126465 tensor(0.) tensor(0.) 0.0 0.0
3.1073598861694336 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0336:  32%|██████████████████████▏                                              | 161/500 [00:03<00:06, 54.29batch/s]

2.739434003829956 tensor(0.) tensor(0.) 0.0 0.0
2.991955041885376 tensor(0.) tensor(0.) 0.0 0.0
3.170625686645508 tensor(0.) tensor(0.) 0.0 0.0
2.910013437271118 tensor(0.) tensor(0.) 0.0 0.0
3.539055109024048 tensor(0.) tensor(0.) 0.0 0.0
3.0027480125427246 tensor(0.) tensor(0.) 0.0 0.0
2.851288080215454 tensor(0.) tensor(0.) 0.0 0.0
2.791825771331787 tensor(0.) tensor(0.) 0.0 0.0
3.283851385116577 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0302:  32%|██████████████████████▏                                              | 161/500 [00:03<00:06, 54.29batch/s]

2.7671515941619873 tensor(0.) tensor(0.) 0.0 0.0
2.7443032264709473 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0232:  33%|███████████████████████                                              | 167/500 [00:03<00:06, 54.38batch/s]

2.623828411102295 tensor(0.) tensor(0.) 0.0 0.0
3.0293073654174805 tensor(0.) tensor(0.) 0.0 0.0
2.921504497528076 tensor(0.) tensor(0.) 0.0 0.0
2.8834316730499268 tensor(0.) tensor(0.) 0.0 0.0
2.86342191696167 tensor(0.) tensor(0.) 0.0 0.0
2.84152889251709 tensor(0.) tensor(0.) 0.0 0.0
3.0133798122406006 tensor(0.) tensor(0.) 0.0 0.0
3.046298027038574 tensor(0.) tensor(0.) 0.0 0.0
2.8456146717071533 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0226:  35%|███████████████████████▊                                             | 173/500 [00:03<00:06, 54.31batch/s]

2.9859914779663086 tensor(0.) tensor(0.) 0.0 0.0
2.9524927139282227 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0171:  36%|████████████████████████▋                                            | 179/500 [00:03<00:05, 53.66batch/s]

2.959946632385254 tensor(0.) tensor(0.) 0.0 0.0
2.9581825733184814 tensor(0.) tensor(0.) 0.0 0.0
2.8856747150421143 tensor(0.) tensor(0.) 0.0 0.0
2.951847553253174 tensor(0.) tensor(0.) 0.0 0.0
2.805513620376587 tensor(0.) tensor(0.) 0.0 0.0
3.0621793270111084 tensor(0.) tensor(0.) 0.0 0.0
2.922743797302246 tensor(0.) tensor(0.) 0.0 0.0
2.549725294113159 tensor(0.) tensor(0.) 0.0 0.0
3.0969901084899902 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0182:  37%|█████████████████████████▌                                           | 185/500 [00:03<00:05, 53.89batch/s]

3.3488967418670654 tensor(0.) tensor(0.) 0.0 0.0
2.8917336463928223 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0199:  38%|██████████████████████████▎                                          | 191/500 [00:03<00:05, 53.57batch/s]

3.356475591659546 tensor(0.) tensor(0.) 0.0 0.0
2.9394168853759766 tensor(0.) tensor(0.) 0.0 0.0
2.9362354278564453 tensor(0.) tensor(0.) 0.0 0.0
2.9891858100891113 tensor(0.) tensor(0.) 0.0 0.0
2.8234119415283203 tensor(0.) tensor(0.) 0.0 0.0
3.038442611694336 tensor(0.) tensor(0.) 0.0 0.0
3.158534049987793 tensor(0.) tensor(0.) 0.0 0.0
3.3390026092529297 tensor(0.) tensor(0.) 0.0 0.0
2.9159460067749023 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0191:  38%|██████████████████████████▎                                          | 191/500 [00:03<00:05, 53.57batch/s]

2.9226131439208984 tensor(0.) tensor(0.) 0.0 0.0
2.9673895835876465 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0196:  41%|████████████████████████████                                         | 203/500 [00:03<00:05, 53.68batch/s]

3.1226513385772705 tensor(0.) tensor(0.) 0.0 0.0
3.0214505195617676 tensor(0.) tensor(0.) 0.0 0.0
3.1490318775177 tensor(0.) tensor(0.) 0.0 0.0
2.883680820465088 tensor(0.) tensor(0.) 0.0 0.0
3.131556510925293 tensor(0.) tensor(0.) 0.0 0.0
2.9529943466186523 tensor(0.) tensor(0.) 0.0 0.0
3.201023578643799 tensor(0.) tensor(0.) 0.0 0.0
2.863598108291626 tensor(0.) tensor(0.) 0.0 0.0
2.9519577026367188 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0182:  41%|████████████████████████████                                         | 203/500 [00:03<00:05, 53.68batch/s]

2.6336541175842285 tensor(0.) tensor(0.) 0.0 0.0
3.1057519912719727 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0124:  43%|█████████████████████████████▋                                       | 215/500 [00:04<00:05, 53.67batch/s]

2.856637954711914 tensor(0.) tensor(0.) 0.0 0.0
2.882988214492798 tensor(0.) tensor(0.) 0.0 0.0
2.86860728263855 tensor(0.) tensor(0.) 0.0 0.0
2.8116676807403564 tensor(0.) tensor(0.) 0.0 0.0
3.0947623252868652 tensor(0.) tensor(0.) 0.0 0.0
2.7588050365448 tensor(0.) tensor(0.) 0.0 0.0
2.8774077892303467 tensor(0.) tensor(0.) 0.0 0.0
2.910891056060791 tensor(0.) tensor(0.) 0.0 0.0
2.8419101238250732 tensor(0.) tensor(0.) 0.0 0.0
3.113481044769287 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0137:  43%|█████████████████████████████▋                                       | 215/500 [00:04<00:05, 53.67batch/s]

3.1937756538391113 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0124:  45%|███████████████████████████████▎                                     | 227/500 [00:04<00:05, 53.82batch/s]

2.805359125137329 tensor(0.) tensor(0.) 0.0 0.0
2.923402786254883 tensor(0.) tensor(0.) 0.0 0.0
3.4400057792663574 tensor(0.) tensor(0.) 0.0 0.0
3.0043368339538574 tensor(0.) tensor(0.) 0.0 0.0
3.2224795818328857 tensor(0.) tensor(0.) 0.0 0.0
2.646744728088379 tensor(0.) tensor(0.) 0.0 0.0
2.9193735122680664 tensor(0.) tensor(0.) 0.0 0.0
2.9575295448303223 tensor(0.) tensor(0.) 0.0 0.0
2.922868251800537 tensor(0.) tensor(0.) 0.0 0.0
3.0075669288635254 tensor(0.) tensor(0.) 0.0 0.0
3.018780469894409 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0127:  48%|████████████████████████████████▉                                    | 239/500 [00:04<00:04, 53.45batch/s]

3.019648790359497 tensor(0.) tensor(0.) 0.0 0.0
2.9659583568573 tensor(0.) tensor(0.) 0.0 0.0
2.858844041824341 tensor(0.) tensor(0.) 0.0 0.0
3.020885944366455 tensor(0.) tensor(0.) 0.0 0.0
2.8023159503936768 tensor(0.) tensor(0.) 0.0 0.0
3.3375136852264404 tensor(0.) tensor(0.) 0.0 0.0
3.106734275817871 tensor(0.) tensor(0.) 0.0 0.0
2.84709095954895 tensor(0.) tensor(0.) 0.0 0.0
3.175220251083374 tensor(0.) tensor(0.) 0.0 0.0
3.305306911468506 tensor(0.) tensor(0.) 0.0 0.0
2.940340042114258 tensor(0.) tensor(0.) 0.0 0.0
2.833005905151367 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0056:  50%|██████████████████████████████████▋                                  | 251/500 [00:04<00:04, 55.33batch/s]

2.905698776245117 tensor(0.) tensor(0.) 0.0 0.0
3.0289511680603027 tensor(0.) tensor(0.) 0.0 0.0
2.7159340381622314 tensor(0.) tensor(0.) 0.0 0.0
3.1891672611236572 tensor(0.) tensor(0.) 0.0 0.0
2.9054174423217773 tensor(0.) tensor(0.) 0.0 0.0
2.8578946590423584 tensor(0.) tensor(0.) 0.0 0.0
2.7626266479492188 tensor(0.) tensor(0.) 0.0 0.0
2.9221420288085938 tensor(0.) tensor(0.) 0.0 0.0
2.7054812908172607 tensor(0.) tensor(0.) 0.0 0.0
2.688316583633423 tensor(0.) tensor(0.) 0.0 0.0
2.761056900024414 tensor(0.) tensor(0.) 0.0 0.0
2.9207091331481934 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0046:  53%|████████████████████████████████████▎                                | 263/500 [00:04<00:04, 56.07batch/s]

2.8200807571411133 tensor(0.) tensor(0.) 0.0 0.0
2.918402671813965 tensor(0.) tensor(0.) 0.0 0.0
3.0020995140075684 tensor(0.) tensor(0.) 0.0 0.0
2.9136130809783936 tensor(0.) tensor(0.) 0.0 0.0
2.9956610202789307 tensor(0.) tensor(0.) 0.0 0.0
2.927793264389038 tensor(0.) tensor(0.) 0.0 0.0
3.0250399112701416 tensor(0.) tensor(0.) 0.0 0.0
3.0936179161071777 tensor(0.) tensor(0.) 0.0 0.0
2.8399417400360107 tensor(0.) tensor(0.) 0.0 0.0
2.9862868785858154 tensor(0.) tensor(0.) 0.0 0.0
2.8404152393341064 tensor(0.) tensor(0.) 0.0 0.0
3.4324159622192383 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0021:  55%|█████████████████████████████████████▉                               | 275/500 [00:05<00:04, 55.28batch/s]

2.770233392715454 tensor(0.) tensor(0.) 0.0 0.0
2.9305646419525146 tensor(0.) tensor(0.) 0.0 0.0
3.1510207653045654 tensor(0.) tensor(0.) 0.0 0.0
2.855799674987793 tensor(0.) tensor(0.) 0.0 0.0
2.791921377182007 tensor(0.) tensor(0.) 0.0 0.0
3.0813052654266357 tensor(0.) tensor(0.) 0.0 0.0
2.773405075073242 tensor(0.) tensor(0.) 0.0 0.0
2.8802454471588135 tensor(0.) tensor(0.) 0.0 0.0
2.987086296081543 tensor(0.) tensor(0.) 0.0 0.0
3.383303642272949 tensor(0.) tensor(0.) 0.0 0.0
2.9551830291748047 tensor(0.) tensor(0.) 0.0 0.0
2.808936357498169 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9991:  57%|███████████████████████████████████████▌                             | 287/500 [00:05<00:03, 55.55batch/s]

2.9840798377990723 tensor(0.) tensor(0.) 0.0 0.0
3.142566204071045 tensor(0.) tensor(0.) 0.0 0.0
2.8246991634368896 tensor(0.) tensor(0.) 0.0 0.0
3.1001956462860107 tensor(0.) tensor(0.) 0.0 0.0
3.0084166526794434 tensor(0.) tensor(0.) 0.0 0.0
2.9888832569122314 tensor(0.) tensor(0.) 0.0 0.0
2.7014904022216797 tensor(0.) tensor(0.) 0.0 0.0
2.864481210708618 tensor(0.) tensor(0.) 0.0 0.0
3.0438947677612305 tensor(0.) tensor(0.) 0.0 0.0
2.8091535568237305 tensor(0.) tensor(0.) 0.0 0.0
2.922799587249756 tensor(0.) tensor(0.) 0.0 0.0
2.7499513626098633 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9970:  60%|█████████████████████████████████████████▎                           | 299/500 [00:05<00:03, 54.69batch/s]

2.846329689025879 tensor(0.) tensor(0.) 0.0 0.0
2.5229756832122803 tensor(0.) tensor(0.) 0.0 0.0
3.133244276046753 tensor(0.) tensor(0.) 0.0 0.0
3.1128029823303223 tensor(0.) tensor(0.) 0.0 0.0
2.8746097087860107 tensor(0.) tensor(0.) 0.0 0.0
2.821514368057251 tensor(0.) tensor(0.) 0.0 0.0
2.9236114025115967 tensor(0.) tensor(0.) 0.0 0.0
2.7492501735687256 tensor(0.) tensor(0.) 0.0 0.0
3.0987179279327393 tensor(0.) tensor(0.) 0.0 0.0
3.167341709136963 tensor(0.) tensor(0.) 0.0 0.0
2.8664357662200928 tensor(0.) tensor(0.) 0.0 0.0
3.2558677196502686 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9947:  62%|██████████████████████████████████████████▉                          | 311/500 [00:05<00:03, 53.95batch/s]

2.8767731189727783 tensor(0.) tensor(0.) 0.0 0.0
2.8024840354919434 tensor(0.) tensor(0.) 0.0 0.0
3.037264108657837 tensor(0.) tensor(0.) 0.0 0.0
3.250826358795166 tensor(0.) tensor(0.) 0.0 0.0
2.9001781940460205 tensor(0.) tensor(0.) 0.0 0.0
2.913595199584961 tensor(0.) tensor(0.) 0.0 0.0
3.2553329467773438 tensor(0.) tensor(0.) 0.0 0.0
2.9703056812286377 tensor(0.) tensor(0.) 0.0 0.0
2.611788749694824 tensor(0.) tensor(0.) 0.0 0.0
2.910320520401001 tensor(0.) tensor(0.) 0.0 0.0
2.9645464420318604 tensor(0.) tensor(0.) 0.0 0.0
2.748339891433716 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9922:  65%|████████████████████████████████████████████▌                        | 323/500 [00:06<00:03, 55.24batch/s]

2.9748239517211914 tensor(0.) tensor(0.) 0.0 0.0
3.102062940597534 tensor(0.) tensor(0.) 0.0 0.0
2.9036383628845215 tensor(0.) tensor(0.) 0.0 0.0
2.658254623413086 tensor(0.) tensor(0.) 0.0 0.0
2.983020305633545 tensor(0.) tensor(0.) 0.0 0.0
2.9098703861236572 tensor(0.) tensor(0.) 0.0 0.0
2.833101272583008 tensor(0.) tensor(0.) 0.0 0.0
3.225771188735962 tensor(0.) tensor(0.) 0.0 0.0
2.721395969390869 tensor(0.) tensor(0.) 0.0 0.0
2.919966697692871 tensor(0.) tensor(0.) 0.0 0.0
2.8425159454345703 tensor(0.) tensor(0.) 0.0 0.0
3.0514838695526123 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9876:  67%|██████████████████████████████████████████████▏                      | 335/500 [00:06<00:02, 56.04batch/s]

2.8339767456054688 tensor(0.) tensor(0.) 0.0 0.0
3.042236089706421 tensor(0.) tensor(0.) 0.0 0.0
2.8507323265075684 tensor(0.) tensor(0.) 0.0 0.0
2.878542423248291 tensor(0.) tensor(0.) 0.0 0.0
2.5496487617492676 tensor(0.) tensor(0.) 0.0 0.0
2.900667428970337 tensor(0.) tensor(0.) 0.0 0.0
2.7223219871520996 tensor(0.) tensor(0.) 0.0 0.0
2.9118099212646484 tensor(0.) tensor(0.) 0.0 0.0
3.0320801734924316 tensor(0.) tensor(0.) 0.0 0.0
2.916795015335083 tensor(0.) tensor(0.) 0.0 0.0
2.7320444583892822 tensor(0.) tensor(0.) 0.0 0.0
2.972391128540039 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9846:  69%|███████████████████████████████████████████████▉                     | 347/500 [00:06<00:02, 54.61batch/s]

2.9365758895874023 tensor(0.) tensor(0.) 0.0 0.0
2.616206169128418 tensor(0.) tensor(0.) 0.0 0.0
2.8741836547851562 tensor(0.) tensor(0.) 0.0 0.0
3.335679531097412 tensor(0.) tensor(0.) 0.0 0.0
3.034072160720825 tensor(0.) tensor(0.) 0.0 0.0
2.5943710803985596 tensor(0.) tensor(0.) 0.0 0.0
3.119382619857788 tensor(0.) tensor(0.) 0.0 0.0
2.8490793704986572 tensor(0.) tensor(0.) 0.0 0.0
2.8015646934509277 tensor(0.) tensor(0.) 0.0 0.0
2.8356540203094482 tensor(0.) tensor(0.) 0.0 0.0
2.993161678314209 tensor(0.) tensor(0.) 0.0 0.0
2.8304617404937744 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9804:  72%|█████████████████████████████████████████████████▌                   | 359/500 [00:06<00:02, 54.82batch/s]

2.9436826705932617 tensor(0.) tensor(0.) 0.0 0.0
2.752134323120117 tensor(0.) tensor(0.) 0.0 0.0
2.942734718322754 tensor(0.) tensor(0.) 0.0 0.0
2.9797112941741943 tensor(0.) tensor(0.) 0.0 0.0
2.7013986110687256 tensor(0.) tensor(0.) 0.0 0.0
2.760165214538574 tensor(0.) tensor(0.) 0.0 0.0
2.7815029621124268 tensor(0.) tensor(0.) 0.0 0.0
2.974621534347534 tensor(0.) tensor(0.) 0.0 0.0
2.7590224742889404 tensor(0.) tensor(0.) 0.0 0.0
3.0453102588653564 tensor(0.) tensor(0.) 0.0 0.0
3.009246587753296 tensor(0.) tensor(0.) 0.0 0.0
2.62799072265625 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9776:  74%|███████████████████████████████████████████████████▏                 | 371/500 [00:06<00:02, 54.32batch/s]

2.9524729251861572 tensor(0.) tensor(0.) 0.0 0.0
2.9271695613861084 tensor(0.) tensor(0.) 0.0 0.0
2.8470771312713623 tensor(0.) tensor(0.) 0.0 0.0
2.7341768741607666 tensor(0.) tensor(0.) 0.0 0.0
2.971930503845215 tensor(0.) tensor(0.) 0.0 0.0
2.8818349838256836 tensor(0.) tensor(0.) 0.0 0.0
2.8533055782318115 tensor(0.) tensor(0.) 0.0 0.0
2.8901679515838623 tensor(0.) tensor(0.) 0.0 0.0
3.2436683177948 tensor(0.) tensor(0.) 0.0 0.0
2.6494972705841064 tensor(0.) tensor(0.) 0.0 0.0
2.807925224304199 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9753:  77%|████████████████████████████████████████████████████▉                | 384/500 [00:07<00:02, 55.10batch/s]

3.2678375244140625 tensor(0.) tensor(0.) 0.0 0.0
2.7248952388763428 tensor(0.) tensor(0.) 0.0 0.0
2.9024765491485596 tensor(0.) tensor(0.) 0.0 0.0
2.727290630340576 tensor(0.) tensor(0.) 0.0 0.0
2.983883857727051 tensor(0.) tensor(0.) 0.0 0.0
3.035654306411743 tensor(0.) tensor(0.) 0.0 0.0
2.9431302547454834 tensor(0.) tensor(0.) 0.0 0.0
2.706721782684326 tensor(0.) tensor(0.) 0.0 0.0
3.0149407386779785 tensor(0.) tensor(0.) 0.0 0.0
2.880323886871338 tensor(0.) tensor(0.) 0.0 0.0
2.5465991497039795 tensor(0.) tensor(0.) 0.0 0.0
3.125775098800659 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9719:  78%|█████████████████████████████████████████████████████▊               | 390/500 [00:07<00:01, 55.34batch/s]

2.598954200744629 tensor(0.) tensor(0.) 0.0 0.0
2.8187172412872314 tensor(0.) tensor(0.) 0.0 0.0
3.085528612136841 tensor(0.) tensor(0.) 0.0 0.0
2.860541343688965 tensor(0.) tensor(0.) 0.0 0.0
2.6028594970703125 tensor(0.) tensor(0.) 0.0 0.0
3.1146373748779297 tensor(0.) tensor(0.) 0.0 0.0
2.7847626209259033 tensor(0.) tensor(0.) 0.0 0.0
3.119799852371216 tensor(0.) tensor(0.) 0.0 0.0
2.7920608520507812 tensor(0.) tensor(0.) 0.0 0.0
2.7258574962615967 tensor(0.) tensor(0.) 0.0 0.0
2.9213061332702637 tensor(0.) tensor(0.) 0.0 0.0
2.9056389331817627 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9692:  82%|████████████████████████████████████████████████████████▎            | 408/500 [00:07<00:01, 55.71batch/s]

2.9845151901245117 tensor(0.) tensor(0.) 0.0 0.0
3.21444034576416 tensor(0.) tensor(0.) 0.0 0.0
2.8544366359710693 tensor(0.) tensor(0.) 0.0 0.0
2.981278896331787 tensor(0.) tensor(0.) 0.0 0.0
2.9775121212005615 tensor(0.) tensor(0.) 0.0 0.0
2.6756625175476074 tensor(0.) tensor(0.) 0.0 0.0
2.8394129276275635 tensor(0.) tensor(0.) 0.0 0.0
2.8323113918304443 tensor(0.) tensor(0.) 0.0 0.0
2.916797161102295 tensor(0.) tensor(0.) 0.0 0.0
2.9681525230407715 tensor(0.) tensor(0.) 0.0 0.0
2.500791072845459 tensor(0.) tensor(0.) 0.0 0.0
2.814617872238159 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9698:  83%|█████████████████████████████████████████████████████████▏           | 414/500 [00:07<00:01, 56.58batch/s]

3.1012117862701416 tensor(0.) tensor(0.) 0.0 0.0
2.917093515396118 tensor(0.) tensor(0.) 0.0 0.0
2.97036075592041 tensor(0.) tensor(0.) 0.0 0.0
2.668428421020508 tensor(0.) tensor(0.) 0.0 0.0
2.937249183654785 tensor(0.) tensor(0.) 0.0 0.0
2.9956600666046143 tensor(0.) tensor(0.) 0.0 0.0
3.0816104412078857 tensor(0.) tensor(0.) 0.0 0.0
3.1673734188079834 tensor(0.) tensor(0.) 0.0 0.0
2.837893486022949 tensor(0.) tensor(0.) 0.0 0.0
3.006986618041992 tensor(0.) tensor(0.) 0.0 0.0
3.243917226791382 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9677:  85%|██████████████████████████████████████████████████████████▊          | 426/500 [00:07<00:01, 54.76batch/s]

2.871142625808716 tensor(0.) tensor(0.) 0.0 0.0
2.671311855316162 tensor(0.) tensor(0.) 0.0 0.0
2.978271484375 tensor(0.) tensor(0.) 0.0 0.0
2.9510679244995117 tensor(0.) tensor(0.) 0.0 0.0
2.9102718830108643 tensor(0.) tensor(0.) 0.0 0.0
2.5039730072021484 tensor(0.) tensor(0.) 0.0 0.0
2.769935369491577 tensor(0.) tensor(0.) 0.0 0.0
2.747770071029663 tensor(0.) tensor(0.) 0.0 0.0
3.206735134124756 tensor(0.) tensor(0.) 0.0 0.0
3.1938538551330566 tensor(0.) tensor(0.) 0.0 0.0
2.97495698928833 tensor(0.) tensor(0.) 0.0 0.0
2.9600110054016113 tensor(0.) tensor(0.) 0.0 0.0
2.9580788612365723 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9642:  88%|████████████████████████████████████████████████████████████▌        | 439/500 [00:08<00:01, 53.87batch/s]

3.0141897201538086 tensor(0.) tensor(0.) 0.0 0.0
2.8535842895507812 tensor(0.) tensor(0.) 0.0 0.0
2.8022146224975586 tensor(0.) tensor(0.) 0.0 0.0
2.776684284210205 tensor(0.) tensor(0.) 0.0 0.0
2.9159047603607178 tensor(0.) tensor(0.) 0.0 0.0
2.8108203411102295 tensor(0.) tensor(0.) 0.0 0.0
2.926056146621704 tensor(0.) tensor(0.) 0.0 0.0
2.8214285373687744 tensor(0.) tensor(0.) 0.0 0.0
2.8376693725585938 tensor(0.) tensor(0.) 0.0 0.0
2.6763668060302734 tensor(0.) tensor(0.) 0.0 0.0
2.4115521907806396 tensor(0.) tensor(0.) 0.0 0.0
3.1960721015930176 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9614:  90%|██████████████████████████████████████████████████████████████▍      | 452/500 [00:08<00:00, 56.61batch/s]

2.9402806758880615 tensor(0.) tensor(0.) 0.0 0.0
2.794735908508301 tensor(0.) tensor(0.) 0.0 0.0
2.629462480545044 tensor(0.) tensor(0.) 0.0 0.0
2.6727304458618164 tensor(0.) tensor(0.) 0.0 0.0
2.682279586791992 tensor(0.) tensor(0.) 0.0 0.0
3.0273196697235107 tensor(0.) tensor(0.) 0.0 0.0
2.952986478805542 tensor(0.) tensor(0.) 0.0 0.0
2.8103554248809814 tensor(0.) tensor(0.) 0.0 0.0
2.895296096801758 tensor(0.) tensor(0.) 0.0 0.0
2.9423410892486572 tensor(0.) tensor(0.) 0.0 0.0
3.160776376724243 tensor(0.) tensor(0.) 0.0 0.0
2.7833473682403564 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9621:  93%|████████████████████████████████████████████████████████████████     | 464/500 [00:08<00:00, 55.95batch/s]

2.976881980895996 tensor(0.) tensor(0.) 0.0 0.0
2.7032241821289062 tensor(0.) tensor(0.) 0.0 0.0
2.9484119415283203 tensor(0.) tensor(0.) 0.0 0.0
3.0128540992736816 tensor(0.) tensor(0.) 0.0 0.0
2.8452234268188477 tensor(0.) tensor(0.) 0.0 0.0
3.372856855392456 tensor(0.) tensor(0.) 0.0 0.0
3.0777077674865723 tensor(0.) tensor(0.) 0.0 0.0
3.040278434753418 tensor(0.) tensor(0.) 0.0 0.0
2.5995965003967285 tensor(0.) tensor(0.) 0.0 0.0
2.9596176147460938 tensor(0.) tensor(0.) 0.0 0.0
3.3772330284118652 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9584:  95%|█████████████████████████████████████████████████████████████████▋   | 476/500 [00:08<00:00, 53.57batch/s]

2.470219612121582 tensor(0.) tensor(0.) 0.0 0.0
2.7321126461029053 tensor(0.) tensor(0.) 0.0 0.0
2.949890375137329 tensor(0.) tensor(0.) 0.0 0.0
2.8505425453186035 tensor(0.) tensor(0.) 0.0 0.0
2.8900866508483887 tensor(0.) tensor(0.) 0.0 0.0
2.807035446166992 tensor(0.) tensor(0.) 0.0 0.0
2.8738796710968018 tensor(0.) tensor(0.) 0.0 0.0
3.0262670516967773 tensor(0.) tensor(0.) 0.0 0.0
2.8353257179260254 tensor(0.) tensor(0.) 0.0 0.0
2.723400354385376 tensor(0.) tensor(0.) 0.0 0.0
2.646270513534546 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9565:  98%|███████████████████████████████████████████████████████████████████▎ | 488/500 [00:09<00:00, 55.05batch/s]

2.8892691135406494 tensor(0.) tensor(0.) 0.0 0.0
2.6922433376312256 tensor(0.) tensor(0.) 0.0 0.0
2.9797372817993164 tensor(0.) tensor(0.) 0.0 0.0
2.984950065612793 tensor(0.) tensor(0.) 0.0 0.0
2.910597324371338 tensor(0.) tensor(0.) 0.0 0.0
3.1539504528045654 tensor(0.) tensor(0.) 0.0 0.0
2.902316093444824 tensor(0.) tensor(0.) 0.0 0.0
2.7071526050567627 tensor(0.) tensor(0.) 0.0 0.0
3.015228271484375 tensor(0.) tensor(0.) 0.0 0.0
2.8361141681671143 tensor(0.) tensor(0.) 0.0 0.0
2.5123677253723145 tensor(0.) tensor(0.) 0.0 0.0
2.979854106903076 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9546: 100%|█████████████████████████████████████████████████████████████████████| 500/500 [00:09<00:00, 54.10batch/s]

3.043950080871582 tensor(0.) tensor(0.) 0.0 0.0
2.680612087249756 tensor(0.) tensor(0.) 0.0 0.0
2.8329973220825195 tensor(0.) tensor(0.) 0.0 0.0
2.8750340938568115 tensor(0.) tensor(0.) 0.0 0.0
2.9155433177948 tensor(0.) tensor(0.) 0.0 0.0
2.6825289726257324 tensor(0.) tensor(0.) 0.0 0.0
2.7859880924224854 tensor(0.) tensor(0.) 0.0 0.0
2.9651381969451904 tensor(0.) tensor(0.) 0.0 0.0
2.968893527984619 tensor(0.) tensor(0.) 0.0 0.0
2.8663582801818848 tensor(0.) tensor(0.) 0.0 0.0
Student Training Loss: 2.9545560698509217





In [14]:
# Evaluation and Metrics
def evaluate(model, dataloader):
    model.eval()
    all_labels = []
    all_preds = []
    start_time = time.time()
    with torch.no_grad():
        for data in dataloader:
            inputs, labels = data
            inputs, labels = inputs.to(device), labels.to(device)
            outputs = model(inputs)
            _, preds = torch.max(outputs.data, 1)
            all_labels.append(labels.cpu().numpy())
            all_preds.append(preds.cpu().numpy())
    end_time = time.time()
    inference_time = end_time - start_time
    all_labels = np.concatenate(all_labels)
    all_preds = np.concatenate(all_preds)
    precision = precision_score(all_labels, all_preds, average='weighted')
    recall = recall_score(all_labels, all_preds, average='weighted')
    accuracy = accuracy_score(all_labels, all_preds)
    f1 = f1_score(all_labels, all_preds, average='weighted')
    return inference_time, precision, recall, accuracy, f1


In [15]:
# Get metrics for both teacher and student
metrics_teacher = evaluate(teacher, testloader)
metrics_student = evaluate(student, testloader)
print('Teacher Metrics:', metrics_teacher)
print('Student Metrics:', metrics_student)

Teacher Metrics: (1.8663783073425293, 0.33224027723827465, 0.3075, 0.3075, 0.29343812440821115)
Student Metrics: (1.8172495365142822, 0.3067188754840348, 0.2887, 0.2887, 0.273654988871147)


In [16]:
# Save the model weights
torch.save(student.state_dict(), 'student.pth')
torch.save(teacher.state_dict(), 'teacher.pth')

In [17]:
# Save the architecture
import json
student_architecture = {
    'conv1': [3, 16, 5],
    'pool': [2, 2],
    'fc1': [16*14*14, 120],
    'fc2': [120, 100]  # original number of classes
}
with open('student_architecture.json', 'w') as f:
    json.dump(student_architecture, f)
