In [1]:
import torch
import torch.nn as nn
import torch.optim as optim
import torchvision
import torchvision.transforms as transforms
import matplotlib.pyplot as plt
import numpy as np
from sklearn.metrics import precision_score, recall_score, f1_score, accuracy_score
import time
import os
import torch.nn.functional as F
from tqdm import tqdm


In [2]:
print(torch.cuda.is_available())
print(torch.cuda.device_count())
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

True
1


In [3]:
learning_rate = 0.001
num_epochs = 2
num_workers = 2
batch_size = 100

In [4]:
# Load CIFAR-100 data
transform = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize((0.5071, 0.4867, 0.4408), (0.2675, 0.2565, 0.2761))
])
trainset = torchvision.datasets.CIFAR100(root='./data', train=True, download=True, transform=transform)
trainloader = torch.utils.data.DataLoader(trainset, batch_size=batch_size, shuffle=True, num_workers=num_workers)
testset = torchvision.datasets.CIFAR100(root='./data', train=False, download=True, transform=transform)
testloader = torch.utils.data.DataLoader(testset, batch_size=batch_size, shuffle=False, num_workers=num_workers)


Files already downloaded and verified
Files already downloaded and verified


In [5]:
# Define the Teacher model
class Teacher(nn.Module):
    def __init__(self):
        super(Teacher, self).__init__()
        self.conv1 = nn.Conv2d(3, 64, 5)
        self.pool = nn.MaxPool2d(2, 2)
        self.conv2 = nn.Conv2d(64, 128, 5)
        self.fc1 = nn.Linear(128*5*5, 256)
        self.fc2 = nn.Linear(256, 100)

    def forward(self, x):
        x = self.pool(F.relu(self.conv1(x)))
        x = self.pool(F.relu(self.conv2(x)))
        x = x.view(-1, 128*5*5)
        x = F.relu(self.fc1(x))
        x = self.fc2(x)
        return x

# Define the ModifiableStudent class
class ModifiableStudent(nn.Module):
    def __init__(self, num_classes=100):
        super(ModifiableStudent, self).__init__()
        self.conv1 = nn.Conv2d(3, 16, 5)
        self.pool = nn.MaxPool2d(2, 2)
        self.fc1 = nn.Linear(16*14*14, 120)
        self.fc2 = nn.Linear(120, num_classes)

    def forward(self, x):
        x = self.pool(F.relu(self.conv1(x)))
        x = x.view(-1, 16*14*14)
        x = F.relu(self.fc1(x))
        x = self.fc2(x)
        return x


In [6]:
# def fairness_constraint(outputs, sensitive_attrs):
#     # This is a simplified fairness constraint for demonstration purposes.
#     group0_indices = (sensitive_attrs < 5).nonzero(as_tuple=True)
#     group1_indices = (sensitive_attrs >= 5).nonzero(as_tuple=True)
#     positive_rate_group0 = (outputs[group0_indices].max(1)[1] >= 5).float().mean()
#     positive_rate_group1 = (outputs[group1_indices].max(1)[1] >= 5).float().mean()
#     return torch.abs(positive_rate_group0 - positive_rate_group1)

# def adversarial_train_model(model, dataloader, criterion, optimizer, epoch):
#     model.train()
#     running_loss = 0.0
#     progress_bar = tqdm(enumerate(dataloader, 0), total=len(dataloader), unit="batch")
#     for i, data in progress_bar:
#         inputs, labels = data
#         sensitive_attrs = labels  # Assuming label itself as a sensitive attribute
#         optimizer.zero_grad()
#         outputs = model(inputs.to(device))
#         loss = criterion(outputs, labels.to(device))
#         fairness_penalty = fairness_constraint(outputs, sensitive_attrs.to(device))
#         combined_loss = loss + fairness_penalty  # Combine original loss and fairness penalty
#         combined_loss.backward()
#         optimizer.step()
#         running_loss += combined_loss.item()
#         progress_bar.set_description(f"Epoch {epoch} Loss: {running_loss/(i+1):.4f}")
#     return running_loss / len(dataloader)

In [7]:
# Define the fair_metric function from the RELIANT code
def fair_metric(pred, labels, sens):
    idx_s0 = sens == 0
    idx_s1 = sens == 1
    idx_s0_y1 = idx_s0 & (labels == 1)
    idx_s1_y1 = idx_s1 & (labels == 1)

    if idx_s0.sum().item() == 0 or idx_s1.sum().item() == 0 or idx_s0_y1.sum().item() == 0 or idx_s1_y1.sum().item() == 0:
        return torch.tensor(0.0), torch.tensor(0.0)  # Return zeros

    # print(idx_s0.sum().item(), idx_s1.sum().item(), idx_s0_y1.sum().item(), idx_s1_y1.sum().item())
    # smoothing term added
    parity = torch.abs((pred[idx_s0].sum() / (idx_s0.sum().item() + 1e-8)) - (pred[idx_s1].sum() / (idx_s1.sum().item() + 1e-8)))
    equality = torch.abs((pred[idx_s0_y1].sum() / (idx_s0_y1.sum().item() + 1e-8)) - (pred[idx_s1_y1].sum() / (idx_s1_y1.sum().item() + 1e-8)))

    return parity.item(), equality.item()

In [8]:
# Define the approx_loss and approx_loss_eo functions from the RELIANT code
def approx_loss(logits, sens, idx):
    g1 = np.argwhere(sens == 0.0).reshape(-1)
    g2 = np.argwhere(sens == 1.0).reshape(-1)
    idx_set = set(idx.cpu().numpy())
    g1 = np.array(list(set(g1) & idx_set))
    g2 = np.array(list(set(g2) & idx_set))

    if g1.shape[0] == 0 or g2.shape[0] == 0:
        return torch.tensor(0.0) # Return zero
    
    # print(g1.shape[0], g2.shape[0])
    # smoothing term added
    loss = torch.square(approx_func(logits[g1]).sum(axis=0) / (g1.shape[0] + 1e-8) - approx_func(logits[g2]).sum(axis=0) / (g2.shape[0] + 1e-8)).sum()
    return loss


In [9]:
def approx_loss_eo(logits, sens, labels, idx):
    g1 = np.argwhere(sens == 0).reshape(-1)
    g2 = np.argwhere(sens == 1).reshape(-1)
    g = np.argwhere(labels.cpu().numpy() == 1).reshape(-1)
    idx_set = set(idx.cpu().numpy())
    g1 = np.array(list(set(g1) & set(g) & idx_set))
    g2 = np.array(list(set(g2) & set(g) & idx_set))
    
    if g1.shape[0] == 0 or g2.shape[0] == 0:
        return torch.tensor(0.0)  # Return zero 
        
    # print(g1.shape[0], g2.shape[0])
    # smoothing term added
    loss = torch.square(approx_func(logits[g1]).sum(axis=0) / (g1.shape[0] + 1e-8) - approx_func(logits[g2]).sum(axis=0) / (g2.shape[0] + 1e-8)).sum()
    return loss

In [10]:
def approx_func(s):
    x = 2 * s - 1
    result = 1 / 2 + 1 / 2 * x - 1 / 8 / 2 * (5 * x * x * x - 3 * x) + 1 / 16 / 8 * (
                63 * x * x * x * x * x - 70 * x * x * x + 15 * x) - 5 / 128 / 16 * (
                       429 * x * x * x * x * x * x * x - 693 * x * x * x * x * x + 315 * x * x * x - 35 * x) + 7 / 256 / 128 * (
                       12155 * x * x * x * x * x * x * x * x * x - 25740 * x * x * x * x * x * x * x + 18018 * x * x * x * x * x - 4620 * x * x * x + 315 * x)
    # print(s, x, result)
    return result

In [11]:
# Define the logging lists at the beginning of your script or before the training loop
teacher_loss_log, teacher_combined_loss_log, teacher_fairness_penalty_sp_log, teacher_fairness_penalty_eo_log, teacher_fairness_penalty_approx_log, teacher_fairness_penalty_approx_eo_log = [], [], [], [], [], []
student_loss_log, student_combined_loss_log, student_fairness_penalty_sp_log, student_fairness_penalty_eo_log, student_fairness_penalty_approx_log, student_fairness_penalty_approx_eo_log = [], [], [], [], [], []


In [12]:
def adversarial_train_model(model, dataloader, criterion, optimizer, epoch, loss_log, combined_loss_log, fairness_penalty_sp_log, fairness_penalty_eo_log, fairness_penalty_approx_log, fairness_penalty_approx_eo_log):
    model.train()
    running_loss = 0.0
    progress_bar = tqdm(enumerate(dataloader, 0), total=len(dataloader), unit="batch")
    for i, data in progress_bar:
        inputs, labels = data
        sensitive_attrs = labels  # Assuming label itself as a sensitive attribute
        optimizer.zero_grad()
        outputs = model(inputs.to(device))
        loss = criterion(outputs, labels.to(device))
        # Incorporate fairness metrics
        fairness_penalty_sp, fairness_penalty_eo = fair_metric(outputs, labels, sensitive_attrs)
        fairness_penalty_approx = approx_loss(outputs, sensitive_attrs, torch.arange(len(labels)).to(device))
        fairness_penalty_approx_eo = approx_loss_eo(outputs, sensitive_attrs, labels, torch.arange(len(labels)).to(device))
        combined_loss = loss + fairness_penalty_sp + fairness_penalty_eo + fairness_penalty_approx + fairness_penalty_approx_eo

        print(combined_loss.item(), fairness_penalty_sp, fairness_penalty_eo, fairness_penalty_approx.item(), fairness_penalty_approx_eo.item())
        combined_loss.backward()
        optimizer.step()
        running_loss += combined_loss.item()
        progress_bar.set_description(f"Epoch {epoch} Loss: {running_loss/(i+1):.4f}")
        
        # Logging the losses
        loss_log.append(loss.item())
        combined_loss_log.append(combined_loss.item())
        fairness_penalty_sp_log.append(fairness_penalty_sp)
        fairness_penalty_eo_log.append(fairness_penalty_eo)
        fairness_penalty_approx_log.append(fairness_penalty_approx.item())
        fairness_penalty_approx_eo_log.append(fairness_penalty_approx_eo.item())
    return running_loss / len(dataloader)

In [13]:
# Initialize models, optimizers, and loss function
teacher = Teacher().to(device)
student = ModifiableStudent().to(device)
optimizer_teacher = optim.Adam(teacher.parameters(), lr=learning_rate)
optimizer_student = optim.Adam(student.parameters(), lr=learning_rate)
criterion = nn.CrossEntropyLoss()


In [14]:
# Training Loop
for epoch in range(num_epochs):
    adversarial_train_model(teacher, trainloader, criterion, optimizer_teacher, epoch, teacher_loss_log, teacher_combined_loss_log, teacher_fairness_penalty_sp_log, teacher_fairness_penalty_eo_log, teacher_fairness_penalty_approx_log, teacher_fairness_penalty_approx_eo_log)
    adversarial_train_model(student, trainloader, criterion, optimizer_student, epoch, student_loss_log, student_combined_loss_log, student_fairness_penalty_sp_log, student_fairness_penalty_eo_log, student_fairness_penalty_approx_log, student_fairness_penalty_approx_eo_log)


Epoch 0 Loss: 4.5995:   0%|                  | 1/500 [00:00<03:09,  2.64batch/s]

4.611886501312256 tensor(0.) tensor(0.) 0.0 0.0
4.620633125305176 tensor(0.) tensor(0.) 0.0 0.0
4.618854522705078 tensor(0.) tensor(0.) 0.0 0.0
4.6222147941589355 tensor(0.) tensor(0.) 0.0 0.0
4.5675129890441895 tensor(0.) tensor(0.) 0.0 0.0
4.594176769256592 tensor(0.) tensor(0.) 0.0 0.0
4.561077117919922 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.5171:   3%|▌                | 17/500 [00:00<00:12, 38.97batch/s]

4.5786333084106445 tensor(0.) tensor(0.) 0.0 0.0
4.587055206298828 tensor(0.) tensor(0.) 0.0 0.0
4.532139778137207 tensor(0.) tensor(0.) 0.0 0.0
4.500350475311279 tensor(0.) tensor(0.) 0.0 0.0
4.506548881530762 tensor(0.) tensor(0.) 0.0 0.0
4.5078301429748535 tensor(0.) tensor(0.) 0.0 0.0
4.541199207305908 tensor(0.) tensor(0.) 0.0 0.0
4.489974498748779 tensor(0.) tensor(0.) 0.0 0.0
4.492957592010498 tensor(0.) tensor(0.) 0.0 0.0
4.469582557678223 tensor(0.) tensor(0.) 0.0 0.0
4.429223537445068 tensor(0.) tensor(0.) 0.0 0.0
4.411251544952393 tensor(0.) tensor(0.) 0.0 0.0
4.473464488983154 tensor(0.) tensor(0.) 0.0 0.0
4.391859531402588 tensor(0.) tensor(0.) 0.0 0.0
4.266929626464844 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.4214:   6%|█                | 32/500 [00:00<00:08, 54.05batch/s]

4.341611862182617 tensor(0.) tensor(0.) 0.0 0.0
4.299993991851807 tensor(0.) tensor(0.) 0.0 0.0
4.355825424194336 tensor(0.) tensor(0.) 0.0 0.0
4.35243034362793 tensor(0.) tensor(0.) 0.0 0.0
4.314813613891602 tensor(0.) tensor(0.) 0.0 0.0
4.284345626831055 tensor(0.) tensor(0.) 0.0 0.0
4.2715654373168945 tensor(0.) tensor(0.) 0.0 0.0
4.314347743988037 tensor(0.) tensor(0.) 0.0 0.0
4.431204319000244 tensor(0.) tensor(0.) 0.0 0.0
4.2577595710754395 tensor(0.) tensor(0.) 0.0 0.0
4.17677116394043 tensor(0.) tensor(0.) 0.0 0.0
4.123991012573242 tensor(0.) tensor(0.) 0.0 0.0
4.041924476623535 tensor(0.) tensor(0.) 0.0 0.0
4.227849960327148 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.3664:   9%|█▌               | 47/500 [00:01<00:07, 59.76batch/s]

4.258683204650879 tensor(0.) tensor(0.) 0.0 0.0
4.39187479019165 tensor(0.) tensor(0.) 0.0 0.0
4.19532585144043 tensor(0.) tensor(0.) 0.0 0.0
4.398177623748779 tensor(0.) tensor(0.) 0.0 0.0
4.2091169357299805 tensor(0.) tensor(0.) 0.0 0.0
4.222149848937988 tensor(0.) tensor(0.) 0.0 0.0
4.109314918518066 tensor(0.) tensor(0.) 0.0 0.0
4.203673839569092 tensor(0.) tensor(0.) 0.0 0.0
4.180821418762207 tensor(0.) tensor(0.) 0.0 0.0
4.070396900177002 tensor(0.) tensor(0.) 0.0 0.0
4.152388572692871 tensor(0.) tensor(0.) 0.0 0.0
4.1043381690979 tensor(0.) tensor(0.) 0.0 0.0
4.3385233879089355 tensor(0.) tensor(0.) 0.0 0.0
4.316004276275635 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.2920:  13%|██▏              | 63/500 [00:01<00:06, 66.02batch/s]

4.189084053039551 tensor(0.) tensor(0.) 0.0 0.0
4.003690719604492 tensor(0.) tensor(0.) 0.0 0.0
4.172494411468506 tensor(0.) tensor(0.) 0.0 0.0
4.200746059417725 tensor(0.) tensor(0.) 0.0 0.0
4.065985679626465 tensor(0.) tensor(0.) 0.0 0.0
3.8630058765411377 tensor(0.) tensor(0.) 0.0 0.0
3.9530153274536133 tensor(0.) tensor(0.) 0.0 0.0
4.132357120513916 tensor(0.) tensor(0.) 0.0 0.0
3.9545202255249023 tensor(0.) tensor(0.) 0.0 0.0
4.095644950866699 tensor(0.) tensor(0.) 0.0 0.0
3.855936288833618 tensor(0.) tensor(0.) 0.0 0.0
3.958421230316162 tensor(0.) tensor(0.) 0.0 0.0
3.9331164360046387 tensor(0.) tensor(0.) 0.0 0.0
3.9877424240112305 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.2405:  14%|██▍              | 70/500 [00:01<00:06, 64.38batch/s]

3.9537923336029053 tensor(0.) tensor(0.) 0.0 0.0
3.900677442550659 tensor(0.) tensor(0.) 0.0 0.0
4.19586181640625 tensor(0.) tensor(0.) 0.0 0.0
3.772296667098999 tensor(0.) tensor(0.) 0.0 0.0
3.8388681411743164 tensor(0.) tensor(0.) 0.0 0.0
4.252866744995117 tensor(0.) tensor(0.) 0.0 0.0
4.107941150665283 tensor(0.) tensor(0.) 0.0 0.0
4.085262775421143 tensor(0.) tensor(0.) 0.0 0.0
3.991543769836426 tensor(0.) tensor(0.) 0.0 0.0
3.836535692214966 tensor(0.) tensor(0.) 0.0 0.0
3.9888458251953125 tensor(0.) tensor(0.) 0.0 0.0
3.8659064769744873 tensor(0.) tensor(0.) 0.0 0.0
4.041043758392334 tensor(0.) tensor(0.) 0.0 0.0
3.8202741146087646 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.1863:  17%|██▉              | 85/500 [00:01<00:06, 65.00batch/s]

4.073695182800293 tensor(0.) tensor(0.) 0.0 0.0
3.8904364109039307 tensor(0.) tensor(0.) 0.0 0.0
3.8628640174865723 tensor(0.) tensor(0.) 0.0 0.0
4.191939830780029 tensor(0.) tensor(0.) 0.0 0.0
3.8577828407287598 tensor(0.) tensor(0.) 0.0 0.0
3.643359899520874 tensor(0.) tensor(0.) 0.0 0.0
3.7808542251586914 tensor(0.) tensor(0.) 0.0 0.0
4.190816879272461 tensor(0.) tensor(0.) 0.0 0.0
3.825881242752075 tensor(0.) tensor(0.) 0.0 0.0
3.7557320594787598 tensor(0.) tensor(0.) 0.0 0.0
4.086030960083008 tensor(0.) tensor(0.) 0.0 0.0
3.662576198577881 tensor(0.) tensor(0.) 0.0 0.0
3.9622678756713867 tensor(0.) tensor(0.) 0.0 0.0
4.0140886306762695 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.1289:  20%|███▏            | 101/500 [00:01<00:05, 69.15batch/s]

3.743243455886841 tensor(0.) tensor(0.) 0.0 0.0
3.833807945251465 tensor(0.) tensor(0.) 0.0 0.0
3.8080902099609375 tensor(0.) tensor(0.) 0.0 0.0
3.6595396995544434 tensor(0.) tensor(0.) 0.0 0.0
3.753013849258423 tensor(0.) tensor(0.) 0.0 0.0
3.946840763092041 tensor(0.) tensor(0.) 0.0 0.0
3.6713101863861084 tensor(0.) tensor(0.) 0.0 0.0
3.622636079788208 tensor(0.) tensor(0.) 0.0 0.0
3.794909715652466 tensor(0.) tensor(0.) 0.0 0.0
3.81674861907959 tensor(0.) tensor(0.) 0.0 0.0
3.848583698272705 tensor(0.) tensor(0.) 0.0 0.0
3.8997058868408203 tensor(0.) tensor(0.) 0.0 0.0
3.5930416584014893 tensor(0.) tensor(0.) 0.0 0.0
3.890836715698242 tensor(0.) tensor(0.) 0.0 0.0
3.771132230758667 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.0977:  23%|███▋            | 116/500 [00:02<00:05, 68.49batch/s]

3.888805866241455 tensor(0.) tensor(0.) 0.0 0.0
3.903164863586426 tensor(0.) tensor(0.) 0.0 0.0
3.6163408756256104 tensor(0.) tensor(0.) 0.0 0.0
3.825716257095337 tensor(0.) tensor(0.) 0.0 0.0
3.8130972385406494 tensor(0.) tensor(0.) 0.0 0.0
3.750703811645508 tensor(0.) tensor(0.) 0.0 0.0
4.088270664215088 tensor(0.) tensor(0.) 0.0 0.0
3.7068612575531006 tensor(0.) tensor(0.) 0.0 0.0
3.7997686862945557 tensor(0.) tensor(0.) 0.0 0.0
4.018465995788574 tensor(0.) tensor(0.) 0.0 0.0
3.9650521278381348 tensor(0.) tensor(0.) 0.0 0.0
3.8087034225463867 tensor(0.) tensor(0.) 0.0 0.0
3.9637134075164795 tensor(0.) tensor(0.) 0.0 0.0
3.88285756111145 tensor(0.) tensor(0.) 0.0 0.0
3.737149715423584 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.0631:  26%|████▏           | 132/500 [00:02<00:05, 69.91batch/s]

3.9134535789489746 tensor(0.) tensor(0.) 0.0 0.0
3.9659743309020996 tensor(0.) tensor(0.) 0.0 0.0
3.8792550563812256 tensor(0.) tensor(0.) 0.0 0.0
4.019489765167236 tensor(0.) tensor(0.) 0.0 0.0
3.834045171737671 tensor(0.) tensor(0.) 0.0 0.0
3.654512643814087 tensor(0.) tensor(0.) 0.0 0.0
3.9966444969177246 tensor(0.) tensor(0.) 0.0 0.0
3.576594352722168 tensor(0.) tensor(0.) 0.0 0.0
3.7709906101226807 tensor(0.) tensor(0.) 0.0 0.0
3.7354791164398193 tensor(0.) tensor(0.) 0.0 0.0
3.7524173259735107 tensor(0.) tensor(0.) 0.0 0.0
3.7314674854278564 tensor(0.) tensor(0.) 0.0 0.0
3.774540901184082 tensor(0.) tensor(0.) 0.0 0.0
3.601071834564209 tensor(0.) tensor(0.) 0.0 0.0
3.88108491897583 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.0308:  30%|████▋           | 148/500 [00:02<00:04, 70.56batch/s]

3.710627794265747 tensor(0.) tensor(0.) 0.0 0.0
3.890733242034912 tensor(0.) tensor(0.) 0.0 0.0
3.4862780570983887 tensor(0.) tensor(0.) 0.0 0.0
3.686861276626587 tensor(0.) tensor(0.) 0.0 0.0
3.635488510131836 tensor(0.) tensor(0.) 0.0 0.0
3.661320209503174 tensor(0.) tensor(0.) 0.0 0.0
3.843066692352295 tensor(0.) tensor(0.) 0.0 0.0
3.7277894020080566 tensor(0.) tensor(0.) 0.0 0.0
3.5085806846618652 tensor(0.) tensor(0.) 0.0 0.0
4.148180961608887 tensor(0.) tensor(0.) 0.0 0.0
3.6959497928619385 tensor(0.) tensor(0.) 0.0 0.0
3.6642026901245117 tensor(0.) tensor(0.) 0.0 0.0
3.6342856884002686 tensor(0.) tensor(0.) 0.0 0.0
3.7140045166015625 tensor(0.) tensor(0.) 0.0 0.0
3.859340190887451 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.0061:  33%|█████▏          | 164/500 [00:02<00:04, 70.32batch/s]

3.5459301471710205 tensor(0.) tensor(0.) 0.0 0.0
3.7348458766937256 tensor(0.) tensor(0.) 0.0 0.0
3.7644896507263184 tensor(0.) tensor(0.) 0.0 0.0
3.75645112991333 tensor(0.) tensor(0.) 0.0 0.0
3.7551629543304443 tensor(0.) tensor(0.) 0.0 0.0
3.6379623413085938 tensor(0.) tensor(0.) 0.0 0.0
3.7749242782592773 tensor(0.) tensor(0.) 0.0 0.0
3.7051379680633545 tensor(0.) tensor(0.) 0.0 0.0
3.5952999591827393 tensor(0.) tensor(0.) 0.0 0.0
3.710054397583008 tensor(0.) tensor(0.) 0.0 0.0
3.935316562652588 tensor(0.) tensor(0.) 0.0 0.0
4.080866813659668 tensor(0.) tensor(0.) 0.0 0.0
3.712500810623169 tensor(0.) tensor(0.) 0.0 0.0
3.789121389389038 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.9742:  36%|█████▊          | 180/500 [00:02<00:04, 70.73batch/s]

3.6683602333068848 tensor(0.) tensor(0.) 0.0 0.0
3.6052980422973633 tensor(0.) tensor(0.) 0.0 0.0
3.694871425628662 tensor(0.) tensor(0.) 0.0 0.0
3.5589237213134766 tensor(0.) tensor(0.) 0.0 0.0
3.5977771282196045 tensor(0.) tensor(0.) 0.0 0.0
3.5877649784088135 tensor(0.) tensor(0.) 0.0 0.0
3.633380174636841 tensor(0.) tensor(0.) 0.0 0.0
3.545482873916626 tensor(0.) tensor(0.) 0.0 0.0
3.5223705768585205 tensor(0.) tensor(0.) 0.0 0.0
3.4733028411865234 tensor(0.) tensor(0.) 0.0 0.0
3.9306371212005615 tensor(0.) tensor(0.) 0.0 0.0
3.5849719047546387 tensor(0.) tensor(0.) 0.0 0.0
3.3605425357818604 tensor(0.) tensor(0.) 0.0 0.0
3.5850820541381836 tensor(0.) tensor(0.) 0.0 0.0
3.656503200531006 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.9501:  38%|██████          | 188/500 [00:03<00:04, 67.21batch/s]

3.6572649478912354 tensor(0.) tensor(0.) 0.0 0.0
3.6013500690460205 tensor(0.) tensor(0.) 0.0 0.0
3.6448121070861816 tensor(0.) tensor(0.) 0.0 0.0
3.5209593772888184 tensor(0.) tensor(0.) 0.0 0.0
3.8174920082092285 tensor(0.) tensor(0.) 0.0 0.0
3.519118547439575 tensor(0.) tensor(0.) 0.0 0.0
3.7414934635162354 tensor(0.) tensor(0.) 0.0 0.0
3.7300052642822266 tensor(0.) tensor(0.) 0.0 0.0
3.6657721996307373 tensor(0.) tensor(0.) 0.0 0.0
3.585582971572876 tensor(0.) tensor(0.) 0.0 0.0
3.664700508117676 tensor(0.) tensor(0.) 0.0 0.0
3.51882266998291 tensor(0.) tensor(0.) 0.0 0.0
3.632338047027588 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.9246:  41%|██████▍         | 203/500 [00:03<00:04, 68.23batch/s]

3.8824498653411865 tensor(0.) tensor(0.) 0.0 0.0
3.5317013263702393 tensor(0.) tensor(0.) 0.0 0.0
3.522258996963501 tensor(0.) tensor(0.) 0.0 0.0
3.3942530155181885 tensor(0.) tensor(0.) 0.0 0.0
3.6309750080108643 tensor(0.) tensor(0.) 0.0 0.0
3.2877254486083984 tensor(0.) tensor(0.) 0.0 0.0
3.6642816066741943 tensor(0.) tensor(0.) 0.0 0.0
3.749558925628662 tensor(0.) tensor(0.) 0.0 0.0
3.44984769821167 tensor(0.) tensor(0.) 0.0 0.0
3.628091335296631 tensor(0.) tensor(0.) 0.0 0.0
3.592470645904541 tensor(0.) tensor(0.) 0.0 0.0
3.3904802799224854 tensor(0.) tensor(0.) 0.0 0.0
3.4997925758361816 tensor(0.) tensor(0.) 0.0 0.0
3.7795538902282715 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.8989:  43%|██████▉         | 217/500 [00:03<00:04, 64.53batch/s]

3.799379348754883 tensor(0.) tensor(0.) 0.0 0.0
3.3626515865325928 tensor(0.) tensor(0.) 0.0 0.0
3.367809534072876 tensor(0.) tensor(0.) 0.0 0.0
3.5455322265625 tensor(0.) tensor(0.) 0.0 0.0
3.697882652282715 tensor(0.) tensor(0.) 0.0 0.0
3.384828805923462 tensor(0.) tensor(0.) 0.0 0.0
3.5434060096740723 tensor(0.) tensor(0.) 0.0 0.0
3.4570679664611816 tensor(0.) tensor(0.) 0.0 0.0
3.600534439086914 tensor(0.) tensor(0.) 0.0 0.0
3.5097200870513916 tensor(0.) tensor(0.) 0.0 0.0
3.296309471130371 tensor(0.) tensor(0.) 0.0 0.0
3.2725894451141357 tensor(0.) tensor(0.) 0.0 0.0
3.501835346221924 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.8776:  46%|███████▍        | 231/500 [00:03<00:04, 60.96batch/s]

3.392892360687256 tensor(0.) tensor(0.) 0.0 0.0
3.5541982650756836 tensor(0.) tensor(0.) 0.0 0.0
3.3677120208740234 tensor(0.) tensor(0.) 0.0 0.0
3.351735830307007 tensor(0.) tensor(0.) 0.0 0.0
3.460766553878784 tensor(0.) tensor(0.) 0.0 0.0
3.6049017906188965 tensor(0.) tensor(0.) 0.0 0.0
3.595789909362793 tensor(0.) tensor(0.) 0.0 0.0
3.473518133163452 tensor(0.) tensor(0.) 0.0 0.0
3.4596991539001465 tensor(0.) tensor(0.) 0.0 0.0
3.3432672023773193 tensor(0.) tensor(0.) 0.0 0.0
3.3381683826446533 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.8615:  48%|███████▌        | 238/500 [00:03<00:04, 60.86batch/s]

3.4688382148742676 tensor(0.) tensor(0.) 0.0 0.0
3.556361675262451 tensor(0.) tensor(0.) 0.0 0.0
3.5687332153320312 tensor(0.) tensor(0.) 0.0 0.0
3.3830108642578125 tensor(0.) tensor(0.) 0.0 0.0
3.5836334228515625 tensor(0.) tensor(0.) 0.0 0.0
3.5216798782348633 tensor(0.) tensor(0.) 0.0 0.0
3.6123547554016113 tensor(0.) tensor(0.) 0.0 0.0
3.6045117378234863 tensor(0.) tensor(0.) 0.0 0.0
3.5123162269592285 tensor(0.) tensor(0.) 0.0 0.0
3.7756195068359375 tensor(0.) tensor(0.) 0.0 0.0
3.531553268432617 tensor(0.) tensor(0.) 0.0 0.0
3.486447811126709 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.8409:  50%|████████        | 252/500 [00:04<00:04, 61.60batch/s]

3.7287757396698 tensor(0.) tensor(0.) 0.0 0.0
3.5600011348724365 tensor(0.) tensor(0.) 0.0 0.0
3.214669704437256 tensor(0.) tensor(0.) 0.0 0.0
3.431767225265503 tensor(0.) tensor(0.) 0.0 0.0
3.440040349960327 tensor(0.) tensor(0.) 0.0 0.0
3.734124183654785 tensor(0.) tensor(0.) 0.0 0.0
3.488675594329834 tensor(0.) tensor(0.) 0.0 0.0
3.351966142654419 tensor(0.) tensor(0.) 0.0 0.0
3.35417103767395 tensor(0.) tensor(0.) 0.0 0.0
3.43695068359375 tensor(0.) tensor(0.) 0.0 0.0
3.4174365997314453 tensor(0.) tensor(0.) 0.0 0.0
3.5220232009887695 tensor(0.) tensor(0.) 0.0 0.0
3.5445635318756104 tensor(0.) tensor(0.) 0.0 0.0
3.5202817916870117 tensor(0.) tensor(0.) 0.0 0.0
3.6212902069091797 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.8245:  53%|████████▌       | 267/500 [00:04<00:03, 61.68batch/s]

3.4988021850585938 tensor(0.) tensor(0.) 0.0 0.0
3.461254358291626 tensor(0.) tensor(0.) 0.0 0.0
3.5379528999328613 tensor(0.) tensor(0.) 0.0 0.0
3.263709783554077 tensor(0.) tensor(0.) 0.0 0.0
3.317190647125244 tensor(0.) tensor(0.) 0.0 0.0
3.6819705963134766 tensor(0.) tensor(0.) 0.0 0.0
2.974534034729004 tensor(0.) tensor(0.) 0.0 0.0
3.440028667449951 tensor(0.) tensor(0.) 0.0 0.0
3.7704970836639404 tensor(0.) tensor(0.) 0.0 0.0
3.545659065246582 tensor(0.) tensor(0.) 0.0 0.0
3.546175479888916 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.8048:  56%|████████▉       | 281/500 [00:04<00:03, 60.27batch/s]

3.4824509620666504 tensor(0.) tensor(0.) 0.0 0.0
3.651582717895508 tensor(0.) tensor(0.) 0.0 0.0
3.312540292739868 tensor(0.) tensor(0.) 0.0 0.0
3.612846612930298 tensor(0.) tensor(0.) 0.0 0.0
3.316261053085327 tensor(0.) tensor(0.) 0.0 0.0
3.2404675483703613 tensor(0.) tensor(0.) 0.0 0.0
3.35935115814209 tensor(0.) tensor(0.) 0.0 0.0
3.358304023742676 tensor(0.) tensor(0.) 0.0 0.0
3.461888074874878 tensor(0.) tensor(0.) 0.0 0.0
3.255403757095337 tensor(0.) tensor(0.) 0.0 0.0
3.3579955101013184 tensor(0.) tensor(0.) 0.0 0.0
3.4649693965911865 tensor(0.) tensor(0.) 0.0 0.0
3.268453598022461 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.7903:  59%|█████████▍      | 295/500 [00:04<00:03, 62.98batch/s]

3.7936484813690186 tensor(0.) tensor(0.) 0.0 0.0
3.3446226119995117 tensor(0.) tensor(0.) 0.0 0.0
3.524200677871704 tensor(0.) tensor(0.) 0.0 0.0
3.3137295246124268 tensor(0.) tensor(0.) 0.0 0.0
3.313971519470215 tensor(0.) tensor(0.) 0.0 0.0
3.4329521656036377 tensor(0.) tensor(0.) 0.0 0.0
3.620889902114868 tensor(0.) tensor(0.) 0.0 0.0
3.621408462524414 tensor(0.) tensor(0.) 0.0 0.0
3.640500783920288 tensor(0.) tensor(0.) 0.0 0.0
3.473862886428833 tensor(0.) tensor(0.) 0.0 0.0
3.399649143218994 tensor(0.) tensor(0.) 0.0 0.0
3.41501522064209 tensor(0.) tensor(0.) 0.0 0.0
3.274984836578369 tensor(0.) tensor(0.) 0.0 0.0
3.2362072467803955 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.7667:  62%|█████████▉      | 311/500 [00:05<00:02, 67.21batch/s]

3.147052049636841 tensor(0.) tensor(0.) 0.0 0.0
3.222353458404541 tensor(0.) tensor(0.) 0.0 0.0
3.628006935119629 tensor(0.) tensor(0.) 0.0 0.0
3.5039827823638916 tensor(0.) tensor(0.) 0.0 0.0
3.1737380027770996 tensor(0.) tensor(0.) 0.0 0.0
3.206817388534546 tensor(0.) tensor(0.) 0.0 0.0
3.2232611179351807 tensor(0.) tensor(0.) 0.0 0.0
3.547243118286133 tensor(0.) tensor(0.) 0.0 0.0
3.475933790206909 tensor(0.) tensor(0.) 0.0 0.0
3.0560452938079834 tensor(0.) tensor(0.) 0.0 0.0
3.3101348876953125 tensor(0.) tensor(0.) 0.0 0.0
3.228919744491577 tensor(0.) tensor(0.) 0.0 0.0
3.19423246383667 tensor(0.) tensor(0.) 0.0 0.0
3.356621503829956 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.7504:  64%|██████████▏     | 319/500 [00:05<00:02, 68.76batch/s]

3.508260488510132 tensor(0.) tensor(0.) 0.0 0.0
3.3781604766845703 tensor(0.) tensor(0.) 0.0 0.0
3.1932168006896973 tensor(0.) tensor(0.) 0.0 0.0
3.5867650508880615 tensor(0.) tensor(0.) 0.0 0.0
3.405918598175049 tensor(0.) tensor(0.) 0.0 0.0
3.452097177505493 tensor(0.) tensor(0.) 0.0 0.0
3.3006792068481445 tensor(0.) tensor(0.) 0.0 0.0
3.512244462966919 tensor(0.) tensor(0.) 0.0 0.0
3.5637047290802 tensor(0.) tensor(0.) 0.0 0.0
3.2788031101226807 tensor(0.) tensor(0.) 0.0 0.0
3.285809278488159 tensor(0.) tensor(0.) 0.0 0.0
3.089357614517212 tensor(0.) tensor(0.) 0.0 0.0
3.131460666656494 tensor(0.) tensor(0.) 0.0 0.0
3.2711641788482666 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.7277:  67%|██████████▋     | 334/500 [00:05<00:02, 66.08batch/s]

3.426774024963379 tensor(0.) tensor(0.) 0.0 0.0
3.260319709777832 tensor(0.) tensor(0.) 0.0 0.0
3.313098669052124 tensor(0.) tensor(0.) 0.0 0.0
3.107889175415039 tensor(0.) tensor(0.) 0.0 0.0
3.2567224502563477 tensor(0.) tensor(0.) 0.0 0.0
3.1555728912353516 tensor(0.) tensor(0.) 0.0 0.0
3.4043469429016113 tensor(0.) tensor(0.) 0.0 0.0
3.19667387008667 tensor(0.) tensor(0.) 0.0 0.0
3.1860549449920654 tensor(0.) tensor(0.) 0.0 0.0
3.0827131271362305 tensor(0.) tensor(0.) 0.0 0.0
3.1325337886810303 tensor(0.) tensor(0.) 0.0 0.0
3.513953447341919 tensor(0.) tensor(0.) 0.0 0.0
3.14359974861145 tensor(0.) tensor(0.) 0.0 0.0
3.1068854331970215 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.7073:  70%|███████████▏    | 348/500 [00:05<00:02, 66.58batch/s]

3.1309497356414795 tensor(0.) tensor(0.) 0.0 0.0
3.198046922683716 tensor(0.) tensor(0.) 0.0 0.0
3.600663185119629 tensor(0.) tensor(0.) 0.0 0.0
3.3805716037750244 tensor(0.) tensor(0.) 0.0 0.0
2.9310142993927 tensor(0.) tensor(0.) 0.0 0.0
3.1059131622314453 tensor(0.) tensor(0.) 0.0 0.0
3.104323148727417 tensor(0.) tensor(0.) 0.0 0.0
3.3108248710632324 tensor(0.) tensor(0.) 0.0 0.0
3.0586304664611816 tensor(0.) tensor(0.) 0.0 0.0
3.082796335220337 tensor(0.) tensor(0.) 0.0 0.0
3.3116672039031982 tensor(0.) tensor(0.) 0.0 0.0
3.3207430839538574 tensor(0.) tensor(0.) 0.0 0.0
3.323669195175171 tensor(0.) tensor(0.) 0.0 0.0
3.1271169185638428 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.6900:  72%|███████████▌    | 362/500 [00:05<00:02, 65.80batch/s]

3.1347036361694336 tensor(0.) tensor(0.) 0.0 0.0
3.2019731998443604 tensor(0.) tensor(0.) 0.0 0.0
3.466191291809082 tensor(0.) tensor(0.) 0.0 0.0
3.476655960083008 tensor(0.) tensor(0.) 0.0 0.0
3.3426897525787354 tensor(0.) tensor(0.) 0.0 0.0
3.4274728298187256 tensor(0.) tensor(0.) 0.0 0.0
3.109246015548706 tensor(0.) tensor(0.) 0.0 0.0
3.166929244995117 tensor(0.) tensor(0.) 0.0 0.0
3.3371613025665283 tensor(0.) tensor(0.) 0.0 0.0
3.150388479232788 tensor(0.) tensor(0.) 0.0 0.0
3.2995641231536865 tensor(0.) tensor(0.) 0.0 0.0
3.26851224899292 tensor(0.) tensor(0.) 0.0 0.0
2.996936082839966 tensor(0.) tensor(0.) 0.0 0.0
3.198301315307617 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.6708:  76%|████████████    | 378/500 [00:06<00:01, 69.61batch/s]

3.2111456394195557 tensor(0.) tensor(0.) 0.0 0.0
3.1518430709838867 tensor(0.) tensor(0.) 0.0 0.0
3.420119524002075 tensor(0.) tensor(0.) 0.0 0.0
3.228511333465576 tensor(0.) tensor(0.) 0.0 0.0
3.3609442710876465 tensor(0.) tensor(0.) 0.0 0.0
3.2598090171813965 tensor(0.) tensor(0.) 0.0 0.0
3.271071434020996 tensor(0.) tensor(0.) 0.0 0.0
3.27871036529541 tensor(0.) tensor(0.) 0.0 0.0
3.341094970703125 tensor(0.) tensor(0.) 0.0 0.0
3.0146002769470215 tensor(0.) tensor(0.) 0.0 0.0
3.093559980392456 tensor(0.) tensor(0.) 0.0 0.0
3.1446738243103027 tensor(0.) tensor(0.) 0.0 0.0
2.99788761138916 tensor(0.) tensor(0.) 0.0 0.0
3.307319402694702 tensor(0.) tensor(0.) 0.0 0.0
2.928121328353882 tensor(0.) tensor(0.) 0.0 0.0
3.2237579822540283 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.6540:  79%|████████████▌   | 394/500 [00:06<00:01, 71.09batch/s]

3.2697973251342773 tensor(0.) tensor(0.) 0.0 0.0
3.201228141784668 tensor(0.) tensor(0.) 0.0 0.0
3.328749418258667 tensor(0.) tensor(0.) 0.0 0.0
3.0801632404327393 tensor(0.) tensor(0.) 0.0 0.0
3.0552146434783936 tensor(0.) tensor(0.) 0.0 0.0
3.2554314136505127 tensor(0.) tensor(0.) 0.0 0.0
3.378636360168457 tensor(0.) tensor(0.) 0.0 0.0
3.211557626724243 tensor(0.) tensor(0.) 0.0 0.0
3.217312812805176 tensor(0.) tensor(0.) 0.0 0.0
3.3372137546539307 tensor(0.) tensor(0.) 0.0 0.0
3.258652687072754 tensor(0.) tensor(0.) 0.0 0.0
3.2448554039001465 tensor(0.) tensor(0.) 0.0 0.0
3.1621439456939697 tensor(0.) tensor(0.) 0.0 0.0
3.1462087631225586 tensor(0.) tensor(0.) 0.0 0.0
2.893350601196289 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.6349:  82%|█████████████   | 410/500 [00:06<00:01, 69.81batch/s]

3.2561914920806885 tensor(0.) tensor(0.) 0.0 0.0
3.447197675704956 tensor(0.) tensor(0.) 0.0 0.0
3.0381243228912354 tensor(0.) tensor(0.) 0.0 0.0
2.742945909500122 tensor(0.) tensor(0.) 0.0 0.0
3.1670029163360596 tensor(0.) tensor(0.) 0.0 0.0
3.3834478855133057 tensor(0.) tensor(0.) 0.0 0.0
3.4704647064208984 tensor(0.) tensor(0.) 0.0 0.0
3.132401943206787 tensor(0.) tensor(0.) 0.0 0.0
3.082657814025879 tensor(0.) tensor(0.) 0.0 0.0
3.164834976196289 tensor(0.) tensor(0.) 0.0 0.0
3.0132815837860107 tensor(0.) tensor(0.) 0.0 0.0
2.8590662479400635 tensor(0.) tensor(0.) 0.0 0.0
3.0936126708984375 tensor(0.) tensor(0.) 0.0 0.0
3.223902702331543 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.6202:  85%|█████████████▌  | 424/500 [00:06<00:01, 68.65batch/s]

3.5580639839172363 tensor(0.) tensor(0.) 0.0 0.0
3.310959577560425 tensor(0.) tensor(0.) 0.0 0.0
3.304039239883423 tensor(0.) tensor(0.) 0.0 0.0
3.069988965988159 tensor(0.) tensor(0.) 0.0 0.0
3.2148375511169434 tensor(0.) tensor(0.) 0.0 0.0
2.9777743816375732 tensor(0.) tensor(0.) 0.0 0.0
3.1971077919006348 tensor(0.) tensor(0.) 0.0 0.0
2.9671409130096436 tensor(0.) tensor(0.) 0.0 0.0
3.1313462257385254 tensor(0.) tensor(0.) 0.0 0.0
3.222048759460449 tensor(0.) tensor(0.) 0.0 0.0
3.1319468021392822 tensor(0.) tensor(0.) 0.0 0.0
3.137345790863037 tensor(0.) tensor(0.) 0.0 0.0
3.061920404434204 tensor(0.) tensor(0.) 0.0 0.0
3.332923650741577 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.6056:  88%|██████████████  | 438/500 [00:06<00:00, 67.20batch/s]

3.284187078475952 tensor(0.) tensor(0.) 0.0 0.0
3.0692925453186035 tensor(0.) tensor(0.) 0.0 0.0
3.1077868938446045 tensor(0.) tensor(0.) 0.0 0.0
3.131958246231079 tensor(0.) tensor(0.) 0.0 0.0
2.835061550140381 tensor(0.) tensor(0.) 0.0 0.0
3.2488021850585938 tensor(0.) tensor(0.) 0.0 0.0
3.2298312187194824 tensor(0.) tensor(0.) 0.0 0.0
3.2335045337677 tensor(0.) tensor(0.) 0.0 0.0
3.0086002349853516 tensor(0.) tensor(0.) 0.0 0.0
3.3906807899475098 tensor(0.) tensor(0.) 0.0 0.0
3.1266372203826904 tensor(0.) tensor(0.) 0.0 0.0
3.0306756496429443 tensor(0.) tensor(0.) 0.0 0.0
3.217744827270508 tensor(0.) tensor(0.) 0.0 0.0
3.3412117958068848 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.5894:  91%|██████████████▍ | 453/500 [00:07<00:00, 66.11batch/s]

2.960190773010254 tensor(0.) tensor(0.) 0.0 0.0
3.0895798206329346 tensor(0.) tensor(0.) 0.0 0.0
3.3680124282836914 tensor(0.) tensor(0.) 0.0 0.0
3.1115975379943848 tensor(0.) tensor(0.) 0.0 0.0
3.145692825317383 tensor(0.) tensor(0.) 0.0 0.0
2.8553361892700195 tensor(0.) tensor(0.) 0.0 0.0
3.3646347522735596 tensor(0.) tensor(0.) 0.0 0.0
3.1297976970672607 tensor(0.) tensor(0.) 0.0 0.0
2.886169195175171 tensor(0.) tensor(0.) 0.0 0.0
3.0409700870513916 tensor(0.) tensor(0.) 0.0 0.0
3.0018975734710693 tensor(0.) tensor(0.) 0.0 0.0
3.1963930130004883 tensor(0.) tensor(0.) 0.0 0.0
3.1374096870422363 tensor(0.) tensor(0.) 0.0 0.0
2.8484246730804443 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.5759:  93%|██████████████▉ | 467/500 [00:07<00:00, 62.98batch/s]

3.14088773727417 tensor(0.) tensor(0.) 0.0 0.0
3.266495704650879 tensor(0.) tensor(0.) 0.0 0.0
3.106508731842041 tensor(0.) tensor(0.) 0.0 0.0
3.1740567684173584 tensor(0.) tensor(0.) 0.0 0.0
3.094712495803833 tensor(0.) tensor(0.) 0.0 0.0
3.3762195110321045 tensor(0.) tensor(0.) 0.0 0.0
3.1916797161102295 tensor(0.) tensor(0.) 0.0 0.0
3.162893056869507 tensor(0.) tensor(0.) 0.0 0.0
2.8775391578674316 tensor(0.) tensor(0.) 0.0 0.0
3.1133687496185303 tensor(0.) tensor(0.) 0.0 0.0
2.8064260482788086 tensor(0.) tensor(0.) 0.0 0.0
2.978229284286499 tensor(0.) tensor(0.) 0.0 0.0
3.0682623386383057 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.5618:  95%|███████████████▏| 474/500 [00:07<00:00, 64.01batch/s]

3.183163642883301 tensor(0.) tensor(0.) 0.0 0.0
3.169797420501709 tensor(0.) tensor(0.) 0.0 0.0
3.127016544342041 tensor(0.) tensor(0.) 0.0 0.0
2.8720388412475586 tensor(0.) tensor(0.) 0.0 0.0
3.1432814598083496 tensor(0.) tensor(0.) 0.0 0.0
2.9336581230163574 tensor(0.) tensor(0.) 0.0 0.0
3.1030426025390625 tensor(0.) tensor(0.) 0.0 0.0
3.3911423683166504 tensor(0.) tensor(0.) 0.0 0.0
2.879152774810791 tensor(0.) tensor(0.) 0.0 0.0
3.213822603225708 tensor(0.) tensor(0.) 0.0 0.0
3.005354404449463 tensor(0.) tensor(0.) 0.0 0.0
3.00687313079834 tensor(0.) tensor(0.) 0.0 0.0
3.0395374298095703 tensor(0.) tensor(0.) 0.0 0.0
3.211932897567749 tensor(0.) tensor(0.) 0.0 0.0
3.4946517944335938 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.5475:  98%|███████████████▋| 490/500 [00:07<00:00, 67.71batch/s]

3.177215576171875 tensor(0.) tensor(0.) 0.0 0.0
3.0694642066955566 tensor(0.) tensor(0.) 0.0 0.0
3.0036399364471436 tensor(0.) tensor(0.) 0.0 0.0
2.9087815284729004 tensor(0.) tensor(0.) 0.0 0.0
2.9859726428985596 tensor(0.) tensor(0.) 0.0 0.0
2.728043794631958 tensor(0.) tensor(0.) 0.0 0.0
3.088991403579712 tensor(0.) tensor(0.) 0.0 0.0
2.9747214317321777 tensor(0.) tensor(0.) 0.0 0.0
3.307255744934082 tensor(0.) tensor(0.) 0.0 0.0
3.342560052871704 tensor(0.) tensor(0.) 0.0 0.0
3.1685590744018555 tensor(0.) tensor(0.) 0.0 0.0
3.1375234127044678 tensor(0.) tensor(0.) 0.0 0.0
3.2412359714508057 tensor(0.) tensor(0.) 0.0 0.0
3.1002321243286133 tensor(0.) tensor(0.) 0.0 0.0
3.144339084625244 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.5442: 100%|████████████████| 500/500 [00:07<00:00, 64.01batch/s]


2.9769058227539062 tensor(0.) tensor(0.) 0.0 0.0
3.2307517528533936 tensor(0.) tensor(0.) 0.0 0.0
2.797869920730591 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.6164:   1%|▏                 | 5/500 [00:00<00:10, 49.49batch/s]

4.611593723297119 tensor(0.) tensor(0.) 0.0 0.0
4.5641679763793945 tensor(0.) tensor(0.) 0.0 0.0
4.606040000915527 tensor(0.) tensor(0.) 0.0 0.0
4.728823661804199 tensor(0.) tensor(0.) 0.0 0.0
4.571156024932861 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.5889:   2%|▎                | 11/500 [00:00<00:09, 53.96batch/s]

4.624765396118164 tensor(0.) tensor(0.) 0.0 0.0
4.622426509857178 tensor(0.) tensor(0.) 0.0 0.0
4.564995288848877 tensor(0.) tensor(0.) 0.0 0.0
4.549672603607178 tensor(0.) tensor(0.) 0.0 0.0
4.5313215255737305 tensor(0.) tensor(0.) 0.0 0.0
4.545414924621582 tensor(0.) tensor(0.) 0.0 0.0
4.545842170715332 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.5660:   2%|▎                | 11/500 [00:00<00:09, 53.96batch/s]

4.593552112579346 tensor(0.) tensor(0.) 0.0 0.0
4.511465549468994 tensor(0.) tensor(0.) 0.0 0.0
4.5293989181518555 tensor(0.) tensor(0.) 0.0 0.0
4.492466449737549 tensor(0.) tensor(0.) 0.0 0.0
4.572262763977051 tensor(0.) tensor(0.) 0.0 0.0
4.421815872192383 tensor(0.) tensor(0.) 0.0 0.0
4.443170070648193 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.5340:   4%|▋                | 19/500 [00:00<00:07, 61.33batch/s]

4.515353202819824 tensor(0.) tensor(0.) 0.0 0.0
4.518986701965332 tensor(0.) tensor(0.) 0.0 0.0
4.40855598449707 tensor(0.) tensor(0.) 0.0 0.0
4.528456211090088 tensor(0.) tensor(0.) 0.0 0.0
4.480390548706055 tensor(0.) tensor(0.) 0.0 0.0
4.419333457946777 tensor(0.) tensor(0.) 0.0 0.0
4.382137298583984 tensor(0.) tensor(0.) 0.0 0.0
4.385085105895996 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.4891:   5%|▉                | 27/500 [00:00<00:07, 64.04batch/s]

4.278635501861572 tensor(0.) tensor(0.) 0.0 0.0
4.366838455200195 tensor(0.) tensor(0.) 0.0 0.0
4.411352634429932 tensor(0.) tensor(0.) 0.0 0.0
4.411654949188232 tensor(0.) tensor(0.) 0.0 0.0
4.2882232666015625 tensor(0.) tensor(0.) 0.0 0.0
4.367710590362549 tensor(0.) tensor(0.) 0.0 0.0
4.235250473022461 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.4545:   7%|█▏               | 35/500 [00:00<00:06, 66.47batch/s]

4.373441219329834 tensor(0.) tensor(0.) 0.0 0.0
4.323455810546875 tensor(0.) tensor(0.) 0.0 0.0
4.297652721405029 tensor(0.) tensor(0.) 0.0 0.0
4.374813556671143 tensor(0.) tensor(0.) 0.0 0.0
4.325626373291016 tensor(0.) tensor(0.) 0.0 0.0
4.120885372161865 tensor(0.) tensor(0.) 0.0 0.0
4.192093372344971 tensor(0.) tensor(0.) 0.0 0.0
4.259603023529053 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.4198:   9%|█▍               | 43/500 [00:00<00:06, 66.94batch/s]

4.143858432769775 tensor(0.) tensor(0.) 0.0 0.0
4.237932205200195 tensor(0.) tensor(0.) 0.0 0.0
4.19453239440918 tensor(0.) tensor(0.) 0.0 0.0
4.178330421447754 tensor(0.) tensor(0.) 0.0 0.0
4.203884124755859 tensor(0.) tensor(0.) 0.0 0.0
4.293805122375488 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.3739:  10%|█▋               | 51/500 [00:00<00:06, 67.97batch/s]

3.981532573699951 tensor(0.) tensor(0.) 0.0 0.0
4.297809600830078 tensor(0.) tensor(0.) 0.0 0.0
4.166061878204346 tensor(0.) tensor(0.) 0.0 0.0
4.058977127075195 tensor(0.) tensor(0.) 0.0 0.0
4.268240451812744 tensor(0.) tensor(0.) 0.0 0.0
4.1610107421875 tensor(0.) tensor(0.) 0.0 0.0
4.193598747253418 tensor(0.) tensor(0.) 0.0 0.0
4.005650997161865 tensor(0.) tensor(0.) 0.0 0.0
4.028772354125977 tensor(0.) tensor(0.) 0.0 0.0
4.288113594055176 tensor(0.) 

Epoch 0 Loss: 4.3510:  12%|██               | 59/500 [00:00<00:06, 70.14batch/s]

tensor(0.) 0.0 0.0
4.0085015296936035 tensor(0.) tensor(0.) 0.0 0.0
4.2191290855407715 tensor(0.) tensor(0.) 0.0 0.0
4.165450572967529 tensor(0.) tensor(0.) 0.0 0.0
4.174010753631592 tensor(0.) tensor(0.) 0.0 0.0
4.159408092498779 tensor(0.) tensor(0.) 0.0 0.0
4.136402606964111 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.3197:  13%|██▎              | 67/500 [00:01<00:06, 71.32batch/s]

4.060629844665527 tensor(0.) tensor(0.) 0.0 0.0
3.978878974914551 tensor(0.) tensor(0.) 0.0 0.0
4.264019012451172 tensor(0.) tensor(0.) 0.0 0.0
3.9467267990112305 tensor(0.) tensor(0.) 0.0 0.0
4.008229732513428 tensor(0.) tensor(0.) 0.0 0.0
4.173996448516846 tensor(0.) tensor(0.) 0.0 0.0
4.181786060333252 tensor(0.) tensor(0.) 0.0 0.0
3.9458467960357666 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.2966:  15%|██▌              | 75/500 [00:01<00:05, 71.43batch/s]

4.197039604187012 tensor(0.) tensor(0.) 0.0 0.0
3.9771034717559814 tensor(0.) tensor(0.) 0.0 0.0
3.984267473220825 tensor(0.) tensor(0.) 0.0 0.0
3.9332075119018555 tensor(0.) tensor(0.) 0.0 0.0
4.035411834716797 tensor(0.) tensor(0.) 0.0 0.0
3.985205888748169 tensor(0.) tensor(0.) 0.0 0.0
3.9203262329101562 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.2595:  17%|██▊              | 83/500 [00:01<00:05, 71.23batch/s]

3.911400079727173 tensor(0.) tensor(0.) 0.0 0.0
4.073093414306641 tensor(0.) tensor(0.) 0.0 0.0
4.02747917175293 tensor(0.) tensor(0.) 0.0 0.0
3.991544723510742 tensor(0.) tensor(0.) 0.0 0.0
3.6575870513916016 tensor(0.) tensor(0.) 0.0 0.0
3.825620412826538 tensor(0.) tensor(0.) 0.0 0.0
4.021401882171631 tensor(0.) tensor(0.) 0.0 0.0
4.011085033416748 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.2294:  18%|███              | 91/500 [00:01<00:05, 70.11batch/s]

3.878939628601074 tensor(0.) tensor(0.) 0.0 0.0
3.958211898803711 tensor(0.) tensor(0.) 0.0 0.0
3.82723331451416 tensor(0.) tensor(0.) 0.0 0.0
3.730961799621582 tensor(0.) tensor(0.) 0.0 0.0
3.796018123626709 tensor(0.) tensor(0.) 0.0 0.0
3.8574233055114746 tensor(0.) tensor(0.) 0.0 0.0
3.9377310276031494 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.2039:  20%|███▎             | 99/500 [00:01<00:05, 70.67batch/s]

3.971808671951294 tensor(0.) tensor(0.) 0.0 0.0
4.091616630554199 tensor(0.) tensor(0.) 0.0 0.0
3.9090518951416016 tensor(0.) tensor(0.) 0.0 0.0
3.8021106719970703 tensor(0.) tensor(0.) 0.0 0.0
3.960280418395996 tensor(0.) tensor(0.) 0.0 0.0
3.8844220638275146 tensor(0.) tensor(0.) 0.0 0.0
3.921663284301758 tensor(0.) tensor(0.) 0.0 0.0
3.6992881298065186 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.1909:  21%|███▍            | 107/500 [00:01<00:05, 70.75batch/s]

3.9247026443481445 tensor(0.) tensor(0.) 0.0 0.0
4.011847972869873 tensor(0.) tensor(0.) 0.0 0.0
3.847292423248291 tensor(0.) tensor(0.) 0.0 0.0
4.010499954223633 tensor(0.) tensor(0.) 0.0 0.0
3.9040777683258057 tensor(0.) tensor(0.) 0.0 0.0
4.1151227951049805 tensor(0.) tensor(0.) 0.0 0.0
3.8153586387634277 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.1672:  23%|███▋            | 115/500 [00:01<00:05, 69.43batch/s]

3.879373788833618 tensor(0.) tensor(0.) 0.0 0.0
3.985642433166504 tensor(0.) tensor(0.) 0.0 0.0
3.8349552154541016 tensor(0.) tensor(0.) 0.0 0.0
3.722046136856079 tensor(0.) tensor(0.) 0.0 0.0
3.6435458660125732 tensor(0.) tensor(0.) 0.0 0.0
3.9715704917907715 tensor(0.) tensor(0.) 0.0 0.0
3.9254467487335205 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.1488:  23%|███▋            | 115/500 [00:01<00:05, 69.43batch/s]

3.952925443649292 tensor(0.) tensor(0.) 0.0 0.0
3.6909658908843994 tensor(0.) tensor(0.) 0.0 0.0
3.6816797256469727 tensor(0.) tensor(0.) 0.0 0.0
3.755140781402588 tensor(0.) tensor(0.) 0.0 0.0
3.7007906436920166 tensor(0.) tensor(0.) 0.0 0.0
3.9786558151245117 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.1258:  26%|████▏           | 131/500 [00:01<00:05, 69.91batch/s]

3.9585399627685547 tensor(0.) tensor(0.) 0.0 0.0
3.618997573852539 tensor(0.) tensor(0.) 0.0 0.0
3.7140870094299316 tensor(0.) tensor(0.) 0.0 0.0
3.9360363483428955 tensor(0.) tensor(0.) 0.0 0.0
3.8004698753356934 tensor(0.) tensor(0.) 0.0 0.0
3.9876203536987305 tensor(0.) tensor(0.) 0.0 0.0
3.8079750537872314 tensor(0.) tensor(0.) 0.0 0.0
3.709749460220337 tensor(0.) tensor(0.) 0.0 0.0
3.7985079288482666 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.1093:  26%|████▏           | 131/500 [00:02<00:05, 69.91batch/s]

4.081006050109863 tensor(0.) tensor(0.) 0.0 0.0
3.8374555110931396 tensor(0.) tensor(0.) 0.0 0.0
3.5626380443573 tensor(0.) tensor(0.) 0.0 0.0
3.747699022293091 tensor(0.) tensor(0.) 0.0 0.0
3.768514633178711 tensor(0.) tensor(0.) 0.0 0.0
3.765296697616577 tensor(0.) tensor(0.) 0.0 0.0
3.83571720123291 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.0908:  28%|████▍           | 139/500 [00:02<00:05, 70.46batch/s]

3.6066582202911377 tensor(0.) tensor(0.) 0.0 0.0
3.882134437561035 tensor(0.) tensor(0.) 0.0 0.0
3.8836398124694824 tensor(0.) tensor(0.) 0.0 0.0
3.9104530811309814 tensor(0.) tensor(0.) 0.0 0.0
3.8128347396850586 tensor(0.) tensor(0.) 0.0 0.0
3.7363991737365723 tensor(0.) tensor(0.) 0.0 0.0
3.7762808799743652 tensor(0.) tensor(0.) 0.0 0.0
3.5665602684020996 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.0722:  29%|████▋           | 147/500 [00:02<00:04, 71.20batch/s]

3.7164971828460693 tensor(0.) tensor(0.) 0.0 0.0
3.8166704177856445 tensor(0.) tensor(0.) 0.0 0.0
3.7364003658294678 tensor(0.) tensor(0.) 0.0 0.0
3.772308349609375 tensor(0.) tensor(0.) 0.0 0.0
3.5554561614990234 tensor(0.) tensor(0.) 0.0 0.0
3.7998414039611816 tensor(0.) tensor(0.) 0.0 0.0
3.736051082611084 tensor(0.) tensor(0.) 0.0 0.0
3.733250617980957 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.0567:  31%|████▉           | 155/500 [00:02<00:04, 73.02batch/s]

3.6718695163726807 tensor(0.) tensor(0.) 0.0 0.0
3.880082607269287 tensor(0.) tensor(0.) 0.0 0.0
3.720184326171875 tensor(0.) tensor(0.) 0.0 0.0
3.7521121501922607 tensor(0.) tensor(0.) 0.0 0.0
3.784909248352051 tensor(0.) tensor(0.) 0.0 0.0
3.8341660499572754 tensor(0.) tensor(0.) 0.0 0.0
3.69191312789917 tensor(0.) tensor(0.) 0.0 0.0
3.7346384525299072 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.0405:  33%|█████▏          | 163/500 [00:02<00:04, 70.77batch/s]

3.6415598392486572 tensor(0.) tensor(0.) 0.0 0.0
3.5770342350006104 tensor(0.) tensor(0.) 0.0 0.0
3.6413991451263428 tensor(0.) tensor(0.) 0.0 0.0
3.620284080505371 tensor(0.) tensor(0.) 0.0 0.0
3.7378365993499756 tensor(0.) tensor(0.) 0.0 0.0
3.543178081512451 tensor(0.) tensor(0.) 0.0 0.0
3.8888137340545654 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.0236:  34%|█████▍          | 171/500 [00:02<00:04, 73.16batch/s]

3.603400468826294 tensor(0.) tensor(0.) 0.0 0.0
3.8643667697906494 tensor(0.) tensor(0.) 0.0 0.0
3.6501963138580322 tensor(0.) tensor(0.) 0.0 0.0
3.600161552429199 tensor(0.) tensor(0.) 0.0 0.0
3.4107837677001953 tensor(0.) tensor(0.) 0.0 0.0
3.7160117626190186 tensor(0.) tensor(0.) 0.0 0.0
3.467782974243164 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 4.0143:  36%|█████▋          | 179/500 [00:02<00:04, 67.51batch/s]

3.6211652755737305 tensor(0.) tensor(0.) 0.0 0.0
3.7494070529937744 tensor(0.) tensor(0.) 0.0 0.0
3.632969856262207 tensor(0.) tensor(0.) 0.0 0.0
3.7679712772369385 tensor(0.) tensor(0.) 0.0 0.0
3.8035264015197754 tensor(0.) tensor(0.) 0.0 0.0
3.876208782196045 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.9987:  37%|█████▉          | 186/500 [00:02<00:04, 66.86batch/s]

3.477504014968872 tensor(0.) tensor(0.) 0.0 0.0
3.858023166656494 tensor(0.) tensor(0.) 0.0 0.0
3.7081458568573 tensor(0.) tensor(0.) 0.0 0.0
3.7862765789031982 tensor(0.) tensor(0.) 0.0 0.0
3.5413818359375 tensor(0.) tensor(0.) 0.0 0.0
3.6154870986938477 tensor(0.) tensor(0.) 0.0 0.0
3.720102310180664 tensor(0.) tensor(0.) 0.0 0.0
3.433091402053833 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.9853:  39%|██████▏         | 193/500 [00:02<00:04, 67.11batch/s]

3.5088014602661133 tensor(0.) tensor(0.) 0.0 0.0
3.5442187786102295 tensor(0.) tensor(0.) 0.0 0.0
3.7547600269317627 tensor(0.) tensor(0.) 0.0 0.0
3.5923519134521484 tensor(0.) tensor(0.) 0.0 0.0
3.7346630096435547 tensor(0.) tensor(0.) 0.0 0.0
3.5708119869232178 tensor(0.) tensor(0.) 0.0 0.0
3.8478307723999023 tensor(0.) tensor(0.) 0.0 0.0
3.7907495498657227 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.9691:  40%|██████▍         | 201/500 [00:02<00:04, 69.91batch/s]

3.5570266246795654 tensor(0.) tensor(0.) 0.0 0.0
3.6532540321350098 tensor(0.) tensor(0.) 0.0 0.0
3.6872246265411377 tensor(0.) tensor(0.) 0.0 0.0
3.5229074954986572 tensor(0.) tensor(0.) 0.0 0.0
3.5440306663513184 tensor(0.) tensor(0.) 0.0 0.0
3.352705717086792 tensor(0.) tensor(0.) 0.0 0.0
3.654979944229126 tensor(0.) tensor(0.) 0.0 0.0
3.5749526023864746 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.9573:  42%|██████▋         | 209/500 [00:03<00:04, 70.84batch/s]

3.3891165256500244 tensor(0.) tensor(0.) 0.0 0.0
3.6411895751953125 tensor(0.) tensor(0.) 0.0 0.0
3.7128844261169434 tensor(0.) tensor(0.) 0.0 0.0
3.3688881397247314 tensor(0.) tensor(0.) 0.0 0.0
3.516535758972168 tensor(0.) tensor(0.) 0.0 0.0
3.6831047534942627 tensor(0.) tensor(0.) 0.0 0.0
3.4391868114471436 

Epoch 0 Loss: 3.9438:  43%|██████▉         | 217/500 [00:03<00:04, 69.01batch/s]

tensor(0.) tensor(0.) 0.0 0.0
3.6124227046966553 tensor(0.) tensor(0.) 0.0 0.0
3.873403549194336 tensor(0.) tensor(0.) 0.0 0.0
3.7043955326080322 tensor(0.) tensor(0.) 0.0 0.0
3.6168265342712402 tensor(0.) tensor(0.) 0.0 0.0
3.4083690643310547 tensor(0.) tensor(0.) 0.0 0.0
3.671992778778076 tensor(0.) tensor(0.) 0.0 0.0
3.3640518188476562 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.9360:  45%|███████▏        | 225/500 [00:03<00:04, 68.28batch/s]

3.637227773666382 tensor(0.) tensor(0.) 0.0 0.0
3.7411038875579834 tensor(0.) tensor(0.) 0.0 0.0
3.513339042663574 tensor(0.) tensor(0.) 0.0 0.0
3.6530990600585938 tensor(0.) tensor(0.) 0.0 0.0
3.732719659805298 tensor(0.) tensor(0.) 0.0 0.0
3.6273419857025146 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.9215:  47%|███████▍        | 233/500 [00:03<00:03, 69.11batch/s]

3.7431411743164062 tensor(0.) tensor(0.) 0.0 0.0
3.409980058670044 tensor(0.) tensor(0.) 0.0 0.0
3.6741178035736084 tensor(0.) tensor(0.) 0.0 0.0
3.4460723400115967 tensor(0.) tensor(0.) 0.0 0.0
3.4774580001831055 tensor(0.) tensor(0.) 0.0 0.0
3.5653088092803955 tensor(0.) tensor(0.) 0.0 0.0
3.5807149410247803 tensor(0.) tensor(0.) 0.0 0.0
3.6746175289154053 tensor(0.) tensor(0.) 0.0 0.0
3.441866874694824 tensor(0.) tensor(0.) 0.0 0.0
3.3944003582000732 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.9099:  48%|███████▋        | 241/500 [00:03<00:03, 71.23batch/s]

3.600623846054077 tensor(0.) tensor(0.) 0.0 0.0
3.6956398487091064 tensor(0.) tensor(0.) 0.0 0.0
3.2820327281951904 tensor(0.) tensor(0.) 0.0 0.0
3.790393590927124 tensor(0.) tensor(0.) 0.0 0.0
3.510366916656494 tensor(0.) tensor(0.) 0.0 0.0
3.369877815246582 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.8956:  50%|███████▉        | 249/500 [00:03<00:03, 72.17batch/s]

3.787635564804077 tensor(0.) tensor(0.) 0.0 0.0
3.4171500205993652 tensor(0.) tensor(0.) 0.0 0.0
3.2449300289154053 tensor(0.) tensor(0.) 0.0 0.0
3.7718749046325684 tensor(0.) tensor(0.) 0.0 0.0
3.396401882171631 tensor(0.) tensor(0.) 0.0 0.0
3.5269582271575928 tensor(0.) tensor(0.) 0.0 0.0
3.459528923034668 tensor(0.) tensor(0.) 0.0 0.0
3.6328508853912354 tensor(0.) tensor(0.) 0.0 0.0
3.610558271408081 tensor(0.) tensor(0.) 0.0 0.0
3.630934238433838 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.8871:  51%|████████▏       | 257/500 [00:03<00:03, 73.28batch/s]

3.548524856567383 tensor(0.) tensor(0.) 0.0 0.0
3.487762689590454 tensor(0.) tensor(0.) 0.0 0.0
3.8549695014953613 tensor(0.) tensor(0.) 0.0 0.0
3.5885119438171387 tensor(0.) tensor(0.) 0.0 0.0
3.4148366451263428 tensor(0.) tensor(0.) 0.0 0.0
3.286996841430664 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.8724:  53%|████████▍       | 265/500 [00:03<00:03, 74.10batch/s]

3.4778432846069336 tensor(0.) tensor(0.) 0.0 0.0
3.534788131713867 tensor(0.) tensor(0.) 0.0 0.0
3.556882619857788 tensor(0.) tensor(0.) 0.0 0.0
3.492173194885254 tensor(0.) tensor(0.) 0.0 0.0
3.5176384449005127 tensor(0.) tensor(0.) 0.0 0.0
3.7037999629974365 tensor(0.) tensor(0.) 0.0 0.0
3.688383102416992 tensor(0.) tensor(0.) 0.0 0.0
3.3358452320098877 tensor(0.) tensor(0.) 0.0 0.0
3.208772897720337 tensor(0.) tensor(0.) 0.0 0.0
3.4216768741607666 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.8654:  55%|████████▋       | 273/500 [00:03<00:03, 74.06batch/s]

3.5464117527008057 tensor(0.) tensor(0.) 0.0 0.0
3.540367364883423 tensor(0.) tensor(0.) 0.0 0.0
3.7148070335388184 tensor(0.) tensor(0.) 0.0 0.0
3.5781514644622803 tensor(0.) tensor(0.) 0.0 0.0
3.3639116287231445 tensor(0.) tensor(0.) 0.0 0.0
3.583465337753296 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.8546:  56%|████████▉       | 281/500 [00:04<00:03, 71.82batch/s]

3.4418632984161377 tensor(0.) tensor(0.) 0.0 0.0
3.506439208984375 tensor(0.) tensor(0.) 0.0 0.0
3.884749412536621 tensor(0.) tensor(0.) 0.0 0.0
3.684751510620117 tensor(0.) tensor(0.) 0.0 0.0
3.1675374507904053 tensor(0.) tensor(0.) 0.0 0.0
3.9651947021484375 tensor(0.) tensor(0.) 0.0 0.0
3.6603565216064453 tensor(0.) tensor(0.) 0.0 0.0
3.168391466140747 tensor(0.) tensor(0.) 0.0 0.0
3.256124496459961 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.8481:  56%|████████▉       | 281/500 [00:04<00:03, 71.82batch/s]

3.6598923206329346 tensor(0.) tensor(0.) 0.0 0.0
3.482419013977051 tensor(0.) tensor(0.) 0.0 0.0
3.2904961109161377 tensor(0.) tensor(0.) 0.0 0.0
3.5290355682373047 tensor(0.) tensor(0.) 0.0 0.0
3.4422261714935303 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.8362:  59%|█████████▌      | 297/500 [00:04<00:02, 71.84batch/s]

3.515225887298584 tensor(0.) tensor(0.) 0.0 0.0
3.4722321033477783 tensor(0.) tensor(0.) 0.0 0.0
3.651975393295288 tensor(0.) tensor(0.) 0.0 0.0
3.389705181121826 tensor(0.) tensor(0.) 0.0 0.0
3.5866241455078125 tensor(0.) tensor(0.) 0.0 0.0
3.3406035900115967 tensor(0.) tensor(0.) 0.0 0.0
3.4151673316955566 tensor(0.) tensor(0.) 0.0 0.0
3.4745802879333496 tensor(0.) tensor(0.) 0.0 0.0
3.696692705154419 tensor(0.) tensor(0.) 0.0 0.0
3.3676998615264893 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.8304:  59%|█████████▌      | 297/500 [00:04<00:02, 71.84batch/s]

3.4408621788024902 tensor(0.) tensor(0.) 0.0 0.0
3.3676116466522217 tensor(0.) tensor(0.) 0.0 0.0
3.534390926361084 tensor(0.) tensor(0.) 0.0 0.0
3.6271414756774902 tensor(0.) tensor(0.) 0.0 0.0
3.4610767364501953 tensor(0.) tensor(0.) 0.0 0.0
3.4147045612335205 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.8158:  63%|██████████      | 313/500 [00:04<00:02, 73.48batch/s]

3.2946078777313232 tensor(0.) tensor(0.) 0.0 0.0
3.3558502197265625 tensor(0.) tensor(0.) 0.0 0.0
3.3277666568756104 tensor(0.) tensor(0.) 0.0 0.0
3.281508207321167 tensor(0.) tensor(0.) 0.0 0.0
3.397960901260376 tensor(0.) tensor(0.) 0.0 0.0
3.5479984283447266 tensor(0.) tensor(0.) 0.0 0.0
3.6476690769195557 tensor(0.) tensor(0.) 0.0 0.0
3.43290638923645 tensor(0.) tensor(0.) 0.0 0.0
3.4191815853118896 tensor(0.) tensor(0.) 0.0 0.0
3.418789863586426 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.8103:  63%|██████████      | 313/500 [00:04<00:02, 73.48batch/s]

3.5730087757110596 tensor(0.) tensor(0.) 0.0 0.0
3.735538959503174 tensor(0.) tensor(0.) 0.0 0.0
3.4983763694763184 tensor(0.) tensor(0.) 0.0 0.0
3.45719838142395 tensor(0.) tensor(0.) 0.0 0.0
3.402942419052124 tensor(0.) tensor(0.) 0.0 0.0
3.467978000640869 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.7998:  66%|██████████▌     | 329/500 [00:04<00:02, 72.89batch/s]

3.5749285221099854 tensor(0.) tensor(0.) 0.0 0.0
3.3012731075286865 tensor(0.) tensor(0.) 0.0 0.0
3.424715280532837 tensor(0.) tensor(0.) 0.0 0.0
3.4012346267700195 tensor(0.) tensor(0.) 0.0 0.0
3.2977705001831055 tensor(0.) tensor(0.) 0.0 0.0
3.3481616973876953 tensor(0.) tensor(0.) 0.0 0.0
3.772254705429077 tensor(0.) tensor(0.) 0.0 0.0
3.286903142929077 tensor(0.) tensor(0.) 0.0 0.0
3.4412176609039307 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.7913:  66%|██████████▌     | 329/500 [00:04<00:02, 72.89batch/s]

3.5265848636627197 tensor(0.) tensor(0.) 0.0 0.0
3.361220359802246 tensor(0.) tensor(0.) 0.0 0.0
3.317385196685791 tensor(0.) tensor(0.) 0.0 0.0
3.4621286392211914 tensor(0.) tensor(0.) 0.0 0.0
3.1301333904266357 tensor(0.) tensor(0.) 0.0 0.0
3.575467109680176 tensor(0.) tensor(0.) 0.0 0.0
3.359752893447876 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.7809:  67%|██████████▊     | 337/500 [00:04<00:02, 74.07batch/s]

3.3550796508789062 tensor(0.) tensor(0.) 0.0 0.0
3.1974780559539795 tensor(0.) tensor(0.) 0.0 0.0
3.6763880252838135 tensor(0.) tensor(0.) 0.0 0.0
3.188910484313965 tensor(0.) tensor(0.) 0.0 0.0
3.3225700855255127 tensor(0.) tensor(0.) 0.0 0.0
3.4373745918273926 tensor(0.) tensor(0.) 0.0 0.0
3.40999174118042 tensor(0.) tensor(0.) 0.0 0.0
3.1897759437561035 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.7733:  69%|███████████     | 345/500 [00:04<00:02, 71.36batch/s]

3.230644464492798 tensor(0.) tensor(0.) 0.0 0.0
3.332676410675049 tensor(0.) tensor(0.) 0.0 0.0
3.2730658054351807 tensor(0.) tensor(0.) 0.0 0.0
3.328841209411621 tensor(0.) tensor(0.) 0.0 0.0
3.3557519912719727 tensor(0.) tensor(0.) 0.0 0.0
3.4933202266693115 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.7650:  71%|███████████▎    | 353/500 [00:05<00:02, 69.16batch/s]

3.3710131645202637 tensor(0.) tensor(0.) 0.0 0.0
3.436954975128174 tensor(0.) tensor(0.) 0.0 0.0
3.339996576309204 tensor(0.) tensor(0.) 0.0 0.0
3.3175535202026367 tensor(0.) tensor(0.) 0.0 0.0
3.3649673461914062 tensor(0.) tensor(0.) 0.0 0.0
3.693716049194336 tensor(0.) tensor(0.) 0.0 0.0
3.40446138381958 tensor(0.) tensor(0.) 0.0 0.0
3.2704851627349854 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.7576:  72%|███████████▌    | 361/500 [00:05<00:01, 71.00batch/s]

3.3557801246643066 tensor(0.) tensor(0.) 0.0 0.0
3.527264356613159 tensor(0.) tensor(0.) 0.0 0.0
3.5307223796844482 tensor(0.) tensor(0.) 0.0 0.0
3.2937536239624023 tensor(0.) tensor(0.) 0.0 0.0
3.3361732959747314 tensor(0.) tensor(0.) 0.0 0.0
3.475278615951538 tensor(0.) tensor(0.) 0.0 0.0
3.371302843093872 tensor(0.) tensor(0.) 0.0 0.0
3.529207229614258 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.7517:  74%|███████████▊    | 369/500 [00:05<00:01, 70.84batch/s]

3.1183111667633057 tensor(0.) tensor(0.) 0.0 0.0
3.8779349327087402 tensor(0.) tensor(0.) 0.0 0.0
3.113097906112671 tensor(0.) tensor(0.) 0.0 0.0
3.356565475463867 tensor(0.) tensor(0.) 0.0 0.0
3.506648540496826 tensor(0.) tensor(0.) 0.0 0.0
3.482743740081787 tensor(0.) tensor(0.) 0.0 0.0
3.6480255126953125 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.7454:  75%|████████████    | 377/500 [00:05<00:01, 70.93batch/s]

3.408726453781128 tensor(0.) tensor(0.) 0.0 0.0
3.480222702026367 tensor(0.) tensor(0.) 0.0 0.0
3.6701791286468506 tensor(0.) tensor(0.) 0.0 0.0
3.54719877243042 tensor(0.) tensor(0.) 0.0 0.0
3.490142822265625 tensor(0.) tensor(0.) 0.0 0.0
3.420450210571289 tensor(0.) tensor(0.) 0.0 0.0
3.4807968139648438 tensor(0.) tensor(0.) 0.0 0.0
3.138997793197632 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.7406:  77%|████████████▎   | 385/500 [00:05<00:01, 70.02batch/s]

3.4149529933929443 tensor(0.) tensor(0.) 0.0 0.0
3.4452316761016846 tensor(0.) tensor(0.) 0.0 0.0
3.308432102203369 tensor(0.) tensor(0.) 0.0 0.0
3.2862133979797363 tensor(0.) tensor(0.) 0.0 0.0
3.419673442840576 tensor(0.) tensor(0.) 0.0 0.0
3.4059393405914307 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.7323:  79%|████████████▌   | 393/500 [00:05<00:01, 69.37batch/s]

3.3579201698303223 tensor(0.) tensor(0.) 0.0 0.0
3.3058712482452393 tensor(0.) tensor(0.) 0.0 0.0
3.2164440155029297 tensor(0.) tensor(0.) 0.0 0.0
3.510206699371338 tensor(0.) tensor(0.) 0.0 0.0
3.4388344287872314 tensor(0.) tensor(0.) 0.0 0.0
3.1976895332336426 tensor(0.) tensor(0.) 0.0 0.0
3.2001049518585205 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.7259:  80%|████████████▊   | 400/500 [00:05<00:01, 68.92batch/s]

3.221708297729492 tensor(0.) tensor(0.) 0.0 0.0
3.3700666427612305 tensor(0.) tensor(0.) 0.0 0.0
3.286900281906128 tensor(0.) tensor(0.) 0.0 0.0
3.427992343902588 tensor(0.) tensor(0.) 0.0 0.0
3.3524484634399414 tensor(0.) tensor(0.) 0.0 0.0
3.1631593704223633 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.7178:  81%|█████████████   | 407/500 [00:05<00:01, 66.81batch/s]

3.5296735763549805 tensor(0.) tensor(0.) 0.0 0.0
3.3996920585632324 tensor(0.) tensor(0.) 0.0 0.0
3.4726250171661377 tensor(0.) tensor(0.) 0.0 0.0
3.267909049987793 tensor(0.) tensor(0.) 0.0 0.0
3.0033180713653564 tensor(0.) tensor(0.) 0.0 0.0
3.402930974960327 tensor(0.) tensor(0.) 0.0 0.0
3.0996344089508057 tensor(0.) tensor(0.) 0.0 0.0
3.3393683433532715 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.7118:  81%|█████████████   | 407/500 [00:05<00:01, 66.81batch/s]

3.5272653102874756 tensor(0.) tensor(0.) 0.0 0.0
3.5416922569274902 tensor(0.) tensor(0.) 0.0 0.0
3.192077398300171 tensor(0.) tensor(0.) 0.0 0.0
3.346579074859619 tensor(0.) tensor(0.) 0.0 0.0
2.9783620834350586 tensor(0.) tensor(0.) 0.0 0.0
3.2412912845611572 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.7007:  85%|█████████████▌  | 423/500 [00:06<00:01, 69.04batch/s]

3.1798789501190186 tensor(0.) tensor(0.) 0.0 0.0
3.3121230602264404 tensor(0.) tensor(0.) 0.0 0.0
3.204681396484375 tensor(0.) tensor(0.) 0.0 0.0
3.473015546798706 tensor(0.) tensor(0.) 0.0 0.0
3.0970571041107178 tensor(0.) tensor(0.) 0.0 0.0
3.326910972595215 tensor(0.) tensor(0.) 0.0 0.0
3.230097770690918 tensor(0.) tensor(0.) 0.0 0.0
3.0203726291656494 tensor(0.) tensor(0.) 0.0 0.0
2.881815195083618 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.6961:  85%|█████████████▌  | 423/500 [00:06<00:01, 69.04batch/s]

3.305147647857666 tensor(0.) tensor(0.) 0.0 0.0
3.534360647201538 tensor(0.) tensor(0.) 0.0 0.0
3.1398138999938965 tensor(0.) tensor(0.) 0.0 0.0
3.0157957077026367 tensor(0.) tensor(0.) 0.0 0.0
3.5032243728637695 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.6875:  86%|█████████████▊  | 430/500 [00:06<00:01, 68.43batch/s]

3.1428656578063965 tensor(0.) tensor(0.) 0.0 0.0
3.293044090270996 tensor(0.) tensor(0.) 0.0 0.0
3.194293260574341 tensor(0.) tensor(0.) 0.0 0.0
3.344226121902466 tensor(0.) tensor(0.) 0.0 0.0
3.083665370941162 tensor(0.) tensor(0.) 0.0 0.0
3.2205610275268555 tensor(0.) tensor(0.) 0.0 0.0
3.329007148742676 tensor(0.) tensor(0.) 0.0 0.0
3.2466530799865723 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.6811:  87%|█████████████▉  | 437/500 [00:06<00:00, 65.27batch/s]

3.2438201904296875 tensor(0.) tensor(0.) 0.0 0.0
3.2090508937835693 tensor(0.) tensor(0.) 0.0 0.0
3.2854115962982178 tensor(0.) tensor(0.) 0.0 0.0
3.134772300720215 tensor(0.) tensor(0.) 0.0 0.0
3.1295812129974365 tensor(0.) tensor(0.) 0.0 0.0
3.2783374786376953 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.6759:  89%|██████████████▏ | 444/500 [00:06<00:00, 66.14batch/s]

3.4521844387054443 tensor(0.) tensor(0.) 0.0 0.0
3.571272850036621 tensor(0.) tensor(0.) 0.0 0.0
3.520139455795288 tensor(0.) tensor(0.) 0.0 0.0
3.4115536212921143 tensor(0.) tensor(0.) 0.0 0.0
3.1518607139587402 tensor(0.) tensor(0.) 0.0 0.0
3.311091661453247 tensor(0.) tensor(0.) 0.0 0.0
3.403183698654175 tensor(0.) tensor(0.) 0.0 0.0
3.2677667140960693 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.6697:  90%|██████████████▍ | 451/500 [00:06<00:00, 66.86batch/s]

3.410801649093628 tensor(0.) tensor(0.) 0.0 0.0
3.278701066970825 tensor(0.) tensor(0.) 0.0 0.0
3.1993110179901123 tensor(0.) tensor(0.) 0.0 0.0
3.1406960487365723 tensor(0.) tensor(0.) 0.0 0.0
3.3462750911712646 tensor(0.) tensor(0.) 0.0 0.0
3.3972420692443848 tensor(0.) tensor(0.) 0.0 0.0
3.167588472366333 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.6625:  92%|██████████████▋ | 459/500 [00:06<00:00, 69.11batch/s]

3.345074415206909 tensor(0.) tensor(0.) 0.0 0.0
3.1669833660125732 tensor(0.) tensor(0.) 0.0 0.0
3.3647966384887695 tensor(0.) tensor(0.) 0.0 0.0
3.1386563777923584 tensor(0.) tensor(0.) 0.0 0.0
3.289372444152832 tensor(0.) tensor(0.) 0.0 0.0
3.1491167545318604 tensor(0.) tensor(0.) 0.0 0.0
3.348151445388794 tensor(0.) tensor(0.) 0.0 0.0
3.184627056121826 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.6571:  93%|██████████████▉ | 467/500 [00:06<00:00, 70.83batch/s]

3.752450942993164 tensor(0.) tensor(0.) 0.0 0.0
3.4705703258514404 tensor(0.) tensor(0.) 0.0 0.0
3.219761610031128 tensor(0.) tensor(0.) 0.0 0.0
3.4620308876037598 tensor(0.) tensor(0.) 0.0 0.0
3.330383062362671 tensor(0.) tensor(0.) 0.0 0.0
3.183018207550049 tensor(0.) tensor(0.) 0.0 0.0
3.1740057468414307 tensor(0.) tensor(0.) 0.0 0.0
3.1558446884155273 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.6502:  95%|███████████████▏| 475/500 [00:06<00:00, 71.68batch/s]

3.015136957168579 tensor(0.) tensor(0.) 0.0 0.0
2.919980525970459 tensor(0.) tensor(0.) 0.0 0.0
3.1447207927703857 tensor(0.) tensor(0.) 0.0 0.0
3.371577262878418 tensor(0.) tensor(0.) 0.0 0.0
3.366591215133667 tensor(0.) tensor(0.) 0.0 0.0
3.4706835746765137 tensor(0.) tensor(0.) 0.0 0.0
3.018878698348999 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.6447:  97%|███████████████▍| 483/500 [00:06<00:00, 70.39batch/s]

3.3522555828094482 tensor(0.) tensor(0.) 0.0 0.0
3.467855453491211 tensor(0.) tensor(0.) 0.0 0.0
3.4474916458129883 tensor(0.) tensor(0.) 0.0 0.0
3.033130168914795 tensor(0.) tensor(0.) 0.0 0.0
3.315366744995117 tensor(0.) tensor(0.) 0.0 0.0
3.0752310752868652 tensor(0.) tensor(0.) 0.0 0.0
3.1725051403045654 tensor(0.) tensor(0.) 0.0 0.0
3.0646657943725586 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.6365:  98%|███████████████▋| 491/500 [00:07<00:00, 69.12batch/s]

3.170389413833618 tensor(0.) tensor(0.) 0.0 0.0
3.099583625793457 tensor(0.) tensor(0.) 0.0 0.0
3.1060996055603027 tensor(0.) tensor(0.) 0.0 0.0
3.0318422317504883 tensor(0.) tensor(0.) 0.0 0.0
3.1534998416900635 tensor(0.) tensor(0.) 0.0 0.0
2.8360342979431152 tensor(0.) tensor(0.) 0.0 0.0


Epoch 0 Loss: 3.6331: 100%|████████████████| 500/500 [00:07<00:00, 69.69batch/s]

3.1144423484802246 tensor(0.) tensor(0.) 0.0 0.0
3.3008360862731934 tensor(0.) tensor(0.) 0.0 0.0
3.673089027404785 tensor(0.) tensor(0.) 0.0 0.0
3.5508313179016113 tensor(0.) tensor(0.) 0.0 0.0
3.2128026485443115 tensor(0.) tensor(0.) 0.0 0.0
3.248469352722168 tensor(0.) tensor(0.) 0.0 0.0



Epoch 1 Loss: 2.8892:   0%|                          | 0/500 [00:00<?, ?batch/s]

2.8102197647094727 tensor(0.) tensor(0.) 0.0 0.0
2.952343702316284 tensor(0.) tensor(0.) 0.0 0.0
2.904921770095825 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8661:   2%|▎                | 11/500 [00:00<00:09, 49.83batch/s]

3.122015953063965 tensor(0.) tensor(0.) 0.0 0.0
2.6698577404022217 tensor(0.) tensor(0.) 0.0 0.0
2.9103658199310303 tensor(0.) tensor(0.) 0.0 0.0
2.7123863697052 tensor(0.) tensor(0.) 0.0 0.0
2.7794811725616455 tensor(0.) tensor(0.) 0.0 0.0
2.998335361480713 tensor(0.) tensor(0.) 0.0 0.0
2.721879243850708 tensor(0.) tensor(0.) 0.0 0.0
2.9803311824798584 tensor(0.) tensor(0.) 0.0 0.0
2.8310294151306152 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8899:   2%|▎                | 11/500 [00:00<00:09, 49.83batch/s]

3.281507968902588 tensor(0.) tensor(0.) 0.0 0.0
2.784367084503174 tensor(0.) tensor(0.) 0.0 0.0
3.0422849655151367 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8843:   5%|▊                | 25/500 [00:00<00:08, 57.34batch/s]

2.925208330154419 tensor(0.) tensor(0.) 0.0 0.0
2.9193718433380127 tensor(0.) tensor(0.) 0.0 0.0
2.9245126247406006 tensor(0.) tensor(0.) 0.0 0.0
2.5672647953033447 tensor(0.) tensor(0.) 0.0 0.0
3.072732448577881 tensor(0.) tensor(0.) 0.0 0.0
2.8816721439361572 tensor(0.) tensor(0.) 0.0 0.0
2.8666839599609375 tensor(0.) tensor(0.) 0.0 0.0
2.84262752532959 tensor(0.) tensor(0.) 0.0 0.0
2.742595911026001 tensor(0.) tensor(0.) 0.0 0.0
2.8623087406158447 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8849:   5%|▊                | 25/500 [00:00<00:08, 57.34batch/s]

2.9890880584716797 tensor(0.) tensor(0.) 0.0 0.0
2.797930955886841 tensor(0.) tensor(0.) 0.0 0.0
2.931288957595825 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9011:   6%|█                | 32/500 [00:00<00:07, 60.34batch/s]

3.033552646636963 tensor(0.) tensor(0.) 0.0 0.0
2.830244541168213 tensor(0.) tensor(0.) 0.0 0.0
2.7287631034851074 tensor(0.) tensor(0.) 0.0 0.0
2.8711447715759277 tensor(0.) tensor(0.) 0.0 0.0
2.765348434448242 tensor(0.) tensor(0.) 0.0 0.0
2.990077257156372 tensor(0.) tensor(0.) 0.0 0.0
3.1395375728607178 tensor(0.) tensor(0.) 0.0 0.0
2.9246277809143066 tensor(0.) tensor(0.) 0.0 0.0
3.1283295154571533 tensor(0.) tensor(0.) 0.0 0.0
3.0063865184783936 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9056:   8%|█▎               | 39/500 [00:00<00:07, 61.18batch/s]

3.004889726638794 tensor(0.) tensor(0.) 0.0 0.0
3.0013296604156494 tensor(0.) tensor(0.) 0.0 0.0
2.9351587295532227 tensor(0.) tensor(0.) 0.0 0.0
2.849998712539673 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8876:   9%|█▌               | 47/500 [00:00<00:07, 63.44batch/s]

3.0024633407592773 tensor(0.) tensor(0.) 0.0 0.0
2.700274705886841 tensor(0.) tensor(0.) 0.0 0.0
2.879767656326294 tensor(0.) tensor(0.) 0.0 0.0
2.9084842205047607 tensor(0.) tensor(0.) 0.0 0.0
2.8080127239227295 tensor(0.) tensor(0.) 0.0 0.0
2.8938279151916504 tensor(0.) tensor(0.) 0.0 0.0
2.6280441284179688 tensor(0.) tensor(0.) 0.0 0.0
2.516571283340454 tensor(0.) tensor(0.) 0.0 0.0
2.9293410778045654 tensor(0.) tensor(0.) 0.0 0.0
2.8556032180786133 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8926:  11%|█▊               | 54/500 [00:00<00:06, 65.12batch/s]

3.026827335357666 tensor(0.) tensor(0.) 0.0 0.0
3.0295674800872803 tensor(0.) tensor(0.) 0.0 0.0
2.8353562355041504 tensor(0.) tensor(0.) 0.0 0.0
2.9392178058624268 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8920:  12%|██               | 61/500 [00:01<00:06, 63.22batch/s]

2.955310106277466 tensor(0.) tensor(0.) 0.0 0.0
2.733017683029175 tensor(0.) tensor(0.) 0.0 0.0
2.7503695487976074 tensor(0.) tensor(0.) 0.0 0.0
2.820389747619629 tensor(0.) tensor(0.) 0.0 0.0
3.1078760623931885 tensor(0.) tensor(0.) 0.0 0.0
2.9043619632720947 tensor(0.) tensor(0.) 0.0 0.0
3.2096621990203857 tensor(0.) tensor(0.) 0.0 0.0
2.622077226638794 tensor(0.) tensor(0.) 0.0 0.0
2.5388734340667725 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8853:  14%|██▎              | 68/500 [00:01<00:06, 62.84batch/s]

3.1365163326263428 tensor(0.) tensor(0.) 0.0 0.0
2.721261978149414 tensor(0.) tensor(0.) 0.0 0.0
2.7150027751922607 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8746:  15%|██▌              | 75/500 [00:01<00:07, 58.80batch/s]

3.114417791366577 tensor(0.) tensor(0.) 0.0 0.0
2.7890613079071045 tensor(0.) tensor(0.) 0.0 0.0
2.865615129470825 tensor(0.) tensor(0.) 0.0 0.0
3.01310396194458 tensor(0.) tensor(0.) 0.0 0.0
2.5811123847961426 tensor(0.) tensor(0.) 0.0 0.0
2.7410478591918945 tensor(0.) tensor(0.) 0.0 0.0
2.5434465408325195 tensor(0.) tensor(0.) 0.0 0.0
2.6183228492736816 tensor(0.) tensor(0.) 0.0 0.0
2.9670474529266357 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8739:  15%|██▌              | 75/500 [00:01<00:07, 58.80batch/s]

2.790405511856079 tensor(0.) tensor(0.) 0.0 0.0
2.867771863937378 tensor(0.) tensor(0.) 0.0 0.0
2.8156638145446777 tensor(0.) tensor(0.) 0.0 0.0
2.751115322113037 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8698:  17%|██▊              | 83/500 [00:01<00:06, 61.08batch/s]

2.8974533081054688 tensor(0.) tensor(0.) 0.0 0.0
2.7895822525024414 tensor(0.) tensor(0.) 0.0 0.0
2.7223165035247803 tensor(0.) tensor(0.) 0.0 0.0
2.6101584434509277 tensor(0.) tensor(0.) 0.0 0.0
3.126157283782959 tensor(0.) tensor(0.) 0.0 0.0
3.132568359375 tensor(0.) tensor(0.) 0.0 0.0
2.3776652812957764 tensor(0.) tensor(0.) 0.0 0.0
2.9920694828033447 tensor(0.) tensor(0.) 0.0 0.0
3.038910150527954 tensor(0.) tensor(0.) 0.0 0.0
2.8046646118164062 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8736:  18%|███              | 91/500 [00:01<00:06, 64.11batch/s]

2.815016984939575 tensor(0.) tensor(0.) 0.0 0.0
2.9842300415039062 tensor(0.) tensor(0.) 0.0 0.0
3.0301618576049805 tensor(0.) tensor(0.) 0.0 0.0
3.0109786987304688 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8702:  20%|███▎             | 99/500 [00:01<00:06, 65.24batch/s]

2.9300286769866943 tensor(0.) tensor(0.) 0.0 0.0
2.9392285346984863 tensor(0.) tensor(0.) 0.0 0.0
2.552248477935791 tensor(0.) tensor(0.) 0.0 0.0
2.8072540760040283 tensor(0.) tensor(0.) 0.0 0.0
2.8936820030212402 tensor(0.) tensor(0.) 0.0 0.0
2.8704721927642822 tensor(0.) tensor(0.) 0.0 0.0
2.6937613487243652 tensor(0.) tensor(0.) 0.0 0.0
2.9342257976531982 tensor(0.) tensor(0.) 0.0 0.0
2.8873379230499268 tensor(0.) tensor(0.) 0.0 0.0
2.823568105697632 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8667:  21%|███▍            | 106/500 [00:01<00:05, 65.94batch/s]

2.7820661067962646 tensor(0.) tensor(0.) 0.0 0.0
2.6877074241638184 tensor(0.) tensor(0.) 0.0 0.0
2.8115973472595215 tensor(0.) tensor(0.) 0.0 0.0
2.758725643157959 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8687:  23%|███▌            | 113/500 [00:01<00:05, 65.12batch/s]

3.121352434158325 tensor(0.) tensor(0.) 0.0 0.0
2.9975998401641846 tensor(0.) tensor(0.) 0.0 0.0
2.807981491088867 tensor(0.) tensor(0.) 0.0 0.0
2.9349584579467773 tensor(0.) tensor(0.) 0.0 0.0
3.146789312362671 tensor(0.) tensor(0.) 0.0 0.0
2.5034615993499756 tensor(0.) tensor(0.) 0.0 0.0
2.8485186100006104 tensor(0.) tensor(0.) 0.0 0.0
3.0069963932037354 tensor(0.) tensor(0.) 0.0 0.0
2.6787595748901367 tensor(0.) tensor(0.) 0.0 0.0
2.962803840637207 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8684:  24%|███▊            | 121/500 [00:01<00:05, 65.37batch/s]

2.7087087631225586 tensor(0.) tensor(0.) 0.0 0.0
2.9082770347595215 tensor(0.) tensor(0.) 0.0 0.0
2.948612689971924 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8589:  26%|████            | 128/500 [00:02<00:05, 66.58batch/s]

2.637876272201538 tensor(0.) tensor(0.) 0.0 0.0
3.008115768432617 tensor(0.) tensor(0.) 0.0 0.0
2.704280376434326 tensor(0.) tensor(0.) 0.0 0.0
2.6573352813720703 tensor(0.) tensor(0.) 0.0 0.0
2.6960887908935547 tensor(0.) tensor(0.) 0.0 0.0
2.6536448001861572 tensor(0.) tensor(0.) 0.0 0.0
3.0187180042266846 tensor(0.) tensor(0.) 0.0 0.0
2.509965658187866 tensor(0.) tensor(0.) 0.0 0.0
2.85566782951355 tensor(0.) tensor(0.) 0.0 0.0
2.700380325317383 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8590:  27%|████▎           | 135/500 [00:02<00:05, 66.20batch/s]

3.0051774978637695 tensor(0.) tensor(0.) 0.0 0.0
2.9352285861968994 tensor(0.) tensor(0.) 0.0 0.0
2.9422600269317627 tensor(0.) tensor(0.) 0.0 0.0
2.5613064765930176 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8557:  28%|████▌           | 142/500 [00:02<00:05, 64.93batch/s]

2.581901788711548 tensor(0.) tensor(0.) 0.0 0.0
2.635782241821289 tensor(0.) tensor(0.) 0.0 0.0
2.8065903186798096 tensor(0.) tensor(0.) 0.0 0.0
2.991408109664917 tensor(0.) tensor(0.) 0.0 0.0
2.830807685852051 tensor(0.) tensor(0.) 0.0 0.0
3.050778865814209 tensor(0.) tensor(0.) 0.0 0.0
2.501450538635254 tensor(0.) tensor(0.) 0.0 0.0
2.8683953285217285 tensor(0.) tensor(0.) 0.0 0.0
2.9871459007263184 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8536:  30%|████▊           | 149/500 [00:02<00:05, 64.26batch/s]

2.686184883117676 tensor(0.) tensor(0.) 0.0 0.0
2.796499729156494 tensor(0.) tensor(0.) 0.0 0.0
2.8291501998901367 tensor(0.) tensor(0.) 0.0 0.0
2.795722723007202 tensor(0.) tensor(0.) 0.0 0.0
2.7779734134674072 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8487:  31%|█████           | 157/500 [00:02<00:05, 66.28batch/s]

3.072068214416504 tensor(0.) tensor(0.) 0.0 0.0
2.6364011764526367 tensor(0.) tensor(0.) 0.0 0.0
2.688194513320923 tensor(0.) tensor(0.) 0.0 0.0
2.547621726989746 tensor(0.) tensor(0.) 0.0 0.0
2.5345258712768555 tensor(0.) tensor(0.) 0.0 0.0
2.748004198074341 tensor(0.) tensor(0.) 0.0 0.0
3.0236105918884277 tensor(0.) tensor(0.) 0.0 0.0
3.1527702808380127 tensor(0.) tensor(0.) 0.0 0.0
2.5753579139709473 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8492:  33%|█████▎          | 165/500 [00:02<00:04, 68.31batch/s]

2.7937989234924316 tensor(0.) tensor(0.) 0.0 0.0
2.9300529956817627 tensor(0.) tensor(0.) 0.0 0.0
2.69313907623291 tensor(0.) tensor(0.) 0.0 0.0
3.0115301609039307 tensor(0.) tensor(0.) 0.0 0.0
3.007263422012329 tensor(0.) tensor(0.) 0.0 0.0
2.7421715259552 tensor(0.) tensor(0.) 0.0 0.0
2.8091306686401367 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8441:  35%|█████▌          | 173/500 [00:02<00:04, 69.93batch/s]

2.4623231887817383 tensor(0.) tensor(0.) 0.0 0.0
2.6631157398223877 tensor(0.) tensor(0.) 0.0 0.0
2.6518852710723877 tensor(0.) tensor(0.) 0.0 0.0
2.8754422664642334 tensor(0.) tensor(0.) 0.0 0.0
2.844750165939331 tensor(0.) tensor(0.) 0.0 0.0
2.9878957271575928 tensor(0.) tensor(0.) 0.0 0.0
2.614661931991577 tensor(0.) tensor(0.) 0.0 0.0
2.815852642059326 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8440:  36%|█████▊          | 180/500 [00:02<00:04, 69.49batch/s]

3.253403425216675 tensor(0.) tensor(0.) 0.0 0.0
2.609093427658081 tensor(0.) tensor(0.) 0.0 0.0
2.791583776473999 tensor(0.) tensor(0.) 0.0 0.0
2.9633677005767822 tensor(0.) tensor(0.) 0.0 0.0
2.8251876831054688 tensor(0.) tensor(0.) 0.0 0.0
2.6310391426086426 tensor(0.) tensor(0.) 0.0 0.0
2.557755947113037 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8404:  37%|█████▉          | 187/500 [00:02<00:04, 69.36batch/s]

2.8585267066955566 tensor(0.) tensor(0.) 0.0 0.0
2.996110200881958 tensor(0.) tensor(0.) 0.0 0.0
2.7348203659057617 tensor(0.) tensor(0.) 0.0 0.0
2.7039356231689453 tensor(0.) tensor(0.) 0.0 0.0
2.822932243347168 tensor(0.) tensor(0.) 0.0 0.0
2.520941972732544 tensor(0.) tensor(0.) 0.0 0.0
2.8714969158172607 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8390:  39%|██████▏         | 194/500 [00:03<00:04, 68.95batch/s]

3.0527052879333496 tensor(0.) tensor(0.) 0.0 0.0
2.5937917232513428 tensor(0.) tensor(0.) 0.0 0.0
2.53359055519104 tensor(0.) tensor(0.) 0.0 0.0
2.9345884323120117 tensor(0.) tensor(0.) 0.0 0.0
2.6966288089752197 tensor(0.) tensor(0.) 0.0 0.0
2.9665579795837402 tensor(0.) tensor(0.) 0.0 0.0
2.9860024452209473 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8349:  40%|██████▍         | 201/500 [00:03<00:04, 68.88batch/s]

2.7377965450286865 tensor(0.) tensor(0.) 0.0 0.0
2.878837823867798 tensor(0.) tensor(0.) 0.0 0.0
2.7237393856048584 tensor(0.) tensor(0.) 0.0 0.0
2.600858688354492 tensor(0.) tensor(0.) 0.0 0.0
2.8217382431030273 tensor(0.) tensor(0.) 0.0 0.0
2.5937340259552 tensor(0.) tensor(0.) 0.0 0.0
2.533334255218506 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8290:  42%|██████▋         | 209/500 [00:03<00:04, 70.31batch/s]

2.724609375 tensor(0.) tensor(0.) 0.0 0.0
2.510390043258667 tensor(0.) tensor(0.) 0.0 0.0
2.544593095779419 tensor(0.) tensor(0.) 0.0 0.0
2.8276429176330566 tensor(0.) tensor(0.) 0.0 0.0
2.831554651260376 tensor(0.) tensor(0.) 0.0 0.0
2.9494516849517822 tensor(0.) tensor(0.) 0.0 0.0
2.3076913356781006 tensor(0.) tensor(0.) 0.0 0.0
2.7575674057006836 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8273:  42%|██████▋         | 209/500 [00:03<00:04, 70.31batch/s]

2.7953805923461914 tensor(0.) tensor(0.) 0.0 0.0
2.7737536430358887 tensor(0.) tensor(0.) 0.0 0.0
3.0612075328826904 tensor(0.) tensor(0.) 0.0 0.0
2.573779821395874 tensor(0.) tensor(0.) 0.0 0.0
2.791680335998535 tensor(0.) tensor(0.) 0.0 0.0
2.5739617347717285 tensor(0.) tensor(0.) 0.0 0.0
2.869525671005249 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8257:  43%|██████▉         | 217/500 [00:03<00:04, 69.57batch/s]

2.4625327587127686 tensor(0.) tensor(0.) 0.0 0.0
2.92979097366333 tensor(0.) tensor(0.) 0.0 0.0
2.9087255001068115 tensor(0.) tensor(0.) 0.0 0.0
3.0068705081939697 tensor(0.) tensor(0.) 0.0 0.0
2.695307970046997 tensor(0.) tensor(0.) 0.0 0.0
2.7398650646209717 tensor(0.) tensor(0.) 0.0 0.0
2.6835129261016846 tensor(0.) tensor(0.) 0.0 0.0
2.6445930004119873 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8257:  45%|███████▏        | 225/500 [00:03<00:03, 70.32batch/s]

2.7841384410858154 tensor(0.) tensor(0.) 0.0 0.0
2.8088579177856445 tensor(0.) tensor(0.) 0.0 0.0
2.918886423110962 tensor(0.) tensor(0.) 0.0 0.0
2.991244316101074 tensor(0.) tensor(0.) 0.0 0.0
2.7567763328552246 tensor(0.) tensor(0.) 0.0 0.0
2.838979482650757 tensor(0.) tensor(0.) 0.0 0.0
2.8489339351654053 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8200:  47%|███████▍        | 233/500 [00:03<00:03, 71.14batch/s]

2.807835102081299 tensor(0.) tensor(0.) 0.0 0.0
2.7740814685821533 tensor(0.) tensor(0.) 0.0 0.0
2.4089906215667725 tensor(0.) tensor(0.) 0.0 0.0
2.748140811920166 tensor(0.) tensor(0.) 0.0 0.0
2.6636288166046143 tensor(0.) tensor(0.) 0.0 0.0
2.3237357139587402 tensor(0.) tensor(0.) 0.0 0.0
2.705977201461792 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8181:  48%|███████▋        | 241/500 [00:03<00:03, 69.05batch/s]

3.031804084777832 tensor(0.) tensor(0.) 0.0 0.0
2.9012839794158936 tensor(0.) tensor(0.) 0.0 0.0
2.433534622192383 tensor(0.) tensor(0.) 0.0 0.0
2.7790732383728027 tensor(0.) tensor(0.) 0.0 0.0
2.657710075378418 tensor(0.) tensor(0.) 0.0 0.0
2.7047817707061768 tensor(0.) tensor(0.) 0.0 0.0
2.756903648376465 tensor(0.) tensor(0.) 0.0 0.0
2.8434064388275146 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8189:  50%|███████▉        | 249/500 [00:03<00:03, 71.18batch/s]

3.0774283409118652 tensor(0.) tensor(0.) 0.0 0.0
2.8200156688690186 tensor(0.) tensor(0.) 0.0 0.0
2.6380138397216797 tensor(0.) tensor(0.) 0.0 0.0
2.92598819732666 tensor(0.) tensor(0.) 0.0 0.0
2.9902210235595703 tensor(0.) tensor(0.) 0.0 0.0
2.614142417907715 tensor(0.) tensor(0.) 0.0 0.0
2.8358123302459717 tensor(0.) tensor(0.) 0.0 0.0
2.7998697757720947 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8201:  51%|████████▏       | 257/500 [00:03<00:03, 71.05batch/s]

2.869335889816284 tensor(0.) tensor(0.) 0.0 0.0
3.2414824962615967 tensor(0.) tensor(0.) 0.0 0.0
3.0765221118927 tensor(0.) tensor(0.) 0.0 0.0
2.472169876098633 tensor(0.) tensor(0.) 0.0 0.0
2.810452938079834 tensor(0.) tensor(0.) 0.0 0.0
2.7840869426727295 tensor(0.) tensor(0.) 0.0 0.0
2.7355432510375977 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8178:  53%|████████▍       | 265/500 [00:04<00:03, 71.07batch/s]

2.81242299079895 tensor(0.) tensor(0.) 0.0 0.0
2.4762685298919678 tensor(0.) tensor(0.) 0.0 0.0
2.866830825805664 tensor(0.) tensor(0.) 0.0 0.0
2.6522481441497803 tensor(0.) tensor(0.) 0.0 0.0
2.729814052581787 tensor(0.) tensor(0.) 0.0 0.0
2.8118321895599365 tensor(0.) tensor(0.) 0.0 0.0
2.852637529373169 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8141:  55%|████████▋       | 273/500 [00:04<00:03, 69.93batch/s]

2.697800874710083 tensor(0.) tensor(0.) 0.0 0.0
2.899142265319824 tensor(0.) tensor(0.) 0.0 0.0
2.7017266750335693 tensor(0.) tensor(0.) 0.0 0.0
2.4509010314941406 tensor(0.) tensor(0.) 0.0 0.0
2.819483995437622 tensor(0.) tensor(0.) 0.0 0.0
2.510953426361084 tensor(0.) tensor(0.) 0.0 0.0
2.6362247467041016 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8129:  56%|████████▉       | 281/500 [00:04<00:03, 69.83batch/s]

2.617208957672119 tensor(0.) tensor(0.) 0.0 0.0
2.6101748943328857 tensor(0.) tensor(0.) 0.0 0.0
2.799380302429199 tensor(0.) tensor(0.) 0.0 0.0
2.7675280570983887 tensor(0.) tensor(0.) 0.0 0.0
2.95780873298645 tensor(0.) tensor(0.) 0.0 0.0
2.825218439102173 tensor(0.) tensor(0.) 0.0 0.0
2.757627248764038 tensor(0.) tensor(0.) 0.0 0.0
2.6458024978637695 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8083:  58%|█████████▏      | 288/500 [00:04<00:03, 68.33batch/s]

2.6357674598693848 tensor(0.) tensor(0.) 0.0 0.0
2.5968334674835205 tensor(0.) tensor(0.) 0.0 0.0
2.659608840942383 tensor(0.) tensor(0.) 0.0 0.0
2.538196325302124 tensor(0.) tensor(0.) 0.0 0.0
2.7356863021850586 tensor(0.) tensor(0.) 0.0 0.0
2.563598871231079 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8059:  59%|█████████▍      | 296/500 [00:04<00:02, 69.95batch/s]

2.523500680923462 tensor(0.) tensor(0.) 0.0 0.0
2.7849860191345215 tensor(0.) tensor(0.) 0.0 0.0
2.5486016273498535 tensor(0.) tensor(0.) 0.0 0.0
2.723555564880371 tensor(0.) tensor(0.) 0.0 0.0
2.9406704902648926 tensor(0.) tensor(0.) 0.0 0.0
2.4937844276428223 tensor(0.) tensor(0.) 0.0 0.0
3.0912909507751465 tensor(0.) tensor(0.) 0.0 0.0
2.6347286701202393 tensor(0.) tensor(0.) 0.0 0.0
2.993208646774292 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8058:  61%|█████████▋      | 304/500 [00:04<00:02, 70.55batch/s]

2.985783576965332 tensor(0.) tensor(0.) 0.0 0.0
2.545743703842163 tensor(0.) tensor(0.) 0.0 0.0
2.912294864654541 tensor(0.) tensor(0.) 0.0 0.0
2.7952475547790527 tensor(0.) tensor(0.) 0.0 0.0
2.588609218597412 tensor(0.) tensor(0.) 0.0 0.0
2.723454475402832 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8035:  62%|█████████▉      | 312/500 [00:04<00:02, 67.58batch/s]

2.8006012439727783 tensor(0.) tensor(0.) 0.0 0.0
2.7162842750549316 tensor(0.) tensor(0.) 0.0 0.0
2.683286190032959 tensor(0.) tensor(0.) 0.0 0.0
2.810715436935425 tensor(0.) tensor(0.) 0.0 0.0
2.6566736698150635 tensor(0.) tensor(0.) 0.0 0.0
2.7188880443573 tensor(0.) tensor(0.) 0.0 0.0
2.6013736724853516 tensor(0.) tensor(0.) 0.0 0.0
2.667767286300659 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.8017:  62%|█████████▉      | 312/500 [00:04<00:02, 67.58batch/s]

2.9493331909179688 tensor(0.) tensor(0.) 0.0 0.0
2.6424753665924072 tensor(0.) tensor(0.) 0.0 0.0
2.8003792762756348 tensor(0.) tensor(0.) 0.0 0.0
2.7678775787353516 tensor(0.) tensor(0.) 0.0 0.0
2.6852080821990967 tensor(0.) tensor(0.) 0.0 0.0
2.5453641414642334 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.7976:  65%|██████████▍     | 327/500 [00:04<00:02, 68.68batch/s]

2.3597490787506104 tensor(0.) tensor(0.) 0.0 0.0
2.6127665042877197 tensor(0.) tensor(0.) 0.0 0.0
2.455770492553711 tensor(0.) tensor(0.) 0.0 0.0
2.476895570755005 tensor(0.) tensor(0.) 0.0 0.0
2.7974178791046143 tensor(0.) tensor(0.) 0.0 0.0
2.7634339332580566 tensor(0.) tensor(0.) 0.0 0.0
2.8513736724853516 tensor(0.) tensor(0.) 0.0 0.0
2.7622764110565186 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.7965:  65%|██████████▍     | 327/500 [00:05<00:02, 68.68batch/s]

2.7593679428100586 tensor(0.) tensor(0.) 0.0 0.0
2.8921821117401123 tensor(0.) tensor(0.) 0.0 0.0
2.9160094261169434 tensor(0.) tensor(0.) 0.0 0.0
2.3746180534362793 tensor(0.) tensor(0.) 0.0 0.0
2.773183822631836 tensor(0.) tensor(0.) 0.0 0.0
2.6961944103240967 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.7936:  67%|██████████▋     | 334/500 [00:05<00:02, 67.02batch/s]

2.423835515975952 tensor(0.) tensor(0.) 0.0 0.0
2.902581214904785 tensor(0.) tensor(0.) 0.0 0.0
2.7738218307495117 tensor(0.) tensor(0.) 0.0 0.0
2.668036699295044 tensor(0.) tensor(0.) 0.0 0.0
2.680253267288208 tensor(0.) tensor(0.) 0.0 0.0
2.504782199859619 tensor(0.) tensor(0.) 0.0 0.0
2.707364082336426 tensor(0.) tensor(0.) 0.0 0.0
2.719944477081299 tensor(0.) tensor(0.) 0.0 0.0
2.199324131011963 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.7906:  68%|██████████▉     | 342/500 [00:05<00:02, 68.70batch/s]

2.5344290733337402 tensor(0.) tensor(0.) 0.0 0.0
2.8983139991760254 tensor(0.) tensor(0.) 0.0 0.0
2.7125742435455322 tensor(0.) tensor(0.) 0.0 0.0
2.5948128700256348 tensor(0.) tensor(0.) 0.0 0.0
2.7981839179992676 tensor(0.) tensor(0.) 0.0 0.0
2.4979441165924072 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.7883:  70%|███████████▏    | 350/500 [00:05<00:02, 68.29batch/s]

2.813128709793091 tensor(0.) tensor(0.) 0.0 0.0
2.6175169944763184 tensor(0.) tensor(0.) 0.0 0.0
2.906552791595459 tensor(0.) tensor(0.) 0.0 0.0
2.376616954803467 tensor(0.) tensor(0.) 0.0 0.0
2.5248918533325195 tensor(0.) tensor(0.) 0.0 0.0
2.812333583831787 tensor(0.) tensor(0.) 0.0 0.0
2.9417972564697266 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.7863:  71%|███████████▍    | 357/500 [00:05<00:02, 67.71batch/s]

2.5094501972198486 tensor(0.) tensor(0.) 0.0 0.0
2.642779588699341 tensor(0.) tensor(0.) 0.0 0.0
2.8639533519744873 tensor(0.) tensor(0.) 0.0 0.0
2.6192750930786133 tensor(0.) tensor(0.) 0.0 0.0
2.949636459350586 tensor(0.) tensor(0.) 0.0 0.0
2.414242744445801 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.7840:  73%|███████████▋    | 364/500 [00:05<00:02, 66.68batch/s]

2.8764615058898926 tensor(0.) tensor(0.) 0.0 0.0
2.575155258178711 tensor(0.) tensor(0.) 0.0 0.0
2.707906484603882 tensor(0.) tensor(0.) 0.0 0.0
2.738152503967285 tensor(0.) tensor(0.) 0.0 0.0
2.2889180183410645 tensor(0.) tensor(0.) 0.0 0.0
2.664829969406128 tensor(0.) tensor(0.) 0.0 0.0
2.8061792850494385 tensor(0.) tensor(0.) 0.0 0.0
2.403076410293579 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.7790:  74%|███████████▊    | 371/500 [00:05<00:01, 66.06batch/s]

2.7368838787078857 tensor(0.) tensor(0.) 0.0 0.0
2.5572211742401123 tensor(0.) tensor(0.) 0.0 0.0
2.5741708278656006 tensor(0.) tensor(0.) 0.0 0.0
2.6343414783477783 tensor(0.) tensor(0.) 0.0 0.0
2.5310795307159424 tensor(0.) tensor(0.) 0.0 0.0
2.1894025802612305 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.7768:  76%|████████████▏   | 379/500 [00:05<00:01, 68.57batch/s]

2.585676908493042 tensor(0.) tensor(0.) 0.0 0.0
2.4324750900268555 tensor(0.) tensor(0.) 0.0 0.0
2.5979745388031006 tensor(0.) tensor(0.) 0.0 0.0
3.042181968688965 tensor(0.) tensor(0.) 0.0 0.0
2.5674245357513428 tensor(0.) tensor(0.) 0.0 0.0
2.5886688232421875 tensor(0.) tensor(0.) 0.0 0.0
2.9115841388702393 tensor(0.) tensor(0.) 0.0 0.0
2.848726272583008 tensor(0.) tensor(0.) 0.0 0.0
2.6069862842559814 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.7744:  77%|████████████▎   | 386/500 [00:05<00:01, 68.65batch/s]

2.45453143119812 tensor(0.) tensor(0.) 0.0 0.0
2.5679800510406494 tensor(0.) tensor(0.) 0.0 0.0
2.5203917026519775 tensor(0.) tensor(0.) 0.0 0.0
2.7715072631835938 tensor(0.) tensor(0.) 0.0 0.0
2.620159387588501 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.7707:  79%|████████████▌   | 393/500 [00:05<00:01, 66.89batch/s]

2.615999460220337 tensor(0.) tensor(0.) 0.0 0.0
2.757650136947632 tensor(0.) tensor(0.) 0.0 0.0
2.2243492603302 tensor(0.) tensor(0.) 0.0 0.0
2.686160087585449 tensor(0.) tensor(0.) 0.0 0.0
2.581550359725952 tensor(0.) tensor(0.) 0.0 0.0
2.6426665782928467 tensor(0.) tensor(0.) 0.0 0.0
2.5510964393615723 tensor(0.) tensor(0.) 0.0 0.0
2.7204179763793945 tensor(0.) tensor(0.) 0.0 0.0
2.713116407394409 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.7685:  80%|████████████▊   | 401/500 [00:06<00:01, 68.90batch/s]

2.759774684906006 tensor(0.) tensor(0.) 0.0 0.0
2.4157886505126953 tensor(0.) tensor(0.) 0.0 0.0
2.211895704269409 tensor(0.) tensor(0.) 0.0 0.0
2.9205543994903564 tensor(0.) tensor(0.) 0.0 0.0
2.6348438262939453 tensor(0.) tensor(0.) 0.0 0.0
2.8124587535858154 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.7657:  82%|█████████████   | 409/500 [00:06<00:01, 70.82batch/s]

2.920403480529785 tensor(0.) tensor(0.) 0.0 0.0
2.7338855266571045 tensor(0.) tensor(0.) 0.0 0.0
2.556370258331299 tensor(0.) tensor(0.) 0.0 0.0
2.712078809738159 tensor(0.) tensor(0.) 0.0 0.0
2.794565439224243 tensor(0.) tensor(0.) 0.0 0.0
2.670804023742676 tensor(0.) tensor(0.) 0.0 0.0
2.3195722103118896 tensor(0.) tensor(0.) 0.0 0.0
2.615027666091919 tensor(0.) tensor(0.) 0.0 0.0
2.4183123111724854 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.7638:  83%|█████████████▎  | 417/500 [00:06<00:01, 70.36batch/s]

2.552157402038574 tensor(0.) tensor(0.) 0.0 0.0
2.9776721000671387 tensor(0.) tensor(0.) 0.0 0.0
2.598588466644287 tensor(0.) tensor(0.) 0.0 0.0
2.4953157901763916 tensor(0.) tensor(0.) 0.0 0.0
2.417318344116211 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.7616:  85%|█████████████▌  | 425/500 [00:06<00:01, 68.40batch/s]

2.6635184288024902 tensor(0.) tensor(0.) 0.0 0.0
2.5759406089782715 tensor(0.) tensor(0.) 0.0 0.0
2.4760873317718506 tensor(0.) tensor(0.) 0.0 0.0
2.528439998626709 tensor(0.) tensor(0.) 0.0 0.0
2.5451457500457764 tensor(0.) tensor(0.) 0.0 0.0
2.928676128387451 tensor(0.) tensor(0.) 0.0 0.0
2.699432134628296 tensor(0.) tensor(0.) 0.0 0.0
2.753214120864868 tensor(0.) tensor(0.) 0.0 0.0
2.556292772293091 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.7606:  85%|█████████████▌  | 425/500 [00:06<00:01, 68.40batch/s]

2.5758423805236816 tensor(0.) tensor(0.) 0.0 0.0
2.6881024837493896 tensor(0.) tensor(0.) 0.0 0.0
2.8139142990112305 tensor(0.) tensor(0.) 0.0 0.0
2.7462124824523926 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.7601:  88%|██████████████  | 439/500 [00:06<00:00, 62.07batch/s]

2.8478193283081055 tensor(0.) tensor(0.) 0.0 0.0
2.962841272354126 tensor(0.) tensor(0.) 0.0 0.0
2.9445226192474365 tensor(0.) tensor(0.) 0.0 0.0
2.566770076751709 tensor(0.) tensor(0.) 0.0 0.0
2.636507511138916 tensor(0.) tensor(0.) 0.0 0.0
2.5087709426879883 tensor(0.) tensor(0.) 0.0 0.0
2.900991916656494 tensor(0.) tensor(0.) 0.0 0.0
2.470507860183716 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.7599:  88%|██████████████  | 439/500 [00:06<00:00, 62.07batch/s]

2.779799699783325 tensor(0.) tensor(0.) 0.0 0.0
3.0388247966766357 tensor(0.) tensor(0.) 0.0 0.0
2.5525176525115967 tensor(0.) tensor(0.) 0.0 0.0
2.5901434421539307 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.7570:  89%|██████████████▎ | 446/500 [00:06<00:00, 58.99batch/s]

2.705392360687256 tensor(0.) tensor(0.) 0.0 0.0
2.7465155124664307 tensor(0.) tensor(0.) 0.0 0.0
2.4832706451416016 tensor(0.) tensor(0.) 0.0 0.0
2.6763851642608643 tensor(0.) tensor(0.) 0.0 0.0
2.332228183746338 tensor(0.) tensor(0.) 0.0 0.0
2.6919374465942383 tensor(0.) tensor(0.) 0.0 0.0
2.7428927421569824 tensor(0.) tensor(0.) 0.0 0.0
2.4014580249786377 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.7567:  90%|██████████████▍ | 452/500 [00:06<00:00, 58.64batch/s]

2.9030489921569824 tensor(0.) tensor(0.) 0.0 0.0
2.9145820140838623 tensor(0.) tensor(0.) 0.0 0.0
2.399354934692383 tensor(0.) tensor(0.) 0.0 0.0
2.686124563217163 tensor(0.) tensor(0.) 0.0 0.0
2.2668161392211914 tensor(0.) 

Epoch 1 Loss: 2.7523:  92%|██████████████▋ | 460/500 [00:07<00:00, 61.07batch/s]

tensor(0.) 0.0 0.0
2.9294397830963135 tensor(0.) tensor(0.) 0.0 0.0
2.7899835109710693 tensor(0.) tensor(0.) 0.0 0.0
2.7654647827148438 tensor(0.) tensor(0.) 0.0 0.0
2.479614019393921 tensor(0.) tensor(0.) 0.0 0.0
2.657851219177246 tensor(0.) tensor(0.) 0.0 0.0
2.4607460498809814 tensor(0.) tensor(0.) 0.0 0.0
2.2698705196380615 tensor(0.) tensor(0.) 0.0 0.0
2.792262077331543 tensor(0.) tensor(0.) 0.0 0.0
2.5632455348968506 tensor(0.) tensor(0.) 0.0 0.0
2.288311719894409 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.7511:  94%|██████████████▉ | 468/500 [00:07<00:00, 64.44batch/s]

2.52278208732605 tensor(0.) tensor(0.) 0.0 0.0
2.511854648590088 tensor(0.) tensor(0.) 0.0 0.0
2.6476309299468994 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.7482:  95%|███████████████▏| 475/500 [00:07<00:00, 64.02batch/s]

2.588838815689087 tensor(0.) tensor(0.) 0.0 0.0
2.660378932952881 tensor(0.) tensor(0.) 0.0 0.0
2.5151047706604004 tensor(0.) tensor(0.) 0.0 0.0
2.79398250579834 tensor(0.) tensor(0.) 0.0 0.0
2.432464361190796 tensor(0.) tensor(0.) 0.0 0.0
2.3647196292877197 tensor(0.) tensor(0.) 0.0 0.0
2.561028242111206 tensor(0.) tensor(0.) 0.0 0.0
2.8498635292053223 tensor(0.) tensor(0.) 0.0 0.0
2.7425432205200195 tensor(0.) tensor(0.) 0.0 0.0
2.6070122718811035 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.7478:  96%|███████████████▍| 482/500 [00:07<00:00, 64.01batch/s]

2.725039482116699 tensor(0.) tensor(0.) 0.0 0.0
2.6859445571899414 tensor(0.) tensor(0.) 0.0 0.0
2.937373399734497 tensor(0.) tensor(0.) 0.0 0.0
2.4764020442962646 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.7451:  98%|███████████████▋| 489/500 [00:07<00:00, 65.52batch/s]

2.7661876678466797 tensor(0.) tensor(0.) 0.0 0.0
2.868990898132324 tensor(0.) tensor(0.) 0.0 0.0
2.8481950759887695 tensor(0.) tensor(0.) 0.0 0.0
2.645855188369751 tensor(0.) tensor(0.) 0.0 0.0
2.472179651260376 tensor(0.) tensor(0.) 0.0 0.0
2.494706630706787 tensor(0.) tensor(0.) 0.0 0.0
2.27833890914917 tensor(0.) tensor(0.) 0.0 0.0
2.7592711448669434 tensor(0.) tensor(0.) 0.0 0.0
2.283524513244629 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.7449:  98%|███████████████▋| 489/500 [00:07<00:00, 65.52batch/s]

2.7421581745147705 tensor(0.) tensor(0.) 0.0 0.0
2.6759848594665527 tensor(0.) tensor(0.) 0.0 0.0
2.6794273853302 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.7439: 100%|████████████████| 500/500 [00:07<00:00, 65.79batch/s]

2.6019647121429443 tensor(0.) tensor(0.) 0.0 0.0
2.6709203720092773 tensor(0.) tensor(0.) 0.0 0.0
2.8580336570739746 tensor(0.) tensor(0.) 0.0 0.0
2.7192370891571045 tensor(0.) tensor(0.) 0.0 0.0
2.4120569229125977 tensor(0.) tensor(0.) 0.0 0.0



Epoch 1 Loss: 3.1017:   0%|                          | 0/500 [00:00<?, ?batch/s]

2.9548776149749756 tensor(0.) tensor(0.) 0.0 0.0
3.302151679992676 tensor(0.) tensor(0.) 0.0 0.0
3.219069719314575 tensor(0.) tensor(0.) 0.0 0.0
2.9305834770202637 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0483:   3%|▍                | 13/500 [00:00<00:07, 61.29batch/s]

3.109804630279541 tensor(0.) tensor(0.) 0.0 0.0
3.121314764022827 tensor(0.) tensor(0.) 0.0 0.0
2.969076633453369 tensor(0.) tensor(0.) 0.0 0.0
2.964545965194702 tensor(0.) tensor(0.) 0.0 0.0
3.1441268920898438 tensor(0.) tensor(0.) 0.0 0.0
2.8636481761932373 tensor(0.) tensor(0.) 0.0 0.0
3.055392265319824 tensor(0.) tensor(0.) 0.0 0.0
2.7517664432525635 tensor(0.) tensor(0.) 0.0 0.0
3.1678009033203125 tensor(0.) tensor(0.) 0.0 0.0
3.1225860118865967 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0676:   3%|▍                | 13/500 [00:00<00:07, 61.29batch/s]

3.0755560398101807 tensor(0.) tensor(0.) 0.0 0.0
2.8972692489624023 tensor(0.) tensor(0.) 0.0 0.0
3.3038852214813232 tensor(0.) tensor(0.) 0.0 0.0
3.155527114868164 tensor(0.) tensor(0.) 0.0 0.0
3.174713373184204 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.1049:   6%|▉                | 29/500 [00:00<00:06, 69.48batch/s]

3.0198862552642822 tensor(0.) tensor(0.) 0.0 0.0
3.4389002323150635 tensor(0.) tensor(0.) 0.0 0.0
3.1032488346099854 tensor(0.) tensor(0.) 0.0 0.0
3.326143741607666 tensor(0.) tensor(0.) 0.0 0.0
2.918135166168213 tensor(0.) tensor(0.) 0.0 0.0
3.2570366859436035 tensor(0.) tensor(0.) 0.0 0.0
3.023608684539795 tensor(0.) tensor(0.) 0.0 0.0
3.324910879135132 tensor(0.) tensor(0.) 0.0 0.0
3.153251886367798 tensor(0.) tensor(0.) 0.0 0.0
3.236849069595337 tensor(0.) tensor(0.) 0.0 0.0
3.0620718002319336 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.1026:   6%|▉                | 29/500 [00:00<00:06, 69.48batch/s]

2.963104009628296 tensor(0.) tensor(0.) 0.0 0.0
3.2008721828460693 tensor(0.) tensor(0.) 0.0 0.0
3.0539941787719727 tensor(0.) tensor(0.) 0.0 0.0
3.124044418334961 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0865:   9%|█▌               | 46/500 [00:00<00:06, 75.49batch/s]

3.083559989929199 tensor(0.) tensor(0.) 0.0 0.0
2.859616756439209 tensor(0.) tensor(0.) 0.0 0.0
3.0104458332061768 tensor(0.) tensor(0.) 0.0 0.0
3.03826904296875 tensor(0.) tensor(0.) 0.0 0.0
3.146700382232666 tensor(0.) tensor(0.) 0.0 0.0
3.2793140411376953 tensor(0.) tensor(0.) 0.0 0.0
3.048201084136963 tensor(0.) tensor(0.) 0.0 0.0
3.008254051208496 tensor(0.) tensor(0.) 0.0 0.0
2.7784430980682373 tensor(0.) tensor(0.) 0.0 0.0
2.9695239067077637 tensor(0.) tensor(0.) 0.0 0.0
3.0929715633392334 tensor(0.) tensor(0.) 0.0 0.0
3.1719305515289307 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0845:   9%|█▌               | 46/500 [00:00<00:06, 75.49batch/s]

2.974538564682007 tensor(0.) tensor(0.) 0.0 0.0
3.0697813034057617 tensor(0.) tensor(0.) 0.0 0.0
3.049464464187622 tensor(0.) tensor(0.) 0.0 0.0
3.1525189876556396 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0787:  11%|█▊               | 54/500 [00:00<00:05, 75.17batch/s]

3.000767230987549 tensor(0.) tensor(0.) 0.0 0.0
2.9404773712158203 tensor(0.) tensor(0.) 0.0 0.0
3.109346389770508 tensor(0.) tensor(0.) 0.0 0.0
3.0978055000305176 tensor(0.) tensor(0.) 0.0 0.0
2.932370662689209 tensor(0.) tensor(0.) 0.0 0.0
3.200129747390747 tensor(0.) tensor(0.) 0.0 0.0
3.125511884689331 tensor(0.) tensor(0.) 0.0 0.0
3.2625951766967773 tensor(0.) tensor(0.) 0.0 0.0
3.0546417236328125 tensor(0.) tensor(0.) 0.0 0.0
2.982985496520996 tensor(0.) tensor(0.) 0.0 0.0
2.8727059364318848 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0734:  12%|██               | 62/500 [00:00<00:05, 73.63batch/s]

2.989088535308838 tensor(0.) tensor(0.) 0.0 0.0
2.9757773876190186 tensor(0.) tensor(0.) 0.0 0.0
2.9245779514312744 tensor(0.) tensor(0.) 0.0 0.0
3.0768585205078125 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0818:  14%|██▍              | 70/500 [00:01<00:05, 72.70batch/s]

3.0346765518188477 tensor(0.) tensor(0.) 0.0 0.0
3.0570101737976074 tensor(0.) tensor(0.) 0.0 0.0
3.0557405948638916 tensor(0.) tensor(0.) 0.0 0.0
3.035740613937378 tensor(0.) tensor(0.) 0.0 0.0
3.227720260620117 tensor(0.) tensor(0.) 0.0 0.0
3.4869799613952637 tensor(0.) tensor(0.) 0.0 0.0
3.3696658611297607 tensor(0.) tensor(0.) 0.0 0.0
3.233788251876831 tensor(0.) tensor(0.) 0.0 0.0
2.892061233520508 tensor(0.) tensor(0.) 0.0 0.0
3.0224239826202393 tensor(0.) tensor(0.) 0.0 0.0
3.032498359680176 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0803:  16%|██▋              | 78/500 [00:01<00:05, 72.57batch/s]

2.9941823482513428 tensor(0.) tensor(0.) 0.0 0.0
2.952256441116333 tensor(0.) tensor(0.) 0.0 0.0
2.8495657444000244 tensor(0.) tensor(0.) 0.0 0.0
3.413336753845215 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0717:  17%|██▉              | 86/500 [00:01<00:05, 71.72batch/s]

3.0101828575134277 tensor(0.) tensor(0.) 0.0 0.0
3.1550533771514893 tensor(0.) tensor(0.) 0.0 0.0
3.0342440605163574 tensor(0.) tensor(0.) 0.0 0.0
3.1798758506774902 tensor(0.) tensor(0.) 0.0 0.0
3.1146399974823 tensor(0.) tensor(0.) 0.0 0.0
2.9201242923736572 tensor(0.) tensor(0.) 0.0 0.0
2.8487462997436523 tensor(0.) tensor(0.) 0.0 0.0
2.84749698638916 tensor(0.) tensor(0.) 0.0 0.0
2.9095828533172607 tensor(0.) tensor(0.) 0.0 0.0
3.0073904991149902 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0762:  19%|███▏             | 94/500 [00:01<00:05, 69.49batch/s]

3.1743013858795166 tensor(0.) tensor(0.) 0.0 0.0
3.2631232738494873 tensor(0.) tensor(0.) 0.0 0.0
3.0776402950286865 tensor(0.) tensor(0.) 0.0 0.0
3.1903109550476074 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0715:  20%|███▏            | 101/500 [00:01<00:05, 68.38batch/s]

3.1402323246002197 tensor(0.) tensor(0.) 0.0 0.0
2.970362663269043 tensor(0.) tensor(0.) 0.0 0.0
3.065188407897949 tensor(0.) tensor(0.) 0.0 0.0
3.150583505630493 tensor(0.) tensor(0.) 0.0 0.0
2.962855577468872 tensor(0.) tensor(0.) 0.0 0.0
2.9690003395080566 tensor(0.) tensor(0.) 0.0 0.0
3.0614571571350098 tensor(0.) tensor(0.) 0.0 0.0
3.0247385501861572 tensor(0.) tensor(0.) 0.0 0.0
2.8826537132263184 tensor(0.) tensor(0.) 0.0 0.0
3.0488245487213135 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0714:  20%|███▏            | 101/500 [00:01<00:05, 68.38batch/s]

3.075042724609375 tensor(0.) tensor(0.) 0.0 0.0
3.3608641624450684 tensor(0.) tensor(0.) 0.0 0.0
2.905848741531372 tensor(0.) tensor(0.) 0.0 0.0
2.9381966590881348 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0651:  23%|███▋            | 117/500 [00:01<00:05, 68.93batch/s]

3.043625831604004 tensor(0.) tensor(0.) 0.0 0.0
2.9383814334869385 tensor(0.) tensor(0.) 0.0 0.0
2.919003486633301 tensor(0.) tensor(0.) 0.0 0.0
3.0228350162506104 tensor(0.) tensor(0.) 0.0 0.0
2.9972028732299805 tensor(0.) tensor(0.) 0.0 0.0
2.9022982120513916 tensor(0.) tensor(0.) 0.0 0.0
3.111818790435791 tensor(0.) tensor(0.) 0.0 0.0
3.048466682434082 tensor(0.) tensor(0.) 0.0 0.0
3.192751884460449 tensor(0.) tensor(0.) 0.0 0.0
2.794926643371582 tensor(0.) tensor(0.) 0.0 0.0
3.2898428440093994 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0659:  23%|███▋            | 117/500 [00:01<00:05, 68.93batch/s]

2.895860195159912 tensor(0.) tensor(0.) 0.0 0.0
3.055562973022461 tensor(0.) tensor(0.) 0.0 0.0
3.113400459289551 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0594:  26%|████▏           | 131/500 [00:01<00:05, 67.27batch/s]

3.2724783420562744 tensor(0.) tensor(0.) 0.0 0.0
2.912656307220459 tensor(0.) tensor(0.) 0.0 0.0
2.9882760047912598 tensor(0.) tensor(0.) 0.0 0.0
2.9422249794006348 tensor(0.) tensor(0.) 0.0 0.0
2.9105031490325928 tensor(0.) tensor(0.) 0.0 0.0
2.9668054580688477 tensor(0.) tensor(0.) 0.0 0.0
2.9398581981658936 tensor(0.) tensor(0.) 0.0 0.0
2.9273953437805176 tensor(0.) tensor(0.) 0.0 0.0
2.919482946395874 tensor(0.) tensor(0.) 0.0 0.0
3.0260169506073 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0596:  26%|████▏           | 131/500 [00:01<00:05, 67.27batch/s]

3.2342138290405273 tensor(0.) tensor(0.) 0.0 0.0
3.0878801345825195 tensor(0.) tensor(0.) 0.0 0.0
2.8932712078094482 tensor(0.) tensor(0.) 0.0 0.0
3.050142765045166 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0588:  28%|████▍           | 138/500 [00:02<00:05, 67.14batch/s]

2.868974208831787 tensor(0.) tensor(0.) 0.0 0.0
3.2227137088775635 tensor(0.) tensor(0.) 0.0 0.0
3.1298019886016846 tensor(0.) tensor(0.) 0.0 0.0
2.7692513465881348 tensor(0.) tensor(0.) 0.0 0.0
3.191099166870117 tensor(0.) tensor(0.) 0.0 0.0
3.164346933364868 tensor(0.) tensor(0.) 0.0 0.0
2.861936092376709 tensor(0.) tensor(0.) 0.0 0.0
3.146907091140747 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0558:  29%|████▋           | 145/500 [00:02<00:05, 61.32batch/s]

3.1337668895721436 tensor(0.) tensor(0.) 0.0 0.0
2.9773168563842773 tensor(0.) tensor(0.) 0.0 0.0
2.6484110355377197 tensor(0.) tensor(0.) 0.0 0.0
3.0288140773773193 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0568:  30%|████▊           | 152/500 [00:02<00:05, 63.13batch/s]

2.9505012035369873 tensor(0.) tensor(0.) 0.0 0.0
3.093945264816284 tensor(0.) tensor(0.) 0.0 0.0
3.094022274017334 tensor(0.) tensor(0.) 0.0 0.0
2.8752493858337402 tensor(0.) tensor(0.) 0.0 0.0
3.1469838619232178 tensor(0.) tensor(0.) 0.0 0.0
2.9502882957458496 tensor(0.) tensor(0.) 0.0 0.0
3.4265201091766357 tensor(0.) tensor(0.) 0.0 0.0
3.043886184692383 tensor(0.) tensor(0.) 0.0 0.0
2.984713077545166 tensor(0.) tensor(0.) 0.0 0.0
3.1576132774353027 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0582:  32%|█████           | 159/500 [00:02<00:05, 64.20batch/s]

3.0598151683807373 tensor(0.) tensor(0.) 0.0 0.0
2.9919981956481934 tensor(0.) tensor(0.) 0.0 0.0
3.114818811416626 tensor(0.) tensor(0.) 0.0 0.0
3.2064337730407715 tensor(0.) tensor(0.) 0.0 0.0
3.1296746730804443 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0566:  33%|█████▎          | 167/500 [00:02<00:05, 66.55batch/s]

3.0186798572540283 tensor(0.) tensor(0.) 0.0 0.0
3.1998865604400635 tensor(0.) tensor(0.) 0.0 0.0
2.962968111038208 tensor(0.) tensor(0.) 0.0 0.0
2.955265522003174 tensor(0.) tensor(0.) 0.0 0.0
3.0227551460266113 tensor(0.) tensor(0.) 0.0 0.0
2.7614705562591553 tensor(0.) tensor(0.) 0.0 0.0
3.0551929473876953 tensor(0.) tensor(0.) 0.0 0.0
3.1018383502960205 tensor(0.) tensor(0.) 0.0 0.0
2.9640309810638428 tensor(0.) tensor(0.) 0.0 0.0
3.1311068534851074 tensor(0.) tensor(0.) 0.0 0.0
3.186617374420166 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0570:  35%|█████▌          | 175/500 [00:02<00:04, 69.24batch/s]

3.2716434001922607 tensor(0.) tensor(0.) 0.0 0.0
3.2374885082244873 tensor(0.) tensor(0.) 0.0 0.0
2.879232406616211 tensor(0.) tensor(0.) 0.0 0.0
2.9213075637817383 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0587:  37%|█████▊          | 183/500 [00:02<00:04, 71.58batch/s]

3.158878803253174 tensor(0.) tensor(0.) 0.0 0.0
2.9877707958221436 tensor(0.) tensor(0.) 0.0 0.0
3.1468420028686523 tensor(0.) tensor(0.) 0.0 0.0
3.090045213699341 tensor(0.) tensor(0.) 0.0 0.0
3.126121759414673 tensor(0.) tensor(0.) 0.0 0.0
2.7742197513580322 tensor(0.) tensor(0.) 0.0 0.0
2.9329161643981934 tensor(0.) tensor(0.) 0.0 0.0
3.307888984680176 tensor(0.) tensor(0.) 0.0 0.0
3.102616548538208 tensor(0.) tensor(0.) 0.0 0.0
2.959571599960327 tensor(0.) tensor(0.) 0.0 0.0
3.3384816646575928 tensor(0.) tensor(0.) 0.0 0.0
3.0722687244415283 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0582:  38%|██████          | 191/500 [00:02<00:04, 72.94batch/s]

2.7939529418945312 tensor(0.) tensor(0.) 0.0 0.0
3.178445339202881 tensor(0.) tensor(0.) 0.0 0.0
3.1929492950439453 tensor(0.) tensor(0.) 0.0 0.0
2.96844482421875 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0532:  40%|██████▎         | 199/500 [00:02<00:04, 73.08batch/s]

2.9603934288024902 tensor(0.) tensor(0.) 0.0 0.0
2.778313398361206 tensor(0.) tensor(0.) 0.0 0.0
3.0058794021606445 tensor(0.) tensor(0.) 0.0 0.0
2.7921645641326904 tensor(0.) tensor(0.) 0.0 0.0
3.2998011112213135 tensor(0.) tensor(0.) 0.0 0.0
2.8353111743927 tensor(0.) tensor(0.) 0.0 0.0
3.0036163330078125 tensor(0.) tensor(0.) 0.0 0.0
3.044311761856079 tensor(0.) tensor(0.) 0.0 0.0
2.8759779930114746 tensor(0.) tensor(0.) 0.0 0.0
3.0920276641845703 tensor(0.) tensor(0.) 0.0 0.0
2.9454269409179688 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0543:  41%|██████▌         | 207/500 [00:03<00:03, 73.45batch/s]

3.250387191772461 tensor(0.) tensor(0.) 0.0 0.0
3.0906436443328857 tensor(0.) tensor(0.) 0.0 0.0
3.3070359230041504 tensor(0.) tensor(0.) 0.0 0.0
2.8124642372131348 tensor(0.) tensor(0.) 0.0 0.0
3.025566816329956 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0496:  43%|██████▉         | 215/500 [00:03<00:03, 73.47batch/s]

2.9107723236083984 tensor(0.) tensor(0.) 0.0 0.0
2.9621422290802 tensor(0.) tensor(0.) 0.0 0.0
3.2553341388702393 tensor(0.) tensor(0.) 0.0 0.0
2.859539747238159 tensor(0.) tensor(0.) 0.0 0.0
3.0161542892456055 tensor(0.) tensor(0.) 0.0 0.0
2.9778356552124023 tensor(0.) tensor(0.) 0.0 0.0
2.950181007385254 tensor(0.) tensor(0.) 0.0 0.0
2.6319832801818848 tensor(0.) tensor(0.) 0.0 0.0
2.884774684906006 tensor(0.) tensor(0.) 0.0 0.0
3.05540132522583 tensor(0.) tensor(0.) 0.0 0.0
2.8971822261810303 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0448:  45%|███████▏        | 223/500 [00:03<00:03, 74.05batch/s]

2.924607276916504 tensor(0.) tensor(0.) 0.0 0.0
2.5498812198638916 tensor(0.) tensor(0.) 0.0 0.0
3.0211896896362305 tensor(0.) tensor(0.) 0.0 0.0
2.7773728370666504 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0421:  46%|███████▍        | 231/500 [00:03<00:03, 73.69batch/s]

2.9679765701293945 tensor(0.) tensor(0.) 0.0 0.0
3.1232101917266846 tensor(0.) tensor(0.) 0.0 0.0
3.0353915691375732 tensor(0.) tensor(0.) 0.0 0.0
2.886667251586914 tensor(0.) tensor(0.) 0.0 0.0
2.886666774749756 tensor(0.) tensor(0.) 0.0 0.0
3.270904541015625 tensor(0.) tensor(0.) 0.0 0.0
2.997714042663574 tensor(0.) tensor(0.) 0.0 0.0
3.004244327545166 tensor(0.) tensor(0.) 0.0 0.0
2.8187625408172607 tensor(0.) tensor(0.) 0.0 0.0
2.8293166160583496 tensor(0.) tensor(0.) 0.0 0.0
3.0464234352111816 tensor(0.) tensor(0.) 0.0 0.0
3.0795204639434814 

Epoch 1 Loss: 3.0414:  48%|███████▋        | 239/500 [00:03<00:03, 73.08batch/s]

tensor(0.) tensor(0.) 0.0 0.0
2.8618500232696533 tensor(0.) tensor(0.) 0.0 0.0
2.8688924312591553 tensor(0.) tensor(0.) 0.0 0.0
3.1732256412506104 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0389:  49%|███████▉        | 247/500 [00:03<00:03, 73.90batch/s]

2.8337903022766113 tensor(0.) tensor(0.) 0.0 0.0
2.9404075145721436 tensor(0.) tensor(0.) 0.0 0.0
3.4381158351898193 tensor(0.) tensor(0.) 0.0 0.0
2.9737470149993896 tensor(0.) tensor(0.) 0.0 0.0
2.9773926734924316 tensor(0.) tensor(0.) 0.0 0.0
2.9671621322631836 tensor(0.) tensor(0.) 0.0 0.0
2.8938169479370117 tensor(0.) tensor(0.) 0.0 0.0
2.869905948638916 tensor(0.) tensor(0.) 0.0 0.0
3.0920462608337402 tensor(0.) tensor(0.) 0.0 0.0
3.0012357234954834 tensor(0.) tensor(0.) 0.0 0.0
2.8597793579101562 tensor(0.) tensor(0.) 0.0 0.0
2.7043793201446533 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0351:  51%|████████▏       | 255/500 [00:03<00:03, 73.47batch/s]

2.837869167327881 tensor(0.) tensor(0.) 0.0 0.0
3.0528459548950195 tensor(0.) tensor(0.) 0.0 0.0
2.5732038021087646 tensor(0.) tensor(0.) 0.0 0.0
3.056276798248291 

Epoch 1 Loss: 3.0297:  53%|████████▍       | 263/500 [00:03<00:03, 73.72batch/s]

tensor(0.) tensor(0.) 0.0 0.0
2.8943746089935303 tensor(0.) tensor(0.) 0.0 0.0
2.7717087268829346 tensor(0.) tensor(0.) 0.0 0.0
2.7322375774383545 tensor(0.) tensor(0.) 0.0 0.0
3.006736993789673 tensor(0.) tensor(0.) 0.0 0.0
2.961238145828247 tensor(0.) tensor(0.) 0.0 0.0
2.8660013675689697 tensor(0.) tensor(0.) 0.0 0.0
2.9027369022369385 tensor(0.) tensor(0.) 0.0 0.0
3.1324803829193115 tensor(0.) tensor(0.) 0.0 0.0
2.707235813140869 tensor(0.) tensor(0.) 0.0 0.0
2.871544122695923 tensor(0.) tensor(0.) 0.0 0.0
3.0884079933166504 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0291:  53%|████████▍       | 263/500 [00:03<00:03, 73.72batch/s]

2.9275095462799072 tensor(0.) tensor(0.) 0.0 0.0
2.9436216354370117 tensor(0.) tensor(0.) 0.0 0.0
3.0392086505889893 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0293:  56%|████████▉       | 279/500 [00:03<00:03, 73.00batch/s]

3.0990102291107178 tensor(0.) tensor(0.) 0.0 0.0
3.2696213722229004 tensor(0.) tensor(0.) 0.0 0.0
2.8896689414978027 tensor(0.) tensor(0.) 0.0 0.0
2.943045139312744 tensor(0.) tensor(0.) 0.0 0.0
3.008211374282837 tensor(0.) tensor(0.) 0.0 0.0
2.8868274688720703 tensor(0.) tensor(0.) 0.0 0.0
2.9983949661254883 tensor(0.) tensor(0.) 0.0 0.0
2.9172165393829346 tensor(0.) tensor(0.) 0.0 0.0
3.0359630584716797 tensor(0.) tensor(0.) 0.0 0.0
3.096952199935913 tensor(0.) tensor(0.) 0.0 0.0
3.236520767211914 tensor(0.) tensor(0.) 0.0 0.0
2.80385160446167 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0296:  56%|████████▉       | 279/500 [00:04<00:03, 73.00batch/s]

3.0788257122039795 tensor(0.) tensor(0.) 0.0 0.0
2.9980642795562744 tensor(0.) tensor(0.) 0.0 0.0
3.3172314167022705 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0283:  59%|█████████▍      | 295/500 [00:04<00:02, 70.49batch/s]

3.1600747108459473 tensor(0.) tensor(0.) 0.0 0.0
2.7740371227264404 tensor(0.) tensor(0.) 0.0 0.0
3.2098052501678467 tensor(0.) tensor(0.) 0.0 0.0
3.0279381275177 tensor(0.) tensor(0.) 0.0 0.0
3.0140230655670166 tensor(0.) tensor(0.) 0.0 0.0
2.9711523056030273 tensor(0.) tensor(0.) 0.0 0.0
2.9881274700164795 tensor(0.) tensor(0.) 0.0 0.0
2.7924630641937256 tensor(0.) tensor(0.) 0.0 0.0
3.043139696121216 tensor(0.) tensor(0.) 0.0 0.0
2.975449800491333 tensor(0.) tensor(0.) 0.0 0.0
2.9855496883392334 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0283:  59%|█████████▍      | 295/500 [00:04<00:02, 70.49batch/s]

3.1736907958984375 tensor(0.) tensor(0.) 0.0 0.0
2.965012311935425 tensor(0.) tensor(0.) 0.0 0.0
2.965092420578003 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0289:  61%|█████████▋      | 303/500 [00:04<00:02, 70.89batch/s]

3.269033432006836 tensor(0.) tensor(0.) 0.0 0.0
2.793151617050171 tensor(0.) tensor(0.) 0.0 0.0
3.1318469047546387 tensor(0.) tensor(0.) 0.0 0.0
2.8267321586608887 tensor(0.) tensor(0.) 0.0 0.0
3.0007379055023193 tensor(0.) tensor(0.) 0.0 0.0
3.1055655479431152 tensor(0.) tensor(0.) 0.0 0.0
2.735386610031128 tensor(0.) tensor(0.) 0.0 0.0
3.2017288208007812 tensor(0.) tensor(0.) 0.0 0.0
3.001307964324951 tensor(0.) tensor(0.) 0.0 0.0
3.3792083263397217 tensor(0.) tensor(0.) 0.0 0.0
3.0487782955169678 tensor(0.) tensor(0.) 0.0 0.0
2.957092046737671 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0270:  62%|█████████▉      | 311/500 [00:04<00:02, 70.14batch/s]

2.9013702869415283 tensor(0.) tensor(0.) 0.0 0.0
2.9000654220581055 tensor(0.) tensor(0.) 0.0 0.0
2.758683443069458 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0226:  64%|██████████▏     | 319/500 [00:04<00:02, 70.54batch/s]

3.134108066558838 tensor(0.) tensor(0.) 0.0 0.0
3.311264991760254 tensor(0.) tensor(0.) 0.0 0.0
2.8589928150177 tensor(0.) tensor(0.) 0.0 0.0
2.9632625579833984 tensor(0.) tensor(0.) 0.0 0.0
2.8822195529937744 tensor(0.) tensor(0.) 0.0 0.0
3.234313726425171 tensor(0.) tensor(0.) 0.0 0.0
2.8381993770599365 tensor(0.) tensor(0.) 0.0 0.0
3.005249261856079 tensor(0.) tensor(0.) 0.0 0.0
2.747637987136841 tensor(0.) tensor(0.) 0.0 0.0
2.4742250442504883 tensor(0.) tensor(0.) 0.0 0.0
2.5398199558258057 tensor(0.) tensor(0.) 0.0 0.0
2.9015557765960693 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0220:  65%|██████████▍     | 327/500 [00:04<00:02, 71.85batch/s]

2.9729413986206055 tensor(0.) tensor(0.) 0.0 0.0
2.678866386413574 tensor(0.) tensor(0.) 0.0 0.0
3.201303720474243 tensor(0.) tensor(0.) 0.0 0.0
3.0442111492156982 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0172:  67%|██████████▋     | 335/500 [00:04<00:02, 72.93batch/s]

2.880073308944702 tensor(0.) tensor(0.) 0.0 0.0
2.796346664428711 tensor(0.) tensor(0.) 0.0 0.0
2.5779547691345215 tensor(0.) tensor(0.) 0.0 0.0
3.0210089683532715 tensor(0.) tensor(0.) 0.0 0.0
2.8180313110351562 tensor(0.) tensor(0.) 0.0 0.0
2.895068407058716 tensor(0.) tensor(0.) 0.0 0.0
3.0419957637786865 tensor(0.) tensor(0.) 0.0 0.0
2.7243282794952393 tensor(0.) tensor(0.) 0.0 0.0
2.8969650268554688 tensor(0.) tensor(0.) 0.0 0.0
2.8560988903045654 tensor(0.) tensor(0.) 0.0 0.0
3.0993332862854004 tensor(0.) tensor(0.) 0.0 0.0
2.9784624576568604 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0154:  69%|██████████▉     | 343/500 [00:04<00:02, 73.41batch/s]

2.9851834774017334 tensor(0.) tensor(0.) 0.0 0.0
3.0119869709014893 tensor(0.) tensor(0.) 0.0 0.0
2.8724865913391113 tensor(0.) tensor(0.) 0.0 0.0
2.616867780685425 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0140:  70%|███████████▏    | 351/500 [00:05<00:02, 72.74batch/s]

2.98569393157959 tensor(0.) tensor(0.) 0.0 0.0
3.0492355823516846 tensor(0.) tensor(0.) 0.0 0.0
2.7260425090789795 tensor(0.) tensor(0.) 0.0 0.0
2.905229091644287 tensor(0.) tensor(0.) 0.0 0.0
2.636232376098633 tensor(0.) tensor(0.) 0.0 0.0
3.040708303451538 tensor(0.) tensor(0.) 0.0 0.0
2.9864931106567383 tensor(0.) tensor(0.) 0.0 0.0
3.0211195945739746 tensor(0.) tensor(0.) 0.0 0.0
3.385188102722168 tensor(0.) tensor(0.) 0.0 0.0
3.1193201541900635 tensor(0.) tensor(0.) 0.0 0.0
2.800222873687744 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0132:  72%|███████████▍    | 359/500 [00:05<00:01, 72.43batch/s]

3.2084455490112305 tensor(0.) tensor(0.) 0.0 0.0
2.778407573699951 tensor(0.) tensor(0.) 0.0 0.0
2.974153518676758 tensor(0.) tensor(0.) 0.0 0.0
2.7939865589141846 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0089:  73%|███████████▋    | 367/500 [00:05<00:01, 71.98batch/s]

3.151503801345825 tensor(0.) tensor(0.) 0.0 0.0
2.9031057357788086 tensor(0.) tensor(0.) 0.0 0.0
2.812730073928833 tensor(0.) tensor(0.) 0.0 0.0
2.862314224243164 tensor(0.) tensor(0.) 0.0 0.0
2.745068073272705 tensor(0.) tensor(0.) 0.0 0.0
3.068742036819458 tensor(0.) tensor(0.) 0.0 0.0
2.5953402519226074 tensor(0.) tensor(0.) 0.0 0.0
3.0974016189575195 tensor(0.) tensor(0.) 0.0 0.0
2.770467758178711 tensor(0.) tensor(0.) 0.0 0.0
2.708919048309326 tensor(0.) tensor(0.) 0.0 0.0
2.8428544998168945 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0079:  75%|████████████    | 375/500 [00:05<00:01, 72.65batch/s]

2.906222343444824 tensor(0.) tensor(0.) 0.0 0.0
2.809107780456543 tensor(0.) tensor(0.) 0.0 0.0
3.1170120239257812 tensor(0.) tensor(0.) 0.0 0.0
2.8141674995422363 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0053:  77%|████████████▎   | 383/500 [00:05<00:01, 73.55batch/s]

2.903000831604004 tensor(0.) tensor(0.) 0.0 0.0
3.0763461589813232 tensor(0.) tensor(0.) 0.0 0.0
2.9141860008239746 tensor(0.) tensor(0.) 0.0 0.0
2.7786242961883545 tensor(0.) tensor(0.) 0.0 0.0
2.71073579788208 tensor(0.) tensor(0.) 0.0 0.0
3.074483871459961 tensor(0.) tensor(0.) 0.0 0.0
2.9127330780029297 tensor(0.) tensor(0.) 0.0 0.0
2.9650213718414307 tensor(0.) tensor(0.) 0.0 0.0
2.8262441158294678 tensor(0.) tensor(0.) 0.0 0.0
2.926145076751709 tensor(0.) tensor(0.) 0.0 0.0
2.720306634902954 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0032:  78%|████████████▌   | 391/500 [00:05<00:01, 72.37batch/s]

2.682131767272949 tensor(0.) tensor(0.) 0.0 0.0
2.965160608291626 tensor(0.) tensor(0.) 0.0 0.0
3.0819780826568604 tensor(0.) tensor(0.) 0.0 0.0
2.748425245285034 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9998:  80%|████████████▊   | 399/500 [00:05<00:01, 74.50batch/s]

2.9288294315338135 tensor(0.) tensor(0.) 0.0 0.0
2.659968376159668 tensor(0.) tensor(0.) 0.0 0.0
2.853269338607788 tensor(0.) tensor(0.) 0.0 0.0
3.0577094554901123 tensor(0.) tensor(0.) 0.0 0.0
2.686929941177368 tensor(0.) tensor(0.) 0.0 0.0
3.2684617042541504 tensor(0.) tensor(0.) 0.0 0.0
2.828387975692749 tensor(0.) tensor(0.) 0.0 0.0
2.8258438110351562 tensor(0.) tensor(0.) 0.0 0.0
2.8884384632110596 tensor(0.) tensor(0.) 0.0 0.0
2.8128902912139893 tensor(0.) tensor(0.) 0.0 0.0
2.838905096054077 tensor(0.) tensor(0.) 0.0 0.0
3.030702829360962 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 3.0002:  81%|█████████████   | 407/500 [00:05<00:01, 74.23batch/s]

2.8261492252349854 tensor(0.) tensor(0.) 0.0 0.0
2.928741216659546 tensor(0.) tensor(0.) 0.0 0.0
3.1428472995758057 tensor(0.) tensor(0.) 0.0 0.0
3.257988929748535 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9975:  83%|█████████████▎  | 415/500 [00:05<00:01, 73.56batch/s]

2.895056962966919 tensor(0.) tensor(0.) 0.0 0.0
2.7895021438598633 tensor(0.) tensor(0.) 0.0 0.0
2.616882562637329 tensor(0.) tensor(0.) 0.0 0.0
3.016850233078003 tensor(0.) tensor(0.) 0.0 0.0
2.9160616397857666 tensor(0.) tensor(0.) 0.0 0.0
2.891362190246582 tensor(0.) tensor(0.) 0.0 0.0
3.3216729164123535 tensor(0.) tensor(0.) 0.0 0.0
2.920491933822632 tensor(0.) tensor(0.) 0.0 0.0
2.992550849914551 tensor(0.) tensor(0.) 0.0 0.0
2.637366533279419 tensor(0.) tensor(0.) 0.0 0.0
2.8637285232543945 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9960:  83%|█████████████▎  | 415/500 [00:05<00:01, 73.56batch/s]

2.8701980113983154 tensor(0.) tensor(0.) 0.0 0.0
2.816699504852295 tensor(0.) tensor(0.) 0.0 0.0
2.936408042907715 tensor(0.) tensor(0.) 0.0 0.0
2.769659996032715 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9945:  86%|█████████████▊  | 431/500 [00:06<00:00, 73.31batch/s]

2.7327518463134766 tensor(0.) tensor(0.) 0.0 0.0
3.016064405441284 tensor(0.) tensor(0.) 0.0 0.0
2.868229389190674 tensor(0.) tensor(0.) 0.0 0.0
2.66580867767334 tensor(0.) tensor(0.) 0.0 0.0
2.8155441284179688 tensor(0.) tensor(0.) 0.0 0.0
2.9038045406341553 tensor(0.) tensor(0.) 0.0 0.0
3.268906831741333 tensor(0.) tensor(0.) 0.0 0.0
3.355287790298462 tensor(0.) tensor(0.) 0.0 0.0
2.7369112968444824 tensor(0.) tensor(0.) 0.0 0.0
2.9340298175811768 tensor(0.) tensor(0.) 0.0 0.0
3.0052261352539062 tensor(0.) tensor(0.) 0.0 0.0
2.7788095474243164 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9933:  86%|█████████████▊  | 431/500 [00:06<00:00, 73.31batch/s]

3.1367571353912354 tensor(0.) tensor(0.) 0.0 0.0
2.747145175933838 tensor(0.) tensor(0.) 0.0 0.0
2.7680442333221436 tensor(0.) tensor(0.) 0.0 0.0
2.844182014465332 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9910:  89%|██████████████▎ | 447/500 [00:06<00:00, 72.82batch/s]

2.93375301361084 tensor(0.) tensor(0.) 0.0 0.0
2.9114837646484375 tensor(0.) tensor(0.) 0.0 0.0
2.885190725326538 tensor(0.) tensor(0.) 0.0 0.0
2.8143346309661865 tensor(0.) tensor(0.) 0.0 0.0
3.165032386779785 tensor(0.) tensor(0.) 0.0 0.0
3.144622802734375 tensor(0.) tensor(0.) 0.0 0.0
2.879878044128418 tensor(0.) tensor(0.) 0.0 0.0
3.037930965423584 tensor(0.) tensor(0.) 0.0 0.0
2.6624672412872314 tensor(0.) tensor(0.) 0.0 0.0
3.1218068599700928 tensor(0.) tensor(0.) 0.0 0.0
2.7949883937835693 tensor(0.) tensor(0.) 0.0 0.0
2.7052712440490723 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9906:  89%|██████████████▎ | 447/500 [00:06<00:00, 72.82batch/s]

2.837899684906006 tensor(0.) tensor(0.) 0.0 0.0
3.0484743118286133 tensor(0.) tensor(0.) 0.0 0.0
2.898268461227417 tensor(0.) tensor(0.) 0.0 0.0
2.9722537994384766 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9864:  93%|██████████████▊ | 463/500 [00:06<00:00, 73.11batch/s]

2.935147762298584 tensor(0.) tensor(0.) 0.0 0.0
2.9524848461151123 tensor(0.) tensor(0.) 0.0 0.0
2.6689870357513428 tensor(0.) tensor(0.) 0.0 0.0
2.6691927909851074 tensor(0.) tensor(0.) 0.0 0.0
2.9274823665618896 tensor(0.) tensor(0.) 0.0 0.0
2.860299587249756 tensor(0.) tensor(0.) 0.0 0.0
3.0956966876983643 tensor(0.) tensor(0.) 0.0 0.0
2.8782379627227783 tensor(0.) tensor(0.) 0.0 0.0
2.689755916595459 tensor(0.) tensor(0.) 0.0 0.0
2.605457067489624 tensor(0.) tensor(0.) 0.0 0.0
2.663701057434082 tensor(0.) tensor(0.) 0.0 0.0
3.037707567214966 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9867:  93%|██████████████▊ | 463/500 [00:06<00:00, 73.11batch/s]

3.1998586654663086 tensor(0.) tensor(0.) 0.0 0.0
2.997023820877075 tensor(0.) tensor(0.) 0.0 0.0
2.84397554397583 tensor(0.) tensor(0.) 0.0 0.0
2.6994171142578125 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9830:  96%|███████████████▎| 479/500 [00:06<00:00, 71.59batch/s]

2.7580831050872803 tensor(0.) tensor(0.) 0.0 0.0
2.5682342052459717 tensor(0.) tensor(0.) 0.0 0.0
3.0283315181732178 tensor(0.) tensor(0.) 0.0 0.0
2.7920665740966797 tensor(0.) tensor(0.) 0.0 0.0
3.1581530570983887 tensor(0.) tensor(0.) 0.0 0.0
2.7649986743927 tensor(0.) tensor(0.) 0.0 0.0
3.0056333541870117 tensor(0.) tensor(0.) 0.0 0.0
2.500955820083618 tensor(0.) tensor(0.) 0.0 0.0
2.950577974319458 tensor(0.) tensor(0.) 0.0 0.0
2.8024203777313232 tensor(0.) tensor(0.) 0.0 0.0
3.0438730716705322 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9823:  96%|███████████████▎| 479/500 [00:06<00:00, 71.59batch/s]

2.7509682178497314 tensor(0.) tensor(0.) 0.0 0.0
2.855229139328003 tensor(0.) tensor(0.) 0.0 0.0
3.0020720958709717 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9805:  99%|███████████████▊| 495/500 [00:06<00:00, 71.60batch/s]

2.958977460861206 tensor(0.) tensor(0.) 0.0 0.0
3.095050573348999 tensor(0.) tensor(0.) 0.0 0.0
3.00820255279541 tensor(0.) tensor(0.) 0.0 0.0
2.863396406173706 tensor(0.) tensor(0.) 0.0 0.0
2.9008283615112305 tensor(0.) tensor(0.) 0.0 0.0
3.1650779247283936 tensor(0.) tensor(0.) 0.0 0.0
3.0341506004333496 tensor(0.) tensor(0.) 0.0 0.0
2.750601291656494 tensor(0.) tensor(0.) 0.0 0.0
2.7961461544036865 tensor(0.) tensor(0.) 0.0 0.0
2.641220808029175 tensor(0.) tensor(0.) 0.0 0.0
2.679739475250244 tensor(0.) tensor(0.) 0.0 0.0
3.0127458572387695 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9790:  99%|███████████████▊| 495/500 [00:06<00:00, 71.60batch/s]

2.9895544052124023 tensor(0.) tensor(0.) 0.0 0.0
2.8195157051086426 tensor(0.) tensor(0.) 0.0 0.0
2.665419340133667 tensor(0.) tensor(0.) 0.0 0.0
2.7094738483428955 tensor(0.) tensor(0.) 0.0 0.0


Epoch 1 Loss: 2.9790: 100%|████████████████| 500/500 [00:07<00:00, 71.22batch/s]


In [15]:
# def plot_loss_and_combined_loss(batch_range, loss_log, combined_loss_log, title):
#     plt.figure(figsize=(10, 6))
#     plt.plot(batch_range, loss_log, label='Loss')
#     plt.plot(batch_range, combined_loss_log, label='Total Loss')
#     plt.title(title)
#     plt.xlabel('Batches')
#     plt.ylabel('Loss')
#     plt.legend()
#     plt.show()

# def plot_fairness_metrics(batch_range, fairness_penalty_sp_log, fairness_penalty_eo_log, fairness_penalty_approx_log, fairness_penalty_approx_eo_log, title):
#     plt.figure(figsize=(10, 6))
#     plt.plot(batch_range, fairness_penalty_sp_log, label='Fairness Penalty SP')
#     plt.plot(batch_range, fairness_penalty_eo_log, label='Fairness Penalty EO')
#     plt.plot(batch_range, fairness_penalty_approx_log, label='Fairness Penalty Approx')
#     plt.plot(batch_range, fairness_penalty_approx_eo_log, label='Fairness Penalty Approx EO')
#     plt.title(title)
#     plt.xlabel('Batches')
#     plt.ylabel('Fairness Penalties')
#     plt.legend()
#     plt.show()

# # 500 batches per epoch and 2 epochs
# total_batches = 500 * num_epochs
# batch_range = np.arange(total_batches)

# # For Teacher
# plot_loss_and_combined_loss(batch_range, teacher_loss_log, teacher_combined_loss_log, 'Teacher Loss and Total Loss')
# plot_fairness_metrics(batch_range, teacher_fairness_penalty_sp_log, teacher_fairness_penalty_eo_log, teacher_fairness_penalty_approx_log, teacher_fairness_penalty_approx_eo_log, 'Teacher Fairness Penalties')

# # For Student
# plot_loss_and_combined_loss(batch_range, student_loss_log, student_combined_loss_log, 'Student Loss and Total Loss')
# plot_fairness_metrics(batch_range, student_fairness_penalty_sp_log, student_fairness_penalty_eo_log, student_fairness_penalty_approx_log, student_fairness_penalty_approx_eo_log, 'Student Fairness Penalties')

In [16]:
# def get_model_size(model):
#     torch.save(model.state_dict(), "temp.p")
#     model_size = os.path.getsize("temp.p")
#     os.remove('temp.p')
#     return model_size
    
# def get_num_parameters(model):
#     return sum(p.numel() for p in model.parameters())

# teacher_model_size = get_model_size(teacher)
# student_model_size = get_model_size(student)
# teacher_num_parameters = get_num_parameters(teacher)
# student_num_parameters = get_num_parameters(student)

In [17]:
# Evaluation and Metrics
def evaluate(model, dataloader):
    model.eval()
    all_labels = []
    all_preds = []
    start_time = time.time()
    with torch.no_grad():
        for data in dataloader:
            inputs, labels = data
            inputs, labels = inputs.to(device), labels.to(device)
            outputs = model(inputs)
            _, preds = torch.max(outputs.data, 1)
            all_labels.append(labels.cpu().numpy())
            all_preds.append(preds.cpu().numpy())
    end_time = time.time()
    inference_time = end_time - start_time
    all_labels = np.concatenate(all_labels)
    all_preds = np.concatenate(all_preds)
    precision = precision_score(all_labels, all_preds, average='weighted')
    recall = recall_score(all_labels, all_preds, average='weighted')
    accuracy = accuracy_score(all_labels, all_preds)
    f1 = f1_score(all_labels, all_preds, average='weighted')
    return inference_time, precision, recall, accuracy, f1


In [18]:
# def plot_loss_components(epoch_range, loss_log, combined_loss_log, title):
#     plt.figure(figsize=(10, 6))
#     plt.plot(epoch_range, loss_log, label='Loss')
#     plt.plot(epoch_range, combined_loss_log, label='Combined Loss')
#     plt.title(title)
#     plt.xlabel('Epochs')
#     plt.ylabel('Loss')
#     plt.legend()
#     plt.show()

# def plot_fairness_components(epoch_range, fairness_penalty_sp_log, fairness_penalty_eo_log, fairness_penalty_approx_log, fairness_penalty_approx_eo_log, title):
#     plt.figure(figsize=(10, 6))
#     plt.plot(epoch_range, fairness_penalty_sp_log, label='Fairness Penalty SP')
#     plt.plot(epoch_range, fairness_penalty_eo_log, label='Fairness Penalty EO')
#     plt.plot(epoch_range, fairness_penalty_approx_log, label='Fairness Penalty Approx')
#     plt.plot(epoch_range, fairness_penalty_approx_eo_log, label='Fairness Penalty Approx EO')
#     plt.title(title)
#     plt.xlabel('Epochs')
#     plt.ylabel('Loss')
#     plt.legend()
#     plt.show()

In [19]:
# def calculate_average_per_epoch(values, batches_per_epoch):
#     return [sum(values[i*batches_per_epoch:(i+1)*batches_per_epoch])/batches_per_epoch for i in range(num_epochs)]


In [20]:
# # Compute average values per epoch for each log
# teacher_loss_avg = calculate_average_per_epoch(teacher_loss_log, 500)
# teacher_combined_loss_avg = calculate_average_per_epoch(teacher_combined_loss_log, 500)
# teacher_fairness_penalty_sp_avg = calculate_average_per_epoch(teacher_fairness_penalty_sp_log, 500)
# teacher_fairness_penalty_eo_avg = calculate_average_per_epoch(teacher_fairness_penalty_eo_log, 500)
# teacher_fairness_penalty_approx_avg = calculate_average_per_epoch(teacher_fairness_penalty_approx_log, 500)
# teacher_fairness_penalty_approx_eo_avg = calculate_average_per_epoch(teacher_fairness_penalty_approx_eo_log, 500)

# student_loss_avg = calculate_average_per_epoch(student_loss_log, 500)
# student_combined_loss_avg = calculate_average_per_epoch(student_combined_loss_log, 500)
# student_fairness_penalty_sp_avg = calculate_average_per_epoch(student_fairness_penalty_sp_log, 500)
# student_fairness_penalty_eo_avg = calculate_average_per_epoch(student_fairness_penalty_eo_log, 500)
# student_fairness_penalty_approx_avg = calculate_average_per_epoch(student_fairness_penalty_approx_log, 500)
# student_fairness_penalty_approx_eo_avg = calculate_average_per_epoch(student_fairness_penalty_approx_eo_log, 500)


In [21]:
# # Assuming each loss log has one entry per epoch
# epoch_range = np.arange(num_epochs)

# # Plot for Teacher
# plot_loss_components(epoch_range, teacher_loss_avg, teacher_combined_loss_avg, 'Teacher Loss Components')
# plot_fairness_components(epoch_range, teacher_fairness_penalty_sp_avg, teacher_fairness_penalty_eo_avg, teacher_fairness_penalty_approx_avg, teacher_fairness_penalty_approx_eo_avg, 'Teacher Fairness Components')

# # Plot for Student
# plot_loss_components(epoch_range, student_loss_avg, student_combined_loss_avg, 'Student Loss Components')
# plot_fairness_components(epoch_range, student_fairness_penalty_sp_avg, student_fairness_penalty_eo_avg, student_fairness_penalty_approx_avg, student_fairness_penalty_approx_eo_avg, 'Student Fairness Components')


In [22]:
# Get metrics for both teacher and student
metrics_teacher = evaluate(teacher, testloader)
metrics_student = evaluate(student, testloader)
print('Teacher Metrics:', metrics_teacher)
print('Student Metrics:', metrics_student)

Teacher Metrics: (1.4128773212432861, 0.36201477080041955, 0.3391, 0.3391, 0.3287979733028897)
Student Metrics: (1.2786328792572021, 0.3042427291053151, 0.2816, 0.2816, 0.2681833395352643)


In [23]:
# Save the trained student model architecture and weights
torch.save(student.state_dict(), 'student_weights.pth')
torch.save(student.state_dict(), 'teacher_weights.pth')

# Save the model architecture to a file
with open('student_architecture.json', 'w') as f:
    f.write(str(student))

In [24]:
# # Create a new instance of ModifiableStudent
# num_new_classes = 52
# new_student = ModifiableStudent(num_classes=num_new_classes)

# # Load the state dictionary from the saved model file
# original_student_state_dict = torch.load('student_model.pth', map_location='cpu')

# # Filter out the fc2 layer from the original state dictionary and load it into the new_student instance
# new_student.load_state_dict({k: v for k, v in original_student_state_dict.items() if 'fc2' not in k}, strict=False)

# # Save the new model to a TorchScript .pt file
# new_student_scripted = torch.jit.script(new_student)
# new_student_scripted.save("new_student_model.pt")

In [25]:
# # Gather your metrics
# general_metrics = ['Precision', 'Recall', 'F1', 'Accuracy']
# teacher_general_metrics = list(metrics_teacher[1:])
# student_general_metrics = list(metrics_student[1:])

# x = np.arange(len(general_metrics))  # the label locations
# width = 0.35  # the width of the bars

# fig, axs = plt.subplots(4, 1, figsize=(10, 20))

# # Plot general metrics
# ax = axs[0]
# rects1 = ax.bar(x - width/2, teacher_general_metrics, width, label='Teacher')
# rects2 = ax.bar(x + width/2, student_general_metrics, width, label='Student')
# ax.set_xlabel('Metrics')
# ax.set_title('General Metrics by model and metric type')
# ax.set_xticks(x)
# ax.set_xticklabels(general_metrics)
# ax.legend()

# # Plot Inference Time
# ax = axs[1]
# rects1 = ax.bar(0 - width/2, metrics_teacher[0], width, label='Teacher')
# rects2 = ax.bar(0 + width/2, metrics_student[0], width, label='Student')
# ax.set_title('Inference Time by model')
# ax.set_ylabel('Time (seconds)')
# ax.set_xticks([0])
# ax.set_xticklabels(['Inference Time'])
# ax.legend()

# # Plot Number of Parameters
# ax = axs[2]
# rects1 = ax.bar(0 - width/2, teacher_num_parameters, width, label='Teacher')
# rects2 = ax.bar(0 + width/2, student_num_parameters, width, label='Student')
# ax.set_title('Number of Parameters by model')
# ax.set_ylabel('Number of Parameters')
# ax.set_xticks([0])
# ax.set_xticklabels(['Number of Parameters'])
# ax.legend()

# # Plot Model Size
# ax = axs[3]
# rects1 = ax.bar(0 - width/2, teacher_model_size, width, label='Teacher')
# rects2 = ax.bar(0 + width/2, student_model_size, width, label='Student')
# ax.set_title('Model Size by model')
# ax.set_ylabel('Size (bytes)')
# ax.set_xticks([0])
# ax.set_xticklabels(['Model Size'])
# ax.legend()

# fig.tight_layout()
# plt.show()