## Knowledge distillation 

In [1]:

from torchvision import datasets, transforms
import torch
import pandas as pd
import numpy as np
from torch.utils.data import Dataset
from torch import nn, optim
import torch.nn.functional as F
import matplotlib.pyplot as plt
from tqdm import tqdm
import torch.nn.utils.prune as prune
import time,os,copy
import random

In [2]:
# to make the note book reproducable
def seed_all(seed):
    if not seed:
        seed = 10
    torch.manual_seed(seed)
    torch.cuda.manual_seed_all(seed)
    torch.cuda.manual_seed(seed)
    np.random.seed(seed)
    random.seed(seed)
    torch.backends.cudnn.deterministic = True
    torch.backends.cudnn.benchmark = False
seed_all(1)

In [3]:
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

In [26]:

class Data(Dataset):
    """
    Define Dataset
    """
    def __init__(self,data):
        self.data = data
        # pd.read_csv('mnist_train_small.csv').iloc[:][1:]
#         np.array(train.iloc[:][1:])
        self.x=np.array(self.data.iloc[:,1:])
        self.y= np.array(self.data.iloc[:,0])
    def __len__(self):
        return len(self.x)

    def __getitem__(self, idx):
        return self.x[idx], self.y[idx]


In [5]:
# hyper paramters
criterion = nn.CrossEntropyLoss()
epoches=20
bs=32
epoches=50
lr=.001

In [27]:
# Here I used a small verison of the mnsit thet come on google colab by default
train_set=torch.utils.data.DataLoader(Data( pd.read_csv('mnist_train_small.csv').iloc[:][1:]), batch_size=bs)
test=torch.utils.data.DataLoader(Data(pd.read_csv('mnist_test.csv').iloc[:][1:]), batch_size=bs,shuffle=True)

In [8]:
class LeNet(nn.Module):
    """ Lenet model """
    def __init__(self):
        super(LeNet, self).__init__()
        # 1 input image channel, 6 output channels, 3x3 square conv kernel
        self.conv1 = nn.Conv2d(1, 6, 3)
        self.conv2 = nn.Conv2d(6, 16, 3)
        self.fc1 = nn.Linear(16 * 5 * 5, 120)  # 5x5 image dimension
        self.fc2 = nn.Linear(120, 84)
        self.fc3 = nn.Linear(84, 10)

    def forward(self, x):
        x = F.max_pool2d(F.relu(self.conv1(x)), (2, 2))
        x = F.max_pool2d(F.relu(self.conv2(x)), 2)
        x = x.view(-1, int(x.nelement() / x.shape[0]))
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        x = self.fc3(x)
        return x

In [9]:
def train (model,teacher,train_set,loss_criterion,soft=False):
    optimizer = torch.optim.SGD(model.parameters(), lr=.001)
    
    model.train()
    model.to(device)
    
    if soft:
      teacher.eval()
      kl_div_loss = nn.KLDivLoss(log_target=True)
      soft_targets_weight: float = 100.
      temperature: float = 10
      label_loss_weight: float = 0.5;

    for epoch in tqdm(range(100)):

        
        for images, labels in train_set: 

            images=images.reshape(-1,1,28,28).float()
            images=images.to(device)
            outputs = model(images) 

            labels = labels.to(device)        
            # Forward pass
            loss = loss_criterion(outputs, labels)
            
            # this is he key step
            # is the training is with distillation soft is True
            # the loss will be adjusted further
            if soft:
                # the predictions of the teacher
                large_logits = teacher(images)
                
                # the predictions of the teacher are magnified with a temprature
                soft_targets = nn.functional.log_softmax(large_logits /temperature, dim=-1)
                
                # do softmax
                soft_prob = nn.functional.log_softmax(outputs / temperature, dim=-1)
                
                # loss for soft 
                soft_targets_loss = kl_div_loss(soft_prob, soft_targets)

                # label_loss = loss_func(outputs, labels)
                loss = soft_targets_weight * soft_targets_loss + label_loss_weight * loss


            # Backward and optimize
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()
        print( 'loss : ', loss.item())

In [10]:
def evaluate_model(model,test):
    """ This is the conventional loss function"""
    model.eval()
    model.to(device)
    n_samples = len(test)
    with torch.no_grad():
      n_correct = 0
      for images, labels in test:
          images=images.reshape(-1,1,28,28).float()
          # images = images.reshape(-1, 28*28).to(device)

          labels = labels.to(device);        
          images = images.to(device)
          
          outputs = model(images)
          _, predicted = torch.max(outputs.data, 1)
          n_samples += labels.size(0)
          n_correct += (predicted == labels).sum().item()

      return 100.0 * n_correct / n_samples

In [11]:
teacher=LeNet().to(device)
teacher.load_state_dict(torch.load('Lenet95', map_location=device))

<All keys matched successfully>

In [12]:
class smaller_LeNet(nn.Module):
    """
    Define a smaller network
    """
    def __init__(self):
        super(smaller_LeNet, self).__init__()
        self.conv1 = nn.Conv2d(1, 6, 3)
        self.conv2 = nn.Conv2d(6, 16, 3)
        self.fc1 = nn.Linear(16 * 5 * 5, 10) 

    def forward(self, x):
        x = F.max_pool2d(F.relu(self.conv1(x)), (2, 2))
        x = F.max_pool2d(F.relu(self.conv2(x)), 2)
        x = x.view(-1, int(x.nelement() / x.shape[0]))
        x = self.fc1(x)
        return x

In [19]:
# to make sure the models start from equal 

student=smaller_LeNet()

scratch=copy.deepcopy(student)

In [20]:
# keep the models initial accuracy  
teacher_acc=evaluate_model(teacher,test)
std_acc=evaluate_model(student,test)
scr_acc=evaluate_model(scratch,test)

In [21]:
std_acc,scr_acc, teacher_acc

(4.597032295606634, 4.597032295606634, 95.75210939773058)

In [22]:
# train (model,teacher,train_set,loss_criterion,soft=False):
train(scratch,teacher, train_set,criterion)

train(student,teacher, train_set,criterion,soft=True)

  1%|█                                                                                                      | 1/100 [00:03<05:00,  3.03s/it]

loss :  0.3419564366340637


  2%|██                                                                                                     | 2/100 [00:05<04:49,  2.95s/it]

loss :  0.26173868775367737


  3%|███                                                                                                    | 3/100 [00:08<04:42,  2.91s/it]

loss :  0.2223328948020935


  4%|████                                                                                                   | 4/100 [00:11<04:25,  2.76s/it]

loss :  0.1888846457004547


  5%|█████▏                                                                                                 | 5/100 [00:13<04:17,  2.71s/it]

loss :  0.1615857034921646


  6%|██████▏                                                                                                | 6/100 [00:18<05:06,  3.26s/it]

loss :  0.14267556369304657


  7%|███████▏                                                                                               | 7/100 [00:22<05:24,  3.49s/it]

loss :  0.12496798485517502


  8%|████████▏                                                                                              | 8/100 [00:26<05:31,  3.61s/it]

loss :  0.11416247487068176


  9%|█████████▎                                                                                             | 9/100 [00:29<05:20,  3.52s/it]

loss :  0.10231742262840271


 10%|██████████▏                                                                                           | 10/100 [00:32<05:13,  3.49s/it]

loss :  0.09225510060787201


 11%|███████████▏                                                                                          | 11/100 [00:36<05:28,  3.69s/it]

loss :  0.085011787712574


 12%|████████████▏                                                                                         | 12/100 [00:40<05:29,  3.74s/it]

loss :  0.07956930994987488


 13%|█████████████▎                                                                                        | 13/100 [00:44<05:33,  3.83s/it]

loss :  0.0733318030834198


 14%|██████████████▎                                                                                       | 14/100 [00:49<05:43,  4.00s/it]

loss :  0.0684468001127243


 15%|███████████████▎                                                                                      | 15/100 [00:52<05:21,  3.79s/it]

loss :  0.06354998052120209


 16%|████████████████▎                                                                                     | 16/100 [00:55<05:02,  3.60s/it]

loss :  0.06156868860125542


 17%|█████████████████▎                                                                                    | 17/100 [00:58<04:46,  3.45s/it]

loss :  0.0585135780274868


 18%|██████████████████▎                                                                                   | 18/100 [01:01<04:35,  3.36s/it]

loss :  0.05634903907775879


 19%|███████████████████▍                                                                                  | 19/100 [01:04<04:09,  3.08s/it]

loss :  0.05491611734032631


 20%|████████████████████▍                                                                                 | 20/100 [01:06<03:52,  2.90s/it]

loss :  0.05339876189827919


 21%|█████████████████████▍                                                                                | 21/100 [01:09<03:38,  2.77s/it]

loss :  0.05145030841231346


 22%|██████████████████████▍                                                                               | 22/100 [01:12<03:35,  2.76s/it]

loss :  0.0495939776301384


 23%|███████████████████████▍                                                                              | 23/100 [01:14<03:26,  2.68s/it]

loss :  0.04734813794493675


 24%|████████████████████████▍                                                                             | 24/100 [01:17<03:18,  2.61s/it]

loss :  0.04467988386750221


 25%|█████████████████████████▌                                                                            | 25/100 [01:19<03:16,  2.61s/it]

loss :  0.041697725653648376


 26%|██████████████████████████▌                                                                           | 26/100 [01:22<03:16,  2.66s/it]

loss :  0.03961559757590294


 27%|███████████████████████████▌                                                                          | 27/100 [01:25<03:14,  2.66s/it]

loss :  0.03663912042975426


 28%|████████████████████████████▌                                                                         | 28/100 [01:27<03:08,  2.61s/it]

loss :  0.033608511090278625


 29%|█████████████████████████████▌                                                                        | 29/100 [01:30<03:09,  2.67s/it]

loss :  0.031184140592813492


 30%|██████████████████████████████▌                                                                       | 30/100 [01:33<03:13,  2.76s/it]

loss :  0.02867688052356243


 31%|███████████████████████████████▌                                                                      | 31/100 [01:35<03:02,  2.65s/it]

loss :  0.026029782369732857


 32%|████████████████████████████████▋                                                                     | 32/100 [01:38<02:54,  2.57s/it]

loss :  0.023871999233961105


 33%|█████████████████████████████████▋                                                                    | 33/100 [01:40<02:48,  2.52s/it]

loss :  0.021401213482022285


 34%|██████████████████████████████████▋                                                                   | 34/100 [01:42<02:44,  2.49s/it]

loss :  0.019938502460718155


 35%|███████████████████████████████████▋                                                                  | 35/100 [01:45<02:40,  2.47s/it]

loss :  0.018812811002135277


 36%|████████████████████████████████████▋                                                                 | 36/100 [01:47<02:39,  2.50s/it]

loss :  0.017354842275381088


 37%|█████████████████████████████████████▋                                                                | 37/100 [01:50<02:38,  2.51s/it]

loss :  0.01630987599492073


 38%|██████████████████████████████████████▊                                                               | 38/100 [01:53<02:35,  2.51s/it]

loss :  0.015479136258363724


 39%|███████████████████████████████████████▊                                                              | 39/100 [01:55<02:34,  2.54s/it]

loss :  0.014327792450785637


 40%|████████████████████████████████████████▊                                                             | 40/100 [01:58<02:32,  2.53s/it]

loss :  0.013350436463952065


 41%|█████████████████████████████████████████▊                                                            | 41/100 [02:00<02:27,  2.50s/it]

loss :  0.012324023991823196


 42%|██████████████████████████████████████████▊                                                           | 42/100 [02:02<02:22,  2.46s/it]

loss :  0.011396835558116436


 43%|███████████████████████████████████████████▊                                                          | 43/100 [02:05<02:19,  2.44s/it]

loss :  0.010507654398679733


 44%|████████████████████████████████████████████▉                                                         | 44/100 [02:07<02:16,  2.44s/it]

loss :  0.009940637275576591


 45%|█████████████████████████████████████████████▉                                                        | 45/100 [02:10<02:13,  2.43s/it]

loss :  0.009225219488143921


 46%|██████████████████████████████████████████████▉                                                       | 46/100 [02:12<02:10,  2.42s/it]

loss :  0.008622092194855213


 47%|███████████████████████████████████████████████▉                                                      | 47/100 [02:15<02:08,  2.42s/it]

loss :  0.007920696400105953


 48%|████████████████████████████████████████████████▉                                                     | 48/100 [02:17<02:07,  2.46s/it]

loss :  0.0073848385363817215


 49%|█████████████████████████████████████████████████▉                                                    | 49/100 [02:20<02:07,  2.50s/it]

loss :  0.006915279198437929


 50%|███████████████████████████████████████████████████                                                   | 50/100 [02:22<02:05,  2.51s/it]

loss :  0.0064565143547952175


 51%|████████████████████████████████████████████████████                                                  | 51/100 [02:25<02:02,  2.50s/it]

loss :  0.006052825134247541


 52%|█████████████████████████████████████████████████████                                                 | 52/100 [02:27<01:59,  2.50s/it]

loss :  0.005719128530472517


 53%|██████████████████████████████████████████████████████                                                | 53/100 [02:30<01:56,  2.47s/it]

loss :  0.005446844268590212


 54%|███████████████████████████████████████████████████████                                               | 54/100 [02:32<01:52,  2.44s/it]

loss :  0.005181534215807915


 55%|████████████████████████████████████████████████████████                                              | 55/100 [02:35<02:00,  2.67s/it]

loss :  0.004952159710228443


 56%|█████████████████████████████████████████████████████████                                             | 56/100 [02:38<02:02,  2.78s/it]

loss :  0.004703090526163578


 57%|██████████████████████████████████████████████████████████▏                                           | 57/100 [02:41<02:04,  2.90s/it]

loss :  0.004506583325564861


 58%|███████████████████████████████████████████████████████████▏                                          | 58/100 [02:44<02:03,  2.95s/it]

loss :  0.004265212453901768


 59%|████████████████████████████████████████████████████████████▏                                         | 59/100 [02:48<02:03,  3.02s/it]

loss :  0.004063679836690426


 60%|█████████████████████████████████████████████████████████████▏                                        | 60/100 [02:51<02:02,  3.07s/it]

loss :  0.0038497664500027895


 61%|██████████████████████████████████████████████████████████████▏                                       | 61/100 [02:54<01:56,  2.98s/it]

loss :  0.00365111930295825


 62%|███████████████████████████████████████████████████████████████▏                                      | 62/100 [02:56<01:47,  2.82s/it]

loss :  0.0034433479886502028


 63%|████████████████████████████████████████████████████████████████▎                                     | 63/100 [02:58<01:39,  2.69s/it]

loss :  0.003221304388716817


 64%|█████████████████████████████████████████████████████████████████▎                                    | 64/100 [03:01<01:33,  2.61s/it]

loss :  0.003019572701305151


 65%|██████████████████████████████████████████████████████████████████▎                                   | 65/100 [03:03<01:30,  2.57s/it]

loss :  0.002834067214280367


 66%|███████████████████████████████████████████████████████████████████▎                                  | 66/100 [03:06<01:25,  2.52s/it]

loss :  0.0026672971434891224


 67%|████████████████████████████████████████████████████████████████████▎                                 | 67/100 [03:08<01:24,  2.55s/it]

loss :  0.002531432081013918


 68%|█████████████████████████████████████████████████████████████████████▎                                | 68/100 [03:11<01:20,  2.50s/it]

loss :  0.0023953195195645094


 69%|██████████████████████████████████████████████████████████████████████▍                               | 69/100 [03:13<01:16,  2.48s/it]

loss :  0.0022816311102360487


 70%|███████████████████████████████████████████████████████████████████████▍                              | 70/100 [03:16<01:14,  2.48s/it]

loss :  0.002177851041778922


 71%|████████████████████████████████████████████████████████████████████████▍                             | 71/100 [03:18<01:12,  2.48s/it]

loss :  0.00208659959025681


 72%|█████████████████████████████████████████████████████████████████████████▍                            | 72/100 [03:21<01:09,  2.49s/it]

loss :  0.001997093204408884


 73%|██████████████████████████████████████████████████████████████████████████▍                           | 73/100 [03:23<01:07,  2.52s/it]

loss :  0.0019223310519009829


 74%|███████████████████████████████████████████████████████████████████████████▍                          | 74/100 [03:26<01:05,  2.52s/it]

loss :  0.0018581151962280273


 75%|████████████████████████████████████████████████████████████████████████████▌                         | 75/100 [03:28<01:01,  2.48s/it]

loss :  0.00179487734567374


 76%|█████████████████████████████████████████████████████████████████████████████▌                        | 76/100 [03:30<00:58,  2.45s/it]

loss :  0.0017451865132898092


 77%|██████████████████████████████████████████████████████████████████████████████▌                       | 77/100 [03:33<00:56,  2.45s/it]

loss :  0.0017024908447638154


 78%|███████████████████████████████████████████████████████████████████████████████▌                      | 78/100 [03:35<00:53,  2.43s/it]

loss :  0.0016565431142225862


 79%|████████████████████████████████████████████████████████████████████████████████▌                     | 79/100 [03:38<00:51,  2.44s/it]

loss :  0.0016178563237190247


 80%|█████████████████████████████████████████████████████████████████████████████████▌                    | 80/100 [03:40<00:49,  2.47s/it]

loss :  0.0015709178987890482


 81%|██████████████████████████████████████████████████████████████████████████████████▌                   | 81/100 [03:43<00:46,  2.44s/it]

loss :  0.0015378663083538413


 82%|███████████████████████████████████████████████████████████████████████████████████▋                  | 82/100 [03:45<00:44,  2.45s/it]

loss :  0.001499289646744728


 83%|████████████████████████████████████████████████████████████████████████████████████▋                 | 83/100 [03:48<00:42,  2.48s/it]

loss :  0.001469733309932053


 84%|█████████████████████████████████████████████████████████████████████████████████████▋                | 84/100 [03:50<00:39,  2.45s/it]

loss :  0.0014362186193466187


 85%|██████████████████████████████████████████████████████████████████████████████████████▋               | 85/100 [03:52<00:36,  2.44s/it]

loss :  0.0014112089993432164


 86%|███████████████████████████████████████████████████████████████████████████████████████▋              | 86/100 [03:55<00:34,  2.43s/it]

loss :  0.0013791979290544987


 87%|████████████████████████████████████████████████████████████████████████████████████████▋             | 87/100 [03:57<00:31,  2.42s/it]

loss :  0.0013423532946035266


 88%|█████████████████████████████████████████████████████████████████████████████████████████▊            | 88/100 [04:00<00:29,  2.42s/it]

loss :  0.0013146379496902227


 89%|██████████████████████████████████████████████████████████████████████████████████████████▊           | 89/100 [04:02<00:27,  2.46s/it]

loss :  0.0012812460772693157


 90%|███████████████████████████████████████████████████████████████████████████████████████████▊          | 90/100 [04:05<00:24,  2.47s/it]

loss :  0.001256663934327662


 91%|████████████████████████████████████████████████████████████████████████████████████████████▊         | 91/100 [04:07<00:22,  2.46s/it]

loss :  0.0012285648845136166


 92%|█████████████████████████████████████████████████████████████████████████████████████████████▊        | 92/100 [04:10<00:19,  2.44s/it]

loss :  0.001209629001095891


 93%|██████████████████████████████████████████████████████████████████████████████████████████████▊       | 93/100 [04:12<00:16,  2.42s/it]

loss :  0.0011798938503488898


 94%|███████████████████████████████████████████████████████████████████████████████████████████████▉      | 94/100 [04:14<00:14,  2.42s/it]

loss :  0.001155552570708096


 95%|████████████████████████████████████████████████████████████████████████████████████████████████▉     | 95/100 [04:17<00:12,  2.42s/it]

loss :  0.0011335157323628664


 96%|█████████████████████████████████████████████████████████████████████████████████████████████████▉    | 96/100 [04:19<00:09,  2.43s/it]

loss :  0.001109484350308776


 97%|██████████████████████████████████████████████████████████████████████████████████████████████████▉   | 97/100 [04:22<00:07,  2.45s/it]

loss :  0.0010843179188668728


 98%|███████████████████████████████████████████████████████████████████████████████████████████████████▉  | 98/100 [04:24<00:04,  2.44s/it]

loss :  0.001064842101186514


 99%|████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 99/100 [04:27<00:02,  2.49s/it]

loss :  0.001037231762893498


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████| 100/100 [04:29<00:00,  2.70s/it]


loss :  0.0010170083260163665


  1%|█                                                                                                      | 1/100 [00:08<14:20,  8.70s/it]

loss :  2.9946069717407227


  2%|██                                                                                                     | 2/100 [00:17<14:20,  8.78s/it]

loss :  1.7019507884979248


  3%|███                                                                                                    | 3/100 [00:25<13:18,  8.23s/it]

loss :  0.8804291486740112


  4%|████                                                                                                   | 4/100 [00:32<12:27,  7.79s/it]

loss :  0.9349522590637207


  5%|█████▏                                                                                                 | 5/100 [00:39<12:04,  7.63s/it]

loss :  0.8366914987564087


  6%|██████▏                                                                                                | 6/100 [00:47<11:59,  7.66s/it]

loss :  0.6978386640548706


  7%|███████▏                                                                                               | 7/100 [00:54<11:40,  7.53s/it]

loss :  0.5594711303710938


  8%|████████▏                                                                                              | 8/100 [01:02<11:44,  7.66s/it]

loss :  0.5173254609107971


  9%|█████████▎                                                                                             | 9/100 [01:09<11:23,  7.51s/it]

loss :  0.7674908638000488


 10%|██████████▏                                                                                           | 10/100 [01:16<11:08,  7.42s/it]

loss :  0.4911573529243469


 11%|███████████▏                                                                                          | 11/100 [01:24<10:59,  7.41s/it]

loss :  0.7049312591552734


 12%|████████████▏                                                                                         | 12/100 [01:31<10:45,  7.34s/it]

loss :  0.2942167818546295


 13%|█████████████▎                                                                                        | 13/100 [01:38<10:33,  7.29s/it]

loss :  0.20352402329444885


 14%|██████████████▎                                                                                       | 14/100 [01:45<10:23,  7.25s/it]

loss :  0.2512757480144501


 15%|███████████████▎                                                                                      | 15/100 [01:53<10:29,  7.41s/it]

loss :  0.09490859508514404


 16%|████████████████▎                                                                                     | 16/100 [02:00<10:15,  7.33s/it]

loss :  0.3970169723033905


 17%|█████████████████▎                                                                                    | 17/100 [02:09<10:37,  7.68s/it]

loss :  0.19807639718055725


 18%|██████████████████▎                                                                                   | 18/100 [02:18<10:58,  8.03s/it]

loss :  0.04897309094667435


 19%|███████████████████▍                                                                                  | 19/100 [02:26<10:57,  8.12s/it]

loss :  0.061482980847358704


 20%|████████████████████▍                                                                                 | 20/100 [02:33<10:25,  7.82s/it]

loss :  0.11888003349304199


 21%|█████████████████████▍                                                                                | 21/100 [02:40<10:06,  7.67s/it]

loss :  0.024883216246962547


 22%|██████████████████████▍                                                                               | 22/100 [02:47<09:46,  7.52s/it]

loss :  0.051456328481435776


 23%|███████████████████████▍                                                                              | 23/100 [02:55<09:31,  7.42s/it]

loss :  0.0605941116809845


 24%|████████████████████████▍                                                                             | 24/100 [03:02<09:20,  7.37s/it]

loss :  0.01912379451096058


 25%|█████████████████████████▌                                                                            | 25/100 [03:09<09:06,  7.29s/it]

loss :  0.15521982312202454


 26%|██████████████████████████▌                                                                           | 26/100 [03:16<08:55,  7.24s/it]

loss :  0.013149007223546505


 27%|███████████████████████████▌                                                                          | 27/100 [03:23<08:46,  7.22s/it]

loss :  0.03131179139018059


 28%|████████████████████████████▌                                                                         | 28/100 [03:30<08:37,  7.18s/it]

loss :  0.02348252385854721


 29%|█████████████████████████████▌                                                                        | 29/100 [03:38<08:29,  7.17s/it]

loss :  0.2856144309043884


 30%|██████████████████████████████▌                                                                       | 30/100 [03:45<08:21,  7.16s/it]

loss :  0.01469498686492443


 31%|███████████████████████████████▌                                                                      | 31/100 [03:52<08:12,  7.13s/it]

loss :  0.008729860186576843


 32%|████████████████████████████████▋                                                                     | 32/100 [03:59<08:04,  7.12s/it]

loss :  0.023057378828525543


 33%|█████████████████████████████████▋                                                                    | 33/100 [04:07<08:18,  7.45s/it]

loss :  0.004229344893246889


 34%|██████████████████████████████████▋                                                                   | 34/100 [04:16<08:33,  7.78s/it]

loss :  0.0042283558286726475


 35%|███████████████████████████████████▋                                                                  | 35/100 [04:23<08:13,  7.59s/it]

loss :  0.04537670314311981


 36%|████████████████████████████████████▋                                                                 | 36/100 [04:30<07:56,  7.44s/it]

loss :  0.007943384349346161


 37%|█████████████████████████████████████▋                                                                | 37/100 [04:37<07:44,  7.37s/it]

loss :  0.0027562007308006287


 38%|██████████████████████████████████████▊                                                               | 38/100 [04:44<07:32,  7.29s/it]

loss :  0.02888958901166916


 39%|███████████████████████████████████████▊                                                              | 39/100 [04:51<07:20,  7.23s/it]

loss :  0.005734264850616455


 40%|████████████████████████████████████████▊                                                             | 40/100 [04:58<07:11,  7.19s/it]

loss :  0.0050764926709234715


 41%|█████████████████████████████████████████▊                                                            | 41/100 [05:05<07:03,  7.17s/it]

loss :  0.1908256858587265


 42%|██████████████████████████████████████████▊                                                           | 42/100 [05:13<06:54,  7.15s/it]

loss :  0.004214335232973099


 43%|███████████████████████████████████████████▊                                                          | 43/100 [05:20<06:46,  7.14s/it]

loss :  0.010335691273212433


 44%|████████████████████████████████████████████▉                                                         | 44/100 [05:28<06:58,  7.47s/it]

loss :  0.03150912746787071


 45%|█████████████████████████████████████████████▉                                                        | 45/100 [05:36<06:57,  7.59s/it]

loss :  0.011980624869465828


 46%|██████████████████████████████████████████████▉                                                       | 46/100 [05:44<06:54,  7.68s/it]

loss :  0.05333389714360237


 47%|███████████████████████████████████████████████▉                                                      | 47/100 [05:51<06:42,  7.60s/it]

loss :  0.01692650467157364


 48%|████████████████████████████████████████████████▉                                                     | 48/100 [05:59<06:32,  7.55s/it]

loss :  0.006303804460912943


 49%|█████████████████████████████████████████████████▉                                                    | 49/100 [06:07<06:33,  7.72s/it]

loss :  0.006644056178629398


 50%|███████████████████████████████████████████████████                                                   | 50/100 [06:15<06:36,  7.92s/it]

loss :  0.024565434083342552


 51%|████████████████████████████████████████████████████                                                  | 51/100 [06:22<06:17,  7.71s/it]

loss :  0.004872271791100502


 52%|█████████████████████████████████████████████████████                                                 | 52/100 [06:30<06:04,  7.60s/it]

loss :  0.014791280031204224


 53%|██████████████████████████████████████████████████████                                                | 53/100 [06:37<05:55,  7.57s/it]

loss :  0.021581225097179413


 54%|███████████████████████████████████████████████████████                                               | 54/100 [06:44<05:44,  7.49s/it]

loss :  0.006324141751974821


 55%|████████████████████████████████████████████████████████                                              | 55/100 [06:52<05:34,  7.44s/it]

loss :  0.022669168189167976


 56%|█████████████████████████████████████████████████████████                                             | 56/100 [07:00<05:33,  7.58s/it]

loss :  0.002501539420336485


 57%|██████████████████████████████████████████████████████████▏                                           | 57/100 [07:07<05:22,  7.49s/it]

loss :  0.028978681191802025


 58%|███████████████████████████████████████████████████████████▏                                          | 58/100 [07:14<05:12,  7.43s/it]

loss :  0.017531299963593483


 59%|████████████████████████████████████████████████████████████▏                                         | 59/100 [07:21<05:01,  7.35s/it]

loss :  0.011944463476538658


 60%|█████████████████████████████████████████████████████████████▏                                        | 60/100 [07:29<04:53,  7.34s/it]

loss :  0.02121479995548725


 61%|██████████████████████████████████████████████████████████████▏                                       | 61/100 [07:36<04:43,  7.26s/it]

loss :  0.006735014263540506


 62%|███████████████████████████████████████████████████████████████▏                                      | 62/100 [07:43<04:34,  7.23s/it]

loss :  0.0060935430228710175


 63%|████████████████████████████████████████████████████████████████▎                                     | 63/100 [07:50<04:29,  7.27s/it]

loss :  0.010013540275394917


 64%|█████████████████████████████████████████████████████████████████▎                                    | 64/100 [07:58<04:30,  7.52s/it]

loss :  0.01349915936589241


 65%|██████████████████████████████████████████████████████████████████▎                                   | 65/100 [08:10<05:03,  8.68s/it]

loss :  0.015715451911091805


 66%|███████████████████████████████████████████████████████████████████▎                                  | 66/100 [08:21<05:17,  9.33s/it]

loss :  0.008368434384465218


 67%|████████████████████████████████████████████████████████████████████▎                                 | 67/100 [08:30<05:07,  9.31s/it]

loss :  0.003032939275726676


 68%|█████████████████████████████████████████████████████████████████████▎                                | 68/100 [08:39<05:00,  9.38s/it]

loss :  0.014872396364808083


 69%|██████████████████████████████████████████████████████████████████████▍                               | 69/100 [08:49<04:52,  9.45s/it]

loss :  0.00514239352196455


 70%|███████████████████████████████████████████████████████████████████████▍                              | 70/100 [09:00<04:55,  9.85s/it]

loss :  0.05547710880637169


 71%|████████████████████████████████████████████████████████████████████████▍                             | 71/100 [09:09<04:42,  9.74s/it]

loss :  0.009017519652843475


 72%|█████████████████████████████████████████████████████████████████████████▍                            | 72/100 [09:19<04:28,  9.60s/it]

loss :  0.007532163057476282


 73%|██████████████████████████████████████████████████████████████████████████▍                           | 73/100 [09:29<04:25,  9.82s/it]

loss :  0.005229824222624302


 74%|███████████████████████████████████████████████████████████████████████████▍                          | 74/100 [09:40<04:24, 10.19s/it]

loss :  0.009884627535939217


 75%|████████████████████████████████████████████████████████████████████████████▌                         | 75/100 [09:51<04:18, 10.33s/it]

loss :  0.006708819419145584


 76%|█████████████████████████████████████████████████████████████████████████████▌                        | 76/100 [10:00<04:00, 10.04s/it]

loss :  0.005379226990044117


 77%|██████████████████████████████████████████████████████████████████████████████▌                       | 77/100 [10:11<03:53, 10.17s/it]

loss :  0.010513760149478912


 78%|███████████████████████████████████████████████████████████████████████████████▌                      | 78/100 [10:20<03:41, 10.06s/it]

loss :  0.006631146185100079


 79%|████████████████████████████████████████████████████████████████████████████████▌                     | 79/100 [10:28<03:16,  9.38s/it]

loss :  0.0032964234706014395


 80%|█████████████████████████████████████████████████████████████████████████████████▌                    | 80/100 [10:35<02:54,  8.74s/it]

loss :  0.1430598497390747


 81%|██████████████████████████████████████████████████████████████████████████████████▌                   | 81/100 [10:43<02:38,  8.36s/it]

loss :  0.0032425294630229473


 82%|███████████████████████████████████████████████████████████████████████████████████▋                  | 82/100 [10:51<02:27,  8.20s/it]

loss :  0.006224798504263163


 83%|████████████████████████████████████████████████████████████████████████████████████▋                 | 83/100 [10:59<02:17,  8.11s/it]

loss :  0.02580694481730461


 84%|█████████████████████████████████████████████████████████████████████████████████████▋                | 84/100 [11:06<02:05,  7.86s/it]

loss :  0.00492711178958416


 85%|██████████████████████████████████████████████████████████████████████████████████████▋               | 85/100 [11:13<01:55,  7.67s/it]

loss :  0.005975885316729546


 86%|███████████████████████████████████████████████████████████████████████████████████████▋              | 86/100 [11:20<01:45,  7.54s/it]

loss :  0.00665704719722271


 87%|████████████████████████████████████████████████████████████████████████████████████████▋             | 87/100 [11:28<01:36,  7.45s/it]

loss :  0.005434466525912285


 88%|█████████████████████████████████████████████████████████████████████████████████████████▊            | 88/100 [11:35<01:28,  7.39s/it]

loss :  0.006116141565144062


 89%|██████████████████████████████████████████████████████████████████████████████████████████▊           | 89/100 [11:42<01:20,  7.34s/it]

loss :  0.015378722921013832


 90%|███████████████████████████████████████████████████████████████████████████████████████████▊          | 90/100 [11:49<01:13,  7.31s/it]

loss :  0.01078643649816513


 91%|████████████████████████████████████████████████████████████████████████████████████████████▊         | 91/100 [11:57<01:06,  7.34s/it]

loss :  0.004174087196588516


 92%|█████████████████████████████████████████████████████████████████████████████████████████████▊        | 92/100 [12:04<00:59,  7.48s/it]

loss :  0.016035009175539017


 93%|██████████████████████████████████████████████████████████████████████████████████████████████▊       | 93/100 [12:12<00:53,  7.63s/it]

loss :  0.01547161489725113


 94%|███████████████████████████████████████████████████████████████████████████████████████████████▉      | 94/100 [12:20<00:45,  7.54s/it]

loss :  0.0052340105175971985


 95%|████████████████████████████████████████████████████████████████████████████████████████████████▉     | 95/100 [12:27<00:37,  7.44s/it]

loss :  0.004017866216599941


 96%|█████████████████████████████████████████████████████████████████████████████████████████████████▉    | 96/100 [12:34<00:29,  7.37s/it]

loss :  0.008507754653692245


 97%|██████████████████████████████████████████████████████████████████████████████████████████████████▉   | 97/100 [12:41<00:22,  7.35s/it]

loss :  0.028880342841148376


 98%|███████████████████████████████████████████████████████████████████████████████████████████████████▉  | 98/100 [12:49<00:14,  7.35s/it]

loss :  0.003942582756280899


 99%|████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 99/100 [12:56<00:07,  7.30s/it]

loss :  0.0035095971543341875


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████| 100/100 [13:03<00:00,  7.84s/it]

loss :  0.004373255651444197





In [23]:
evaluate_model(student,test),evaluate_model(scratch,test)

(95.13141305401997, 94.21006691882455)

### The  student model outperforms the scratch model