# Single Path One-Shot Neural Architecture Search using Random Search

### Make everything a bit faster

Your task is to implement SPOS + Random Search to find the optimal ResNet-18-like architecture
for image classification on CIFAR-10 dataset.

### Proposed search space
The same search space as in the lecture, but without kernel size search.
This means that each search block should only have 3 operations.

### Latency awareness
While searching, you should implement hard constraint on model latency. As a proxy for
latency, use the number of MACs. The baseline ResNet-18 has 37M MACs for images of size 32x32.
The final selected architecture should have at most 30M MACs.
You can find an example computation for the number of MACs in this notebook.

### How to complete the task
Plan for your experiments:
1. Train baseline ResNet-18 model.  **(2 pts)**
2. Finalize supernet code. **(15 pts)**
3. Train supernet with the same hyperparameters except the number of epochs. You should increase
   it by a factor of 3-6. Save supernet weights.  **(10 pts)**
4. Write implementation for Random Search.  **(10 pts)**
5. Run it for 100-1000 iterations by measuring accuracies of models from the supernet.
   Keep track of each model accuracy and latency.  **(5 pts)**
6. Train the best architecture from scratch. For this, you can build the whole supernet, and
   select this architecture for all the forward passes of the training.  **(6 pts)**
7. Compare with the model from step 1. Does your model have a better accuracy?  **(2 pts)**

### Code structure

Main.ipynb - Learn your neural networks here.

resnet.py - ResNet-18 implementation from torchvision, simplified for this project.

supernet.py - Unfinished Supernet implementation.

cifar10.py - Transforms for CIFAR-10 training.


# Train supernet

## Setup

### Imports

In [1]:
from typing import Tuple

import torch
import torch.nn as nn
import torch.optim as optim
import torchvision
import torchvision.transforms as transforms
from torch.utils.data import DataLoader
from tqdm import tqdm

from cifar10 import get_train_transform, get_val_transform

### Make everything a bit faster

In [2]:
torch.backends.cudnn.benchmark = True
torch.backends.cudnn.deterministic = False

### Build datasets and dataloaders for CIFAR-10

In [3]:
# Change this value if needed.
batch_size = 512

In [4]:
train_transform = get_train_transform()
val_transform = get_val_transform()

train_set = torchvision.datasets.CIFAR10(
    root='./data',
    train=True,
    download=True,
    transform=train_transform,
)
test_set = torchvision.datasets.CIFAR10(
    root='./data',
    train=False,
    download=True,
    transform=val_transform,
)

train_dataloader = DataLoader(
    train_set,
    batch_size=batch_size,
    shuffle=True,
    num_workers=4,
    drop_last=True,
)
test_dataloader = DataLoader(
    test_set,
    batch_size=batch_size,
    shuffle=False,
    num_workers=4,
    drop_last=False,
)

Files already downloaded and verified
Files already downloaded and verified


## Create supernet

**Before running code in this section, you need to finish supernet implementation.**

Please, go to `supernet.py` file and inspect the current implementation of SearchBlock and Supernet classes.
Pay attention to the TODOs. You need to implement all of them.

Supernet and BasicBlock classes are modified versions of ResNet and BasicBlock classes from `resnet.py`.

    Tip: to understand how the Supernet is constructed, compare the implementation of Supernet and ResNet classes. You should probably use diff tool in your IDE or something.

Task: briefly describe the differences made to construct supernet.

Differences from resnet.py to construct search space:

#### 1. Added new argument to BasicBlock. Now it has outplanes parameter.

The block basically consisted of two consecutive 3x3 convolutions:

```
input: x

y = Conv3x3(n1, n2)(x)
y = BatchNorm(y)
y = ReLU(y)
y = Conv3x3(n2, n2)(y)
y = BatchNorm(y)

y = ReLU(y + x)

return y
```

With the new modification, we can choose the number of channels between these two convolutions:

```
y = Conv3x3(n1, n3)(x)
...
y = Conv3x3(n3, n2)(y)
```

#### 2. Replaced all BasicBlock instances in ResNet18 with SearchBlock.

The `for` loop is used to construct multiple BasicBlock options and put them inside the list of available operations. Then this list is used to initialize SearchBlock which is used instead of the default BasicBlock.

All of the arguments for constructing BasicBlock within one SearchBlock are the same except `outplanes` which is scaled by different `channel_multiplier`s.

Note that `downsample` operation now is created separately for each search option and is stored inside each search option.

In [5]:
from supernet import supernet18

In [6]:
# Select suitable device.
# You should probably use either cuda (NVidia GPU) or mps (Apple) backend.
device = torch.device('cuda:0')

In [7]:
# Using the same channel multipliers as in lecture: 2x less channels, same channels, 2x more channels
channel_multipliers = (0.5, 1.0, 2.0)

In [8]:
supernet = supernet18(num_classes=10, zero_init_residual=True, channel_multipliers=channel_multipliers)
supernet.to(device=device)

Supernet(
  (conv1): Conv2d(3, 64, kernel_size=(7, 7), stride=(2, 2), padding=(3, 3), bias=False)
  (bn1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
  (relu): ReLU(inplace=True)
  (maxpool): MaxPool2d(kernel_size=3, stride=2, padding=1, dilation=1, ceil_mode=False)
  (layer1): Sequential(
    (0): SearchBlock(
      (ops): ModuleList(
        (0): BasicBlock(
          (conv1): Conv2d(64, 32, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
          (bn1): BatchNorm2d(32, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
          (relu): ReLU(inplace=True)
          (conv2): Conv2d(32, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
          (bn2): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        )
        (1): BasicBlock(
          (conv1): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
          (bn1): BatchNorm2d(64, eps=1e-05,

### Define loss function

In [9]:
criterion = nn.CrossEntropyLoss()

### Select hyperparameters

In [10]:
# The same hyperparameters as for training baseline model, EXCEPT the number of epochs, which
# is increased 6 times (120 instead of 20).

lr = 0.25
weight_decay = 5e-4
momentum = 0.9
n_epochs = 120

### Build optimizer and scheduler

In [11]:
optimizer = optim.SGD(supernet.parameters(), lr=lr, weight_decay=weight_decay, momentum=momentum)
scheduler = optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max=len(train_dataloader) * n_epochs)

### Define training function

In [12]:
def pretrain_one_epoch(
        model: nn.Module,
        criterion: nn.Module,
        dataloader: DataLoader,
        optimizer: optim.Optimizer,
        scheduler,
        device: torch.device,
        epoch: int,
) -> Tuple[float, float]:
    model.train()

    total_loss = 0.0
    total_correct = 0.0
    total_samples = 0

    wrapped_dataloader = tqdm(enumerate(dataloader), total=len(dataloader))
    for i, (inputs, labels) in wrapped_dataloader:
        inputs = inputs.to(device=device)
        labels = labels.to(device=device)

        optimizer.zero_grad()

        # For each search block in the search space, we set only one operation to participate
        # in supernet forward. Only its weights (among other ops from this search block) will
        # be updated using this batch data.
        model.sample_random_architecture()  # <-------------- THIS WAS ADDED

        logits = model(inputs)
        loss = criterion(logits, labels)
        loss.backward()
        optimizer.step()
        scheduler.step()

        with torch.no_grad():
            _, predicted_labels = torch.max(logits, 1)
            total_loss += loss.item()
            total_correct += (predicted_labels == labels).sum().item()
            total_samples += labels.shape[0]

        wrapped_dataloader.set_description(
            f'(train) Epoch={epoch}, lr={scheduler.get_last_lr()[0]:.4f} loss={total_loss / (i + 1):.3f}'
        )

    return total_loss / len(dataloader), total_correct / total_samples


@torch.no_grad()
def validate_one_epoch(
        model: nn.Module,
        criterion: nn.Module,
        dataloader: DataLoader,
        device: torch.device,
        epoch: int,
) -> Tuple[float, float]:
    model.eval()

    total_loss = 0.0
    total_correct = 0.0
    total_samples = 0

    wrapped_dataloader = tqdm(enumerate(dataloader), total=len(dataloader))
    for i, (inputs, labels) in wrapped_dataloader:
        inputs = inputs.to(device=device)
        labels = labels.to(device=device)

        logits = model(inputs)
        loss = criterion(logits, labels)
        _, predicted_labels = torch.max(logits, 1)
        total_loss += loss.item()
        total_correct += (predicted_labels == labels).sum().item()
        total_samples += labels.shape[0]

        wrapped_dataloader.set_description(f'(val) Epoch={epoch}, loss={total_loss / (i + 1):.3f}')

    return total_loss / len(dataloader), total_correct / total_samples

### Run training

In [13]:
for epoch in range(n_epochs):
    print(f'Epoch: {epoch}')
    loss, accuracy = pretrain_one_epoch(supernet, criterion, train_dataloader, optimizer, scheduler, device, epoch)
    print(f'train_loss={loss:.4f}, train_accuracy={accuracy:.3%}')
    loss, accuracy = validate_one_epoch(supernet, criterion, test_dataloader, device, epoch)
    print(f'test_loss={loss:.4f}, test_accuracy={accuracy:.3%}')

Epoch: 0


(train) Epoch=0, lr=0.2500 loss=3.953: 100%|███████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:05<00:00, 18.72it/s]

train_loss=3.9527, train_accuracy=11.242%



(val) Epoch=0, loss=9.321: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 38.26it/s]

test_loss=9.3207, test_accuracy=8.860%
Epoch: 1



(train) Epoch=1, lr=0.2498 loss=2.248: 100%|███████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 35.39it/s]

train_loss=2.2485, train_accuracy=14.121%



(val) Epoch=1, loss=2.037: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 47.47it/s]

test_loss=2.0372, test_accuracy=20.440%
Epoch: 2



(train) Epoch=2, lr=0.2496 loss=2.043: 100%|███████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.66it/s]

train_loss=2.0427, train_accuracy=19.386%



(val) Epoch=2, loss=2.036: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 48.76it/s]

test_loss=2.0357, test_accuracy=18.280%
Epoch: 3



(train) Epoch=3, lr=0.2493 loss=1.953: 100%|███████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 36.16it/s]

train_loss=1.9528, train_accuracy=23.518%



(val) Epoch=3, loss=1.989: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 50.72it/s]

test_loss=1.9890, test_accuracy=22.160%
Epoch: 4



(train) Epoch=4, lr=0.2489 loss=1.845: 100%|███████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 35.99it/s]

train_loss=1.8448, train_accuracy=29.166%



(val) Epoch=4, loss=1.952: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 53.27it/s]

test_loss=1.9518, test_accuracy=25.140%
Epoch: 5



(train) Epoch=5, lr=0.2485 loss=1.783: 100%|███████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 35.02it/s]

train_loss=1.7834, train_accuracy=31.796%



(val) Epoch=5, loss=1.752: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 55.51it/s]

test_loss=1.7522, test_accuracy=33.480%
Epoch: 6



(train) Epoch=6, lr=0.2479 loss=1.715: 100%|███████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 35.50it/s]

train_loss=1.7151, train_accuracy=34.933%



(val) Epoch=6, loss=1.640: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 56.67it/s]

test_loss=1.6403, test_accuracy=37.540%
Epoch: 7



(train) Epoch=7, lr=0.2473 loss=1.650: 100%|███████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 36.43it/s]

train_loss=1.6503, train_accuracy=37.895%



(val) Epoch=7, loss=1.795: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 56.64it/s]

test_loss=1.7951, test_accuracy=37.360%
Epoch: 8



(train) Epoch=8, lr=0.2465 loss=1.587: 100%|███████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 35.62it/s]


train_loss=1.5873, train_accuracy=40.752%


(val) Epoch=8, loss=1.779: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 54.75it/s]

test_loss=1.7787, test_accuracy=35.690%
Epoch: 9



(train) Epoch=9, lr=0.2457 loss=1.529: 100%|███████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.18it/s]

train_loss=1.5292, train_accuracy=43.516%



(val) Epoch=9, loss=1.686: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 56.15it/s]


test_loss=1.6860, test_accuracy=38.950%
Epoch: 10


(train) Epoch=10, lr=0.2449 loss=1.450: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 35.60it/s]

train_loss=1.4495, train_accuracy=46.845%



(val) Epoch=10, loss=1.528: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 56.03it/s]

test_loss=1.5276, test_accuracy=45.410%
Epoch: 11



(train) Epoch=11, lr=0.2439 loss=1.413: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 35.88it/s]

train_loss=1.4129, train_accuracy=48.403%



(val) Epoch=11, loss=1.348: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 52.22it/s]

test_loss=1.3484, test_accuracy=50.860%
Epoch: 12



(train) Epoch=12, lr=0.2428 loss=1.351: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.58it/s]

train_loss=1.3505, train_accuracy=50.749%



(val) Epoch=12, loss=1.263: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 52.21it/s]

test_loss=1.2634, test_accuracy=53.520%
Epoch: 13



(train) Epoch=13, lr=0.2417 loss=1.301: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 35.01it/s]

train_loss=1.3013, train_accuracy=52.547%



(val) Epoch=13, loss=1.359: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 55.45it/s]

test_loss=1.3591, test_accuracy=51.770%
Epoch: 14



(train) Epoch=14, lr=0.2405 loss=1.263: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 35.82it/s]

train_loss=1.2631, train_accuracy=54.321%



(val) Epoch=14, loss=1.239: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 55.23it/s]

test_loss=1.2390, test_accuracy=54.370%
Epoch: 15



(train) Epoch=15, lr=0.2392 loss=1.238: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 35.32it/s]

train_loss=1.2383, train_accuracy=55.286%



(val) Epoch=15, loss=1.444: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 52.98it/s]

test_loss=1.4444, test_accuracy=50.020%
Epoch: 16



(train) Epoch=16, lr=0.2378 loss=1.194: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 36.15it/s]

train_loss=1.1938, train_accuracy=56.921%



(val) Epoch=16, loss=1.260: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 51.93it/s]

test_loss=1.2605, test_accuracy=56.420%
Epoch: 17



(train) Epoch=17, lr=0.2364 loss=1.155: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 35.43it/s]

train_loss=1.1553, train_accuracy=58.894%



(val) Epoch=17, loss=1.071: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 52.41it/s]

test_loss=1.0712, test_accuracy=62.640%
Epoch: 18



(train) Epoch=18, lr=0.2349 loss=1.144: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 35.23it/s]

train_loss=1.1442, train_accuracy=59.143%



(val) Epoch=18, loss=1.210: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 55.43it/s]

test_loss=1.2096, test_accuracy=57.270%
Epoch: 19



(train) Epoch=19, lr=0.2333 loss=1.107: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 35.65it/s]

train_loss=1.1067, train_accuracy=60.668%



(val) Epoch=19, loss=1.365: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 51.55it/s]

test_loss=1.3646, test_accuracy=53.060%
Epoch: 20



(train) Epoch=20, lr=0.2316 loss=1.070: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 35.02it/s]

train_loss=1.0704, train_accuracy=61.876%



(val) Epoch=20, loss=1.056: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 52.72it/s]

test_loss=1.0560, test_accuracy=63.520%
Epoch: 21



(train) Epoch=21, lr=0.2298 loss=1.045: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 35.11it/s]


train_loss=1.0452, train_accuracy=62.864%


(val) Epoch=21, loss=1.170: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 54.81it/s]

test_loss=1.1699, test_accuracy=61.320%
Epoch: 22



(train) Epoch=22, lr=0.2280 loss=1.025: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 35.47it/s]

train_loss=1.0252, train_accuracy=63.793%



(val) Epoch=22, loss=1.083: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 49.16it/s]


test_loss=1.0831, test_accuracy=61.270%
Epoch: 23


(train) Epoch=23, lr=0.2261 loss=1.013: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 35.19it/s]

train_loss=1.0129, train_accuracy=64.326%



(val) Epoch=23, loss=0.994: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 51.53it/s]

test_loss=0.9943, test_accuracy=64.750%
Epoch: 24



(train) Epoch=24, lr=0.2242 loss=0.995: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.52it/s]

train_loss=0.9950, train_accuracy=64.932%



(val) Epoch=24, loss=1.024: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 51.76it/s]

test_loss=1.0241, test_accuracy=64.150%
Epoch: 25



(train) Epoch=25, lr=0.2221 loss=0.975: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 35.33it/s]

train_loss=0.9753, train_accuracy=65.784%



(val) Epoch=25, loss=0.982: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 55.18it/s]

test_loss=0.9821, test_accuracy=65.810%
Epoch: 26



(train) Epoch=26, lr=0.2201 loss=0.971: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 35.72it/s]

train_loss=0.9706, train_accuracy=65.909%



(val) Epoch=26, loss=0.951: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 55.01it/s]

test_loss=0.9507, test_accuracy=66.240%
Epoch: 27



(train) Epoch=27, lr=0.2179 loss=0.963: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 35.33it/s]

train_loss=0.9633, train_accuracy=66.026%



(val) Epoch=27, loss=0.896: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 51.85it/s]

test_loss=0.8964, test_accuracy=68.520%
Epoch: 28



(train) Epoch=28, lr=0.2157 loss=0.927: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 35.35it/s]

train_loss=0.9269, train_accuracy=67.441%



(val) Epoch=28, loss=0.977: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 51.78it/s]

test_loss=0.9770, test_accuracy=66.550%
Epoch: 29



(train) Epoch=29, lr=0.2134 loss=0.914: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 35.06it/s]

train_loss=0.9143, train_accuracy=68.124%



(val) Epoch=29, loss=0.922: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 51.34it/s]

test_loss=0.9225, test_accuracy=67.840%
Epoch: 30



(train) Epoch=30, lr=0.2110 loss=0.909: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 35.29it/s]

train_loss=0.9091, train_accuracy=68.216%



(val) Epoch=30, loss=1.008: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 55.83it/s]

test_loss=1.0085, test_accuracy=64.870%
Epoch: 31



(train) Epoch=31, lr=0.2086 loss=0.889: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 35.03it/s]

train_loss=0.8885, train_accuracy=68.976%



(val) Epoch=31, loss=1.091: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 55.38it/s]

test_loss=1.0915, test_accuracy=63.580%
Epoch: 32



(train) Epoch=32, lr=0.2062 loss=0.887: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.75it/s]

train_loss=0.8870, train_accuracy=69.149%



(val) Epoch=32, loss=0.918: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 54.97it/s]

test_loss=0.9185, test_accuracy=67.490%
Epoch: 33



(train) Epoch=33, lr=0.2037 loss=0.865: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.77it/s]

train_loss=0.8652, train_accuracy=69.839%



(val) Epoch=33, loss=0.936: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 51.87it/s]

test_loss=0.9357, test_accuracy=68.350%
Epoch: 34



(train) Epoch=34, lr=0.2011 loss=0.859: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.63it/s]

train_loss=0.8587, train_accuracy=70.085%



(val) Epoch=34, loss=0.881: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 54.50it/s]

test_loss=0.8812, test_accuracy=70.040%
Epoch: 35



(train) Epoch=35, lr=0.1985 loss=0.849: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.65it/s]

train_loss=0.8485, train_accuracy=70.492%



(val) Epoch=35, loss=0.955: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 51.06it/s]

test_loss=0.9553, test_accuracy=67.990%
Epoch: 36



(train) Epoch=36, lr=0.1958 loss=0.838: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.96it/s]

train_loss=0.8381, train_accuracy=70.812%



(val) Epoch=36, loss=0.892: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 51.12it/s]

test_loss=0.8915, test_accuracy=69.350%
Epoch: 37



(train) Epoch=37, lr=0.1931 loss=0.839: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.19it/s]

train_loss=0.8387, train_accuracy=70.685%



(val) Epoch=37, loss=1.212: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 53.39it/s]

test_loss=1.2122, test_accuracy=60.810%
Epoch: 38



(train) Epoch=38, lr=0.1903 loss=0.826: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 35.15it/s]

train_loss=0.8261, train_accuracy=71.341%



(val) Epoch=38, loss=0.847: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 53.64it/s]

test_loss=0.8469, test_accuracy=70.160%
Epoch: 39



(train) Epoch=39, lr=0.1875 loss=0.824: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 35.43it/s]

train_loss=0.8239, train_accuracy=71.529%



(val) Epoch=39, loss=0.859: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 54.74it/s]

test_loss=0.8585, test_accuracy=70.570%
Epoch: 40



(train) Epoch=40, lr=0.1846 loss=0.787: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.63it/s]

train_loss=0.7869, train_accuracy=72.785%



(val) Epoch=40, loss=0.836: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 52.18it/s]

test_loss=0.8363, test_accuracy=70.830%
Epoch: 41



(train) Epoch=41, lr=0.1817 loss=0.797: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 35.18it/s]

train_loss=0.7969, train_accuracy=72.149%



(val) Epoch=41, loss=0.934: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 54.68it/s]

test_loss=0.9341, test_accuracy=68.820%
Epoch: 42



(train) Epoch=42, lr=0.1788 loss=0.778: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.93it/s]

train_loss=0.7784, train_accuracy=73.065%



(val) Epoch=42, loss=0.830: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 53.02it/s]

test_loss=0.8300, test_accuracy=71.410%
Epoch: 43



(train) Epoch=43, lr=0.1758 loss=0.781: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 33.27it/s]

train_loss=0.7814, train_accuracy=72.737%



(val) Epoch=43, loss=0.924: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 52.80it/s]

test_loss=0.9235, test_accuracy=69.010%
Epoch: 44



(train) Epoch=44, lr=0.1728 loss=0.775: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.67it/s]

train_loss=0.7745, train_accuracy=73.246%



(val) Epoch=44, loss=0.855: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 50.54it/s]

test_loss=0.8549, test_accuracy=71.360%
Epoch: 45



(train) Epoch=45, lr=0.1698 loss=0.764: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.82it/s]

train_loss=0.7643, train_accuracy=73.516%



(val) Epoch=45, loss=0.932: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 51.48it/s]

test_loss=0.9320, test_accuracy=68.080%
Epoch: 46



(train) Epoch=46, lr=0.1667 loss=0.756: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 35.60it/s]

train_loss=0.7556, train_accuracy=73.758%



(val) Epoch=46, loss=0.764: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 54.67it/s]

test_loss=0.7639, test_accuracy=74.050%
Epoch: 47



(train) Epoch=47, lr=0.1636 loss=0.745: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.77it/s]

train_loss=0.7452, train_accuracy=74.325%



(val) Epoch=47, loss=0.723: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 54.68it/s]

test_loss=0.7226, test_accuracy=75.280%
Epoch: 48



(train) Epoch=48, lr=0.1605 loss=0.745: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.90it/s]

train_loss=0.7455, train_accuracy=74.209%



(val) Epoch=48, loss=0.840: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 51.94it/s]

test_loss=0.8403, test_accuracy=71.600%
Epoch: 49



(train) Epoch=49, lr=0.1574 loss=0.732: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.91it/s]

train_loss=0.7317, train_accuracy=74.692%



(val) Epoch=49, loss=0.819: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 51.61it/s]

test_loss=0.8191, test_accuracy=72.350%
Epoch: 50



(train) Epoch=50, lr=0.1542 loss=0.719: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 35.41it/s]

train_loss=0.7186, train_accuracy=75.079%



(val) Epoch=50, loss=0.750: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 52.67it/s]

test_loss=0.7498, test_accuracy=74.280%
Epoch: 51



(train) Epoch=51, lr=0.1510 loss=0.731: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.65it/s]

train_loss=0.7308, train_accuracy=74.869%



(val) Epoch=51, loss=0.777: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 54.66it/s]

test_loss=0.7769, test_accuracy=73.800%
Epoch: 52



(train) Epoch=52, lr=0.1478 loss=0.715: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 35.24it/s]

train_loss=0.7152, train_accuracy=75.224%



(val) Epoch=52, loss=0.801: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 55.04it/s]

test_loss=0.8008, test_accuracy=72.610%
Epoch: 53



(train) Epoch=53, lr=0.1446 loss=0.705: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.78it/s]

train_loss=0.7053, train_accuracy=75.421%



(val) Epoch=53, loss=0.857: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 54.26it/s]

test_loss=0.8568, test_accuracy=71.480%
Epoch: 54



(train) Epoch=54, lr=0.1413 loss=0.709: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 35.18it/s]

train_loss=0.7092, train_accuracy=75.513%



(val) Epoch=54, loss=0.727: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 50.51it/s]

test_loss=0.7269, test_accuracy=74.740%
Epoch: 55



(train) Epoch=55, lr=0.1381 loss=0.687: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.84it/s]

train_loss=0.6870, train_accuracy=76.234%



(val) Epoch=55, loss=0.785: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 50.99it/s]


test_loss=0.7851, test_accuracy=72.960%
Epoch: 56


(train) Epoch=56, lr=0.1348 loss=0.681: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.50it/s]

train_loss=0.6809, train_accuracy=76.532%



(val) Epoch=56, loss=0.808: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 54.80it/s]

test_loss=0.8084, test_accuracy=73.410%
Epoch: 57



(train) Epoch=57, lr=0.1315 loss=0.678: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.94it/s]

train_loss=0.6780, train_accuracy=76.577%



(val) Epoch=57, loss=0.785: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 54.51it/s]

test_loss=0.7849, test_accuracy=74.180%
Epoch: 58



(train) Epoch=58, lr=0.1283 loss=0.672: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.60it/s]

train_loss=0.6721, train_accuracy=76.901%



(val) Epoch=58, loss=0.702: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 54.35it/s]

test_loss=0.7017, test_accuracy=76.040%
Epoch: 59



(train) Epoch=59, lr=0.1250 loss=0.657: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 35.35it/s]

train_loss=0.6567, train_accuracy=77.442%



(val) Epoch=59, loss=0.805: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 51.67it/s]

test_loss=0.8052, test_accuracy=72.440%
Epoch: 60



(train) Epoch=60, lr=0.1217 loss=0.653: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 33.69it/s]

train_loss=0.6527, train_accuracy=77.326%



(val) Epoch=60, loss=0.920: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 52.55it/s]

test_loss=0.9199, test_accuracy=69.750%
Epoch: 61



(train) Epoch=61, lr=0.1185 loss=0.658: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.96it/s]

train_loss=0.6577, train_accuracy=77.305%



(val) Epoch=61, loss=0.696: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 51.49it/s]

test_loss=0.6955, test_accuracy=76.520%
Epoch: 62



(train) Epoch=62, lr=0.1152 loss=0.647: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 35.00it/s]

train_loss=0.6468, train_accuracy=77.531%



(val) Epoch=62, loss=0.860: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 53.29it/s]

test_loss=0.8601, test_accuracy=71.930%
Epoch: 63



(train) Epoch=63, lr=0.1119 loss=0.633: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 35.30it/s]


train_loss=0.6331, train_accuracy=77.972%


(val) Epoch=63, loss=0.707: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 53.74it/s]

test_loss=0.7072, test_accuracy=75.540%
Epoch: 64



(train) Epoch=64, lr=0.1087 loss=0.637: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.86it/s]

train_loss=0.6370, train_accuracy=78.242%



(val) Epoch=64, loss=0.651: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 53.30it/s]

test_loss=0.6507, test_accuracy=77.890%
Epoch: 65



(train) Epoch=65, lr=0.1054 loss=0.628: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.85it/s]

train_loss=0.6284, train_accuracy=78.276%



(val) Epoch=65, loss=0.717: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 51.84it/s]

test_loss=0.7167, test_accuracy=74.950%
Epoch: 66



(train) Epoch=66, lr=0.1022 loss=0.616: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.47it/s]

train_loss=0.6160, train_accuracy=78.669%



(val) Epoch=66, loss=0.641: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 54.47it/s]

test_loss=0.6410, test_accuracy=78.520%
Epoch: 67



(train) Epoch=67, lr=0.0990 loss=0.614: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 35.60it/s]

train_loss=0.6143, train_accuracy=78.687%



(val) Epoch=67, loss=0.728: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 54.85it/s]

test_loss=0.7282, test_accuracy=75.280%
Epoch: 68



(train) Epoch=68, lr=0.0958 loss=0.595: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.77it/s]

train_loss=0.5953, train_accuracy=79.440%



(val) Epoch=68, loss=0.677: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 57.65it/s]

test_loss=0.6774, test_accuracy=77.560%
Epoch: 69



(train) Epoch=69, lr=0.0926 loss=0.597: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.11it/s]

train_loss=0.5966, train_accuracy=79.311%



(val) Epoch=69, loss=0.726: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 51.36it/s]

test_loss=0.7261, test_accuracy=75.450%
Epoch: 70



(train) Epoch=70, lr=0.0895 loss=0.593: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.27it/s]

train_loss=0.5932, train_accuracy=79.389%



(val) Epoch=70, loss=0.619: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 48.31it/s]

test_loss=0.6192, test_accuracy=79.350%
Epoch: 71



(train) Epoch=71, lr=0.0864 loss=0.579: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.30it/s]

train_loss=0.5790, train_accuracy=79.849%



(val) Epoch=71, loss=0.715: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 54.94it/s]

test_loss=0.7145, test_accuracy=76.090%
Epoch: 72



(train) Epoch=72, lr=0.0833 loss=0.580: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.99it/s]

train_loss=0.5798, train_accuracy=79.947%



(val) Epoch=72, loss=0.728: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 49.94it/s]

test_loss=0.7284, test_accuracy=75.160%
Epoch: 73



(train) Epoch=73, lr=0.0802 loss=0.568: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 35.25it/s]

train_loss=0.5681, train_accuracy=80.467%



(val) Epoch=73, loss=0.774: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 50.26it/s]

test_loss=0.7742, test_accuracy=73.340%
Epoch: 74



(train) Epoch=74, lr=0.0772 loss=0.564: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.64it/s]

train_loss=0.5636, train_accuracy=80.485%



(val) Epoch=74, loss=0.676: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 54.03it/s]

test_loss=0.6761, test_accuracy=77.120%
Epoch: 75



(train) Epoch=75, lr=0.0742 loss=0.557: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.72it/s]

train_loss=0.5572, train_accuracy=80.890%



(val) Epoch=75, loss=0.699: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 55.06it/s]

test_loss=0.6987, test_accuracy=76.080%
Epoch: 76



(train) Epoch=76, lr=0.0712 loss=0.544: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.61it/s]

train_loss=0.5443, train_accuracy=81.006%



(val) Epoch=76, loss=0.638: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 54.46it/s]

test_loss=0.6379, test_accuracy=78.640%
Epoch: 77



(train) Epoch=77, lr=0.0683 loss=0.544: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.88it/s]

train_loss=0.5436, train_accuracy=81.278%



(val) Epoch=77, loss=0.653: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 52.14it/s]

test_loss=0.6525, test_accuracy=77.960%
Epoch: 78



(train) Epoch=78, lr=0.0654 loss=0.540: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 33.94it/s]

train_loss=0.5401, train_accuracy=81.095%



(val) Epoch=78, loss=0.598: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 55.45it/s]

test_loss=0.5977, test_accuracy=79.600%
Epoch: 79



(train) Epoch=79, lr=0.0625 loss=0.538: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.37it/s]

train_loss=0.5379, train_accuracy=81.341%



(val) Epoch=79, loss=0.645: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 54.17it/s]

test_loss=0.6455, test_accuracy=77.780%
Epoch: 80



(train) Epoch=80, lr=0.0597 loss=0.526: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.41it/s]

train_loss=0.5260, train_accuracy=81.751%



(val) Epoch=80, loss=0.604: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 55.54it/s]

test_loss=0.6039, test_accuracy=79.200%
Epoch: 81



(train) Epoch=81, lr=0.0569 loss=0.516: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 33.20it/s]

train_loss=0.5163, train_accuracy=82.090%



(val) Epoch=81, loss=0.652: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 51.36it/s]


test_loss=0.6516, test_accuracy=78.290%
Epoch: 82


(train) Epoch=82, lr=0.0542 loss=0.519: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.92it/s]

train_loss=0.5188, train_accuracy=82.015%



(val) Epoch=82, loss=0.602: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 55.36it/s]

test_loss=0.6020, test_accuracy=79.520%
Epoch: 83



(train) Epoch=83, lr=0.0515 loss=0.496: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.44it/s]

train_loss=0.4960, train_accuracy=82.827%



(val) Epoch=83, loss=0.552: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 50.96it/s]

test_loss=0.5523, test_accuracy=81.470%
Epoch: 84



(train) Epoch=84, lr=0.0489 loss=0.493: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.88it/s]

train_loss=0.4930, train_accuracy=82.976%



(val) Epoch=84, loss=0.605: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 51.49it/s]

test_loss=0.6052, test_accuracy=80.490%
Epoch: 85



(train) Epoch=85, lr=0.0463 loss=0.489: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 35.48it/s]

train_loss=0.4887, train_accuracy=83.076%



(val) Epoch=85, loss=0.598: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 49.58it/s]

test_loss=0.5976, test_accuracy=80.580%
Epoch: 86



(train) Epoch=86, lr=0.0438 loss=0.481: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 35.02it/s]

train_loss=0.4808, train_accuracy=83.048%



(val) Epoch=86, loss=0.532: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 50.64it/s]

test_loss=0.5318, test_accuracy=81.680%
Epoch: 87



(train) Epoch=87, lr=0.0414 loss=0.477: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.04it/s]

train_loss=0.4767, train_accuracy=83.560%



(val) Epoch=87, loss=0.624: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 55.28it/s]

test_loss=0.6236, test_accuracy=78.860%
Epoch: 88



(train) Epoch=88, lr=0.0390 loss=0.474: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 35.54it/s]

train_loss=0.4739, train_accuracy=83.525%



(val) Epoch=88, loss=0.556: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 52.05it/s]

test_loss=0.5557, test_accuracy=81.380%
Epoch: 89



(train) Epoch=89, lr=0.0366 loss=0.463: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 35.61it/s]

train_loss=0.4627, train_accuracy=83.986%



(val) Epoch=89, loss=0.542: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 55.81it/s]

test_loss=0.5415, test_accuracy=82.230%
Epoch: 90



(train) Epoch=90, lr=0.0343 loss=0.447: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.56it/s]

train_loss=0.4467, train_accuracy=84.564%



(val) Epoch=90, loss=0.548: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 53.19it/s]

test_loss=0.5480, test_accuracy=81.640%
Epoch: 91



(train) Epoch=91, lr=0.0321 loss=0.448: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 35.09it/s]

train_loss=0.4477, train_accuracy=84.516%



(val) Epoch=91, loss=0.526: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 51.84it/s]

test_loss=0.5261, test_accuracy=82.440%
Epoch: 92



(train) Epoch=92, lr=0.0299 loss=0.450: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.78it/s]

train_loss=0.4503, train_accuracy=84.393%



(val) Epoch=92, loss=0.528: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 51.51it/s]

test_loss=0.5283, test_accuracy=82.100%
Epoch: 93



(train) Epoch=93, lr=0.0279 loss=0.439: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.62it/s]

train_loss=0.4392, train_accuracy=84.760%



(val) Epoch=93, loss=0.516: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 54.39it/s]

test_loss=0.5155, test_accuracy=82.580%
Epoch: 94



(train) Epoch=94, lr=0.0258 loss=0.429: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 35.50it/s]

train_loss=0.4290, train_accuracy=85.172%



(val) Epoch=94, loss=0.525: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 51.01it/s]

test_loss=0.5245, test_accuracy=82.190%
Epoch: 95



(train) Epoch=95, lr=0.0239 loss=0.428: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 33.67it/s]

train_loss=0.4280, train_accuracy=85.192%



(val) Epoch=95, loss=0.502: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 53.86it/s]

test_loss=0.5017, test_accuracy=83.700%
Epoch: 96



(train) Epoch=96, lr=0.0220 loss=0.418: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.78it/s]

train_loss=0.4179, train_accuracy=85.396%



(val) Epoch=96, loss=0.517: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 54.65it/s]

test_loss=0.5170, test_accuracy=82.890%
Epoch: 97



(train) Epoch=97, lr=0.0202 loss=0.418: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.05it/s]

train_loss=0.4176, train_accuracy=85.650%



(val) Epoch=97, loss=0.526: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 51.93it/s]

test_loss=0.5260, test_accuracy=82.300%
Epoch: 98



(train) Epoch=98, lr=0.0184 loss=0.404: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.51it/s]

train_loss=0.4043, train_accuracy=85.960%



(val) Epoch=98, loss=0.501: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 54.78it/s]

test_loss=0.5014, test_accuracy=83.280%
Epoch: 99



(train) Epoch=99, lr=0.0167 loss=0.403: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 33.39it/s]

train_loss=0.4031, train_accuracy=86.151%



(val) Epoch=99, loss=0.490: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 48.38it/s]

test_loss=0.4897, test_accuracy=83.090%
Epoch: 100



(train) Epoch=100, lr=0.0151 loss=0.397: 100%|█████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.83it/s]

train_loss=0.3969, train_accuracy=86.231%



(val) Epoch=100, loss=0.495: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 56.06it/s]

test_loss=0.4952, test_accuracy=82.990%
Epoch: 101



(train) Epoch=101, lr=0.0136 loss=0.388: 100%|█████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.50it/s]

train_loss=0.3877, train_accuracy=86.536%



(val) Epoch=101, loss=0.470: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 53.35it/s]

test_loss=0.4699, test_accuracy=84.400%
Epoch: 102



(train) Epoch=102, lr=0.0122 loss=0.390: 100%|█████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.48it/s]

train_loss=0.3902, train_accuracy=86.385%



(val) Epoch=102, loss=0.486: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 50.29it/s]

test_loss=0.4855, test_accuracy=83.890%
Epoch: 103



(train) Epoch=103, lr=0.0108 loss=0.381: 100%|█████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.52it/s]

train_loss=0.3812, train_accuracy=86.888%



(val) Epoch=103, loss=0.514: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 52.64it/s]

test_loss=0.5143, test_accuracy=82.810%
Epoch: 104



(train) Epoch=104, lr=0.0095 loss=0.381: 100%|█████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 35.26it/s]


train_loss=0.3809, train_accuracy=86.795%


(val) Epoch=104, loss=0.495: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 54.51it/s]

test_loss=0.4952, test_accuracy=83.640%
Epoch: 105



(train) Epoch=105, lr=0.0083 loss=0.369: 100%|█████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.95it/s]

train_loss=0.3686, train_accuracy=87.268%



(val) Epoch=105, loss=0.487: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 54.33it/s]

test_loss=0.4869, test_accuracy=83.930%
Epoch: 106



(train) Epoch=106, lr=0.0072 loss=0.371: 100%|█████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 35.01it/s]

train_loss=0.3711, train_accuracy=87.099%



(val) Epoch=106, loss=0.511: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 51.19it/s]

test_loss=0.5107, test_accuracy=83.680%
Epoch: 107



(train) Epoch=107, lr=0.0061 loss=0.362: 100%|█████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.83it/s]

train_loss=0.3625, train_accuracy=87.518%



(val) Epoch=107, loss=0.458: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 50.96it/s]

test_loss=0.4584, test_accuracy=84.730%
Epoch: 108



(train) Epoch=108, lr=0.0051 loss=0.357: 100%|█████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 35.28it/s]


train_loss=0.3570, train_accuracy=87.500%


(val) Epoch=108, loss=0.477: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 50.13it/s]

test_loss=0.4766, test_accuracy=83.450%
Epoch: 109



(train) Epoch=109, lr=0.0043 loss=0.353: 100%|█████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 35.22it/s]

train_loss=0.3529, train_accuracy=87.583%



(val) Epoch=109, loss=0.457: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 53.14it/s]

test_loss=0.4574, test_accuracy=84.760%
Epoch: 110



(train) Epoch=110, lr=0.0035 loss=0.358: 100%|█████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.37it/s]

train_loss=0.3579, train_accuracy=87.583%



(val) Epoch=110, loss=0.488: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 54.03it/s]

test_loss=0.4877, test_accuracy=83.690%
Epoch: 111



(train) Epoch=111, lr=0.0027 loss=0.359: 100%|█████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.95it/s]

train_loss=0.3588, train_accuracy=87.524%



(val) Epoch=111, loss=0.486: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 51.70it/s]

test_loss=0.4857, test_accuracy=83.480%
Epoch: 112



(train) Epoch=112, lr=0.0021 loss=0.349: 100%|█████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.38it/s]

train_loss=0.3489, train_accuracy=87.875%



(val) Epoch=112, loss=0.472: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 53.75it/s]

test_loss=0.4720, test_accuracy=84.700%
Epoch: 113



(train) Epoch=113, lr=0.0015 loss=0.350: 100%|█████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.77it/s]

train_loss=0.3504, train_accuracy=87.728%



(val) Epoch=113, loss=0.474: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 51.95it/s]

test_loss=0.4741, test_accuracy=83.880%
Epoch: 114



(train) Epoch=114, lr=0.0011 loss=0.346: 100%|█████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 35.39it/s]

train_loss=0.3457, train_accuracy=88.072%



(val) Epoch=114, loss=0.448: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 53.37it/s]

test_loss=0.4476, test_accuracy=85.150%
Epoch: 115



(train) Epoch=115, lr=0.0007 loss=0.346: 100%|█████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.68it/s]

train_loss=0.3459, train_accuracy=88.078%



(val) Epoch=115, loss=0.464: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 53.01it/s]

test_loss=0.4645, test_accuracy=84.610%
Epoch: 116



(train) Epoch=116, lr=0.0004 loss=0.347: 100%|█████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 35.43it/s]

train_loss=0.3471, train_accuracy=88.011%



(val) Epoch=116, loss=0.453: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 54.26it/s]

test_loss=0.4534, test_accuracy=85.220%
Epoch: 117



(train) Epoch=117, lr=0.0002 loss=0.345: 100%|█████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.63it/s]

train_loss=0.3451, train_accuracy=87.953%



(val) Epoch=117, loss=0.482: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 53.65it/s]

test_loss=0.4822, test_accuracy=83.730%
Epoch: 118



(train) Epoch=118, lr=0.0000 loss=0.347: 100%|█████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.93it/s]

train_loss=0.3468, train_accuracy=87.901%



(val) Epoch=118, loss=0.479: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 53.31it/s]

test_loss=0.4785, test_accuracy=84.480%
Epoch: 119



(train) Epoch=119, lr=0.0000 loss=0.345: 100%|█████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 33.89it/s]

train_loss=0.3450, train_accuracy=88.060%



(val) Epoch=119, loss=0.468: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 50.69it/s]

test_loss=0.4681, test_accuracy=84.260%





### Save supernet weights

In [14]:
torch.save(supernet.state_dict(), 'supernet_base_120.pth')