# Single Path One-Shot Neural Architecture Search using Random Search

# Train found architecture from scratch

## Setup

### Imports

In [1]:
from typing import Tuple

import torch
import torch.nn as nn
import torch.optim as optim
import torchvision
import torchvision.transforms as transforms
from thop import profile
from torch.utils.data import DataLoader
from tqdm import tqdm

from cifar10 import get_train_transform, get_val_transform
from supernet import supernet18

### Make everything a bit faster

In [2]:
torch.backends.cudnn.benchmark = True
torch.backends.cudnn.deterministic = False

### Build datasets and dataloaders for CIFAR-10

In [3]:
# Change this value if needed.
batch_size = 512

In [4]:
train_transform = get_train_transform()
val_transform = get_val_transform()

train_set = torchvision.datasets.CIFAR10(
    root='./data',
    train=True,
    download=True,
    transform=train_transform,
)
test_set = torchvision.datasets.CIFAR10(
    root='./data',
    train=False,
    download=True,
    transform=val_transform,
)

train_dataloader = DataLoader(
    train_set,
    batch_size=batch_size,
    shuffle=True,
    num_workers=4,
    drop_last=True,
)
test_dataloader = DataLoader(
    test_set,
    batch_size=batch_size,
    shuffle=False,
    num_workers=4,
    drop_last=False,
)

Files already downloaded and verified
Files already downloaded and verified


## Create supernet

In [5]:
# Select suitable device.
# You should probably use either cuda (NVidia GPU) or mps (Apple) backend.
device = torch.device('cuda:0')

In [6]:
channel_multipliers = (0.25, 0.5, 0.75, 1.0, 1.25, 1.5)
model = supernet18(num_classes=10, zero_init_residual=True, channel_multipliers=channel_multipliers)
model.to(device=device)

Supernet(
  (conv1): Conv2d(3, 64, kernel_size=(7, 7), stride=(2, 2), padding=(3, 3), bias=False)
  (bn1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
  (relu): ReLU(inplace=True)
  (maxpool): MaxPool2d(kernel_size=3, stride=2, padding=1, dilation=1, ceil_mode=False)
  (layer1): Sequential(
    (0): SearchBlock(
      (ops): ModuleList(
        (0): BasicBlock(
          (conv1): Conv2d(64, 16, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
          (bn1): BatchNorm2d(16, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
          (relu): ReLU(inplace=True)
          (conv2): Conv2d(16, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
          (bn2): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
        )
        (1): BasicBlock(
          (conv1): Conv2d(64, 32, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
          (bn1): BatchNorm2d(32, eps=1e-05,

## Sample found architecture from the supernet

In [7]:
# This is a necessary step!
best_architecture = [3, 5, 1, 0, 2, 0, 4, 1]
model.sample(best_architecture)

### Compute the number of MACs and parameters for the sampled architecture

In [8]:
macs, params = profile(model, inputs=(torch.zeros(1, 3, 32, 32, device=device),))
print(f'Number of macs: {macs / 1e6:.2f}M, number of parameters: {params / 1e6:.2f}M')

[INFO] Register count_convNd() for <class 'torch.nn.modules.conv.Conv2d'>.
[INFO] Register count_normalization() for <class 'torch.nn.modules.batchnorm.BatchNorm2d'>.
[INFO] Register zero_ops() for <class 'torch.nn.modules.activation.ReLU'>.
[INFO] Register zero_ops() for <class 'torch.nn.modules.pooling.MaxPool2d'>.
[INFO] Register zero_ops() for <class 'torch.nn.modules.container.Sequential'>.
[INFO] Register count_adap_avgpool() for <class 'torch.nn.modules.pooling.AdaptiveAvgPool2d'>.
[INFO] Register count_linear() for <class 'torch.nn.modules.linear.Linear'>.
Number of macs: 28.37M, number of parameters: 8.31M


## Train found architecture

### Define loss function

In [9]:
criterion = nn.CrossEntropyLoss()

### Select hyperparameters

In [10]:
lr = 0.25
weight_decay = 5e-4
momentum = 0.9
n_epochs = 20  # Train for the same number of epochs as baseline for fair comparison.

### Build optimizer and scheduler

In [11]:
optimizer = optim.SGD(model.parameters(), lr=lr, weight_decay=weight_decay, momentum=momentum)
scheduler = optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max=len(train_dataloader) * n_epochs)

### Define training and evaluation functions

In [12]:
def train_one_epoch(
        model: nn.Module,
        criterion: nn.Module,
        dataloader: DataLoader,
        optimizer: optim.Optimizer,
        scheduler,
        device: torch.device,
        epoch: int,
) -> Tuple[float, float]:
    model.train()

    total_loss = 0.0
    total_correct = 0.0
    total_samples = 0

    wrapped_dataloader = tqdm(enumerate(dataloader), total=len(dataloader))
    for i, (inputs, labels) in wrapped_dataloader:
        inputs = inputs.to(device=device)
        labels = labels.to(device=device)

        optimizer.zero_grad()

        logits = model(inputs)
        loss = criterion(logits, labels)
        loss.backward()
        optimizer.step()
        scheduler.step()

        with torch.no_grad():
            _, predicted_labels = torch.max(logits, 1)
            total_loss += loss.item()
            total_correct += (predicted_labels == labels).sum().item()
            total_samples += labels.shape[0]

        wrapped_dataloader.set_description(
            f'(train) Epoch={epoch}, lr={scheduler.get_last_lr()[0]:.4f} loss={total_loss / (i + 1):.3f}'
        )

    return total_loss / len(dataloader), total_correct / total_samples


@torch.no_grad()
def validate_one_epoch(
        model: nn.Module,
        criterion: nn.Module,
        dataloader: DataLoader,
        device: torch.device,
        epoch: int,
) -> Tuple[float, float]:
    model.eval()

    total_loss = 0.0
    total_correct = 0.0
    total_samples = 0

    wrapped_dataloader = tqdm(enumerate(dataloader), total=len(dataloader))
    for i, (inputs, labels) in wrapped_dataloader:
        inputs = inputs.to(device=device)
        labels = labels.to(device=device)

        logits = model(inputs)
        loss = criterion(logits, labels)
        _, predicted_labels = torch.max(logits, 1)
        total_loss += loss.item()
        total_correct += (predicted_labels == labels).sum().item()
        total_samples += labels.shape[0]

        wrapped_dataloader.set_description(f'(val) Epoch={epoch}, loss={total_loss / (i + 1):.3f}')

    return total_loss / len(dataloader), total_correct / total_samples

### Run training

In [13]:
for epoch in range(n_epochs):
    print(f'Epoch: {epoch}')
    loss, accuracy = train_one_epoch(model, criterion, train_dataloader, optimizer, scheduler, device, epoch)
    print(f'train_loss={loss:.4f}, train_accuracy={accuracy:.3%}')
    loss, accuracy = validate_one_epoch(model, criterion, test_dataloader, device, epoch)
    print(f'test_loss={loss:.4f}, test_accuracy={accuracy:.3%}')

Epoch: 0


(train) Epoch=0, lr=0.2485 loss=2.002: 100%|███████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:03<00:00, 28.07it/s]

train_loss=2.0021, train_accuracy=27.692%



(val) Epoch=0, loss=1.579: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 38.51it/s]

test_loss=1.5793, test_accuracy=41.970%
Epoch: 1



(train) Epoch=1, lr=0.2439 loss=1.454: 100%|███████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 35.25it/s]

train_loss=1.4537, train_accuracy=46.861%



(val) Epoch=1, loss=1.273: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 52.47it/s]

test_loss=1.2731, test_accuracy=54.250%
Epoch: 2



(train) Epoch=2, lr=0.2364 loss=1.247: 100%|███████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 35.24it/s]


train_loss=1.2474, train_accuracy=54.865%


(val) Epoch=2, loss=1.174: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 59.07it/s]


test_loss=1.1738, test_accuracy=58.820%
Epoch: 3


(train) Epoch=3, lr=0.2261 loss=1.107: 100%|███████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.92it/s]

train_loss=1.1075, train_accuracy=60.335%



(val) Epoch=3, loss=1.046: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 58.00it/s]

test_loss=1.0464, test_accuracy=62.830%
Epoch: 4



(train) Epoch=4, lr=0.2134 loss=1.000: 100%|███████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.84it/s]

train_loss=0.9996, train_accuracy=64.238%



(val) Epoch=4, loss=1.015: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 53.80it/s]

test_loss=1.0155, test_accuracy=65.490%
Epoch: 5



(train) Epoch=5, lr=0.1985 loss=0.935: 100%|███████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 35.35it/s]

train_loss=0.9352, train_accuracy=66.904%



(val) Epoch=5, loss=0.936: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 52.67it/s]

test_loss=0.9358, test_accuracy=67.380%
Epoch: 6



(train) Epoch=6, lr=0.1817 loss=0.872: 100%|███████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.90it/s]

train_loss=0.8723, train_accuracy=69.211%



(val) Epoch=6, loss=0.853: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 57.30it/s]

test_loss=0.8535, test_accuracy=69.780%
Epoch: 7



(train) Epoch=7, lr=0.1636 loss=0.824: 100%|███████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 35.15it/s]


train_loss=0.8240, train_accuracy=71.003%


(val) Epoch=7, loss=0.811: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 53.81it/s]

test_loss=0.8113, test_accuracy=71.910%
Epoch: 8



(train) Epoch=8, lr=0.1446 loss=0.781: 100%|███████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 35.18it/s]

train_loss=0.7811, train_accuracy=72.676%



(val) Epoch=8, loss=0.889: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 55.68it/s]

test_loss=0.8891, test_accuracy=69.400%
Epoch: 9



(train) Epoch=9, lr=0.1250 loss=0.737: 100%|███████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 35.22it/s]

train_loss=0.7373, train_accuracy=74.203%



(val) Epoch=9, loss=0.806: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 54.28it/s]

test_loss=0.8057, test_accuracy=72.560%
Epoch: 10



(train) Epoch=10, lr=0.1054 loss=0.698: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.84it/s]

train_loss=0.6978, train_accuracy=75.487%



(val) Epoch=10, loss=0.696: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 53.16it/s]

test_loss=0.6960, test_accuracy=75.790%
Epoch: 11



(train) Epoch=11, lr=0.0864 loss=0.659: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.88it/s]

train_loss=0.6592, train_accuracy=76.846%



(val) Epoch=11, loss=0.670: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 56.99it/s]


test_loss=0.6701, test_accuracy=76.430%
Epoch: 12


(train) Epoch=12, lr=0.0683 loss=0.621: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 35.31it/s]

train_loss=0.6213, train_accuracy=78.272%



(val) Epoch=12, loss=0.647: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 53.67it/s]

test_loss=0.6467, test_accuracy=77.410%
Epoch: 13



(train) Epoch=13, lr=0.0515 loss=0.577: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 35.46it/s]

train_loss=0.5770, train_accuracy=79.782%



(val) Epoch=13, loss=0.617: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 54.69it/s]

test_loss=0.6166, test_accuracy=79.050%
Epoch: 14



(train) Epoch=14, lr=0.0366 loss=0.546: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.74it/s]

train_loss=0.5462, train_accuracy=80.851%



(val) Epoch=14, loss=0.598: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 55.66it/s]

test_loss=0.5977, test_accuracy=79.160%
Epoch: 15



(train) Epoch=15, lr=0.0239 loss=0.505: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.17it/s]

train_loss=0.5054, train_accuracy=82.345%



(val) Epoch=15, loss=0.545: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 55.06it/s]

test_loss=0.5446, test_accuracy=81.830%
Epoch: 16



(train) Epoch=16, lr=0.0136 loss=0.474: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.70it/s]

train_loss=0.4738, train_accuracy=83.318%



(val) Epoch=16, loss=0.529: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 55.81it/s]

test_loss=0.5294, test_accuracy=82.340%
Epoch: 17



(train) Epoch=17, lr=0.0061 loss=0.448: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.87it/s]

train_loss=0.4481, train_accuracy=84.423%



(val) Epoch=17, loss=0.515: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 52.54it/s]

test_loss=0.5146, test_accuracy=82.630%
Epoch: 18



(train) Epoch=18, lr=0.0015 loss=0.430: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.88it/s]

train_loss=0.4299, train_accuracy=84.959%



(val) Epoch=18, loss=0.509: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 58.36it/s]

test_loss=0.5089, test_accuracy=83.000%
Epoch: 19



(train) Epoch=19, lr=0.0000 loss=0.422: 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 97/97 [00:02<00:00, 34.36it/s]

train_loss=0.4215, train_accuracy=85.231%



(val) Epoch=19, loss=0.509: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 52.18it/s]

test_loss=0.5085, test_accuracy=82.970%





### Save trained model weights

In [14]:
torch.save(model.state_dict(), 'advanced_arch_35102041.pth')

As you can already see, NAS is a very tricky thing. The model found using tuned statistics it performing worse than the model found untuned batch norms. Weird, but this is how deep learning works (or not).

Explanation: the model we've sampled probably received more training updates and therefore showed better results. This is why we cannot reproduce this *superiority* when training from scratch. So we better use FairNAS algorithm for pretraining, but this is left as an exercise to the reader.

Comparison with the previously found architecture:
```
MACs: 28.7M -> 28.4M
Accuracy: 83.1% -> 83.0%
```