In [1]:
%matplotlib inline
import matplotlib.pyplot as plt
import torch
import torchvision
from torch.utils.data import DataLoader
from torch.utils.data import DataLoader


In [2]:

from torchvision.transforms import v2



In [3]:

training_data = torchvision.datasets.CIFAR10(
    root="data",
    train=True,
    download=True,
    transform=v2.Compose([
        v2.ToTensor(),
        v2.RandomHorizontalFlip(),
        v2.RandomResizedCrop(size=32, scale=(0.85, 1.0), antialias=False),
        v2.ColorJitter(brightness=0.2, contrast=0.2, saturation=0.2),
    ])
)
test_data = torchvision.datasets.CIFAR10(
    root="data",
    train=False,
    download=True,
    transform=v2.Compose([
        v2.ToTensor(),
    ])
)

# split the training data into training and validation
training_data, validation_data = torch.utils.data.random_split(training_data, [.8, .2], generator=torch.Generator().manual_seed(42))
batch_size = 128

# Create the dataloaders

train_dataloader = DataLoader(training_data,
                              batch_size=batch_size,
                              pin_memory=True,
                              shuffle=True,
                              num_workers=4)
validation_dataloader = DataLoader(validation_data,
                                   batch_size=batch_size,
                                   pin_memory=True,  # copy the data to the GPU
                                   shuffle=False,
                                   num_workers=4)  # number of subprocesses to use for data loading






Files already downloaded and verified
Files already downloaded and verified


In [4]:
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

In [5]:
def preprocess(X, Y):
    # CIFAR-10 is *color*
    return X.view(-1, 3, 32, 32).to(device), Y.to(device)


class WrappedDataLoader:
    def __init__(self, dl, func):
        self.dl = dl
        self.func = func

    def __len__(self):
        return len(self.dl)

    def __iter__(self):
        for b in self.dl:
            yield (self.func(*b))


train_dataloader = WrappedDataLoader(train_dataloader, preprocess)
validation_dataloader = WrappedDataLoader(validation_dataloader, preprocess)

In [6]:
from torch import nn

# Lets try a downsampler with convol
class Downsampler(nn.Module):
    def __init__(self, in_channels, out_channels):

        kernel_size=3
        stride=1
        padding=1 # keep the same size at the end
        super(Downsampler, self).__init__()

        layers=[
            nn.Conv2d(in_channels,out_channels,kernel_size,stride,padding),
            nn.BatchNorm2d(out_channels),
            nn.GELU(),
            nn.Conv2d(out_channels,out_channels,kernel_size,stride,padding),
            nn.BatchNorm2d(out_channels),
            nn.GELU(),
            nn.MaxPool2d(2)]
        self.downsample=nn.Sequential(*layers)

    def forward(self, inputs):
        return self.downsample(inputs)

class ConvNextBlock(nn.Module):
    """This block of operations is loosely based on this paper:
    start with an input with a 7 by 7 kernel, however with same padding it will not change the size of the image.
    Then we apply a normalization layer, and follow with 4 filters, aka patches,per channel.
    
    """

    def __init__(self, in_channels, shape):
        super(ConvNextBlock, self).__init__()
        # Depthwise, seperable convolution with a large number of output filters:
        self.conv1 = nn.Conv2d(in_channels=in_channels,
                               out_channels=in_channels,
                               groups=in_channels,# this is what makes it seperable? in_channel number of groups
                               kernel_size=[7, 7],
                               padding='same')# keep the same size
        #This is like an expand, 

        self.norm = nn.LayerNorm([in_channels, *shape])
        # Two more convolutions:
        self.conv2 = nn.Conv2d(in_channels=in_channels,
                               out_channels=4 * in_channels,
                               kernel_size=1)
        # Then we do the unrolling of the patches, and apply a non-linear activation function.
        self.conv3 = nn.Conv2d(in_channels=4 * in_channels,
                               out_channels=in_channels,
                               kernel_size=1
                               )

    def forward(self, inputs):
        x = self.conv1(inputs)
        x = self.norm(x)
        x = self.conv2(x)
        x = torch.nn.functional.gelu(x)
        x = self.conv3(x)
        # This makes it a residual network:
        return x + inputs

class Classifier(nn.Module):

    def __init__(self, n_initial_filters, n_stages, blocks_per_stage):
        super(Classifier, self).__init__()
        # our first example is set with 64,4,2 meaning 64 initial filters, 4 stages, 2 blocks per stage
        # This is a downsampling convolution that will produce patches of output.
        # This is similar to what vision transformers do to tokenize the images.
        self.stem = nn.Conv2d(in_channels=3,
                              out_channels=n_initial_filters,
                              kernel_size=1,
                              stride=1)
        # Here is the initial convolution which takes our 32 x 32 image with 3 channels and 
        # converts it to 64 channels with a 1x1 convolution

        # In other words, this stem is a patching operation that converts the input image into a set of patches.
        # 3 to 64.  maybe here it makes sense to make n_intial_filters = 3 * filter_per_channel.. say 32

        current_shape = [32, 32]
        self.norm1 = nn.LayerNorm([n_initial_filters, *current_shape])
        # self.norm1 = WrappedLayerNorm()
        current_n_filters = n_initial_filters

        self.layers = nn.Sequential()
        for i, n_blocks in enumerate(range(n_stages)):
            # Add a convnext block series:
            for _ in range(blocks_per_stage):
                self.layers.append(ConvNextBlock(in_channels=current_n_filters, shape=current_shape))
            # Add a downsampling layer:
            if i != n_stages - 1:
                # Skip downsampling if it's the last layer!
                self.layers.append(Downsampler(
                    in_channels=current_n_filters,
                    out_channels=2 * current_n_filters,
                )
                )
                # Double the number of filters:
                current_n_filters = 2 * current_n_filters
                # Cut the shape in half:
                current_shape = [cs // 2 for cs in current_shape]
                # here w eare doing a downsampling operation, which is a patching operation.
                # We record the current shape

        self.head = nn.Sequential(
            nn.Flatten(),
            nn.LayerNorm(current_n_filters),
            nn.Linear(current_n_filters, 10)
        )
        # self.norm2 = nn.InstanceNorm2d(current_n_filters)
        # # This brings it down to one channel / class
        # self.bottleneck = nn.Conv2d(in_channels=current_n_filters, out_channels=10, 
        #                                   kernel_size=1, stride=1)

    def forward(self, inputs):

        x = self.stem(inputs)
        # Apply a normalization after the initial patching:
        x = self.norm1(x)

        # Apply the main chunk of the network:
        x = self.layers(x)

        # Normalize and readout:
        x = nn.functional.avg_pool2d(x, x.shape[2:])
        x = self.head(x)

        return x

In [7]:
#model = Classifier(64, 4, 2)
#model.cuda()
# The first test will be to set the initial filter to a multiple of . Actually, Why don't I just convert the image to a 1 channel if color should not matter for these images.  I can then normalize the image as well.  
# 3 stages 
# 2 blocks per stage
model = Classifier(64, 3, 3)
model.cuda()


Classifier(
  (stem): Conv2d(3, 64, kernel_size=(1, 1), stride=(1, 1))
  (norm1): LayerNorm((64, 32, 32), eps=1e-05, elementwise_affine=True)
  (layers): Sequential(
    (0): ConvNextBlock(
      (conv1): Conv2d(64, 64, kernel_size=(7, 7), stride=(1, 1), padding=same, groups=64)
      (norm): LayerNorm((64, 32, 32), eps=1e-05, elementwise_affine=True)
      (conv2): Conv2d(64, 256, kernel_size=(1, 1), stride=(1, 1))
      (conv3): Conv2d(256, 64, kernel_size=(1, 1), stride=(1, 1))
    )
    (1): ConvNextBlock(
      (conv1): Conv2d(64, 64, kernel_size=(7, 7), stride=(1, 1), padding=same, groups=64)
      (norm): LayerNorm((64, 32, 32), eps=1e-05, elementwise_affine=True)
      (conv2): Conv2d(64, 256, kernel_size=(1, 1), stride=(1, 1))
      (conv3): Conv2d(256, 64, kernel_size=(1, 1), stride=(1, 1))
    )
    (2): ConvNextBlock(
      (conv1): Conv2d(64, 64, kernel_size=(7, 7), stride=(1, 1), padding=same, groups=64)
      (norm): LayerNorm((64, 32, 32), eps=1e-05, elementwise_affine=

In [8]:
def evaluate(dataloader, model, loss_fn, val_bar):
    # Set the model to evaluation mode 
    model.eval()
    size = len(dataloader)
    num_batches = len(dataloader)
    loss, correct = 0, 0

    # We can save computation and memory by not calcualting the gradients
    with torch.no_grad():
        for X, Y in dataloader:
            pred = model(X)
            loss += loss_fn(pred, Y).item()
            correct += torch.sum(torch.argmax(pred, dim=1) == Y).item()
            val_bar.update()
    loss /= num_batches
    correct /= (size * batch_size)
    accuracy = 100 * correct
    return accuracy, loss

In [9]:
def train_one_epoch(dataloader, model, loss_fn, optimizer, progress_bar):
    # Set the model to training mode
    model.train()
    for batch, (X, Y) in enumerate(dataloader):
        pred = model(X)
        l = loss_fn(pred, Y)
        optimizer.zero_grad()
        l.backward()
        optimizer.step()
        progress_bar.update()


In [10]:
loss_fn = nn.CrossEntropyLoss()
optimizer = torch.optim.AdamW(model.parameters(), lr=0.001, weight_decay=0.01)

In [11]:
from tqdm import tqdm

In [12]:
epochs = 30
for j in range(epochs):
    with tqdm(total=len(train_dataloader), position=0, leave=True, desc=f"Train Epoch {j}") as train_bar:
        train_one_epoch(train_dataloader, model, loss_fn, optimizer, train_bar)

    # checking on the training loss and accuracy once per epoch

    with tqdm(total=len(train_dataloader), position=0, leave=True, desc=f"Validate (train) Epoch {j}") as train_eval:
        acc, loss = evaluate(train_dataloader, model, loss_fn, train_eval)

        print(f"Epoch {j}: training loss: {loss:.3f}, accuracy: {acc:.3f}")
    with tqdm(total=len(validation_dataloader), position=0, leave=True, desc=f"Validate Epoch {j}") as val_bar:
        acc_val, loss_val = evaluate(validation_dataloader, model, loss_fn, val_bar)
        print(f"Epoch {j}: validation loss: {loss_val:.3f}, accuracy: {acc_val:.3f}")

Train Epoch 0: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 313/313 [01:31<00:00,  3.41it/s]
Validate (train) Epoch 0: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 313/313 [00:34<00:00,  9.02it/s]


Epoch 0: training loss: 1.184, accuracy: 57.640


Validate Epoch 0: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 79/79 [00:08<00:00,  8.94it/s]


Epoch 0: validation loss: 1.198, accuracy: 56.764


Train Epoch 1: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 313/313 [01:43<00:00,  3.01it/s]
Validate (train) Epoch 1: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 313/313 [00:33<00:00,  9.41it/s]


Epoch 1: training loss: 0.781, accuracy: 72.292


Validate Epoch 1: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 79/79 [00:08<00:00,  9.16it/s]


Epoch 1: validation loss: 0.811, accuracy: 70.718


Train Epoch 2: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 313/313 [01:39<00:00,  3.13it/s]
Validate (train) Epoch 2: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 313/313 [00:32<00:00,  9.60it/s]


Epoch 2: training loss: 0.626, accuracy: 78.622


Validate Epoch 2: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 79/79 [00:08<00:00,  9.15it/s]


Epoch 2: validation loss: 0.678, accuracy: 75.732


Train Epoch 3: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 313/313 [01:38<00:00,  3.17it/s]
Validate (train) Epoch 3: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 313/313 [00:33<00:00,  9.31it/s]


Epoch 3: training loss: 0.482, accuracy: 83.299


Validate Epoch 3: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 79/79 [00:08<00:00,  9.34it/s]


Epoch 3: validation loss: 0.568, accuracy: 79.381


Train Epoch 4: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 313/313 [01:45<00:00,  2.96it/s]
Validate (train) Epoch 4: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 313/313 [00:34<00:00,  8.98it/s]


Epoch 4: training loss: 0.423, accuracy: 85.438


Validate Epoch 4: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 79/79 [00:08<00:00,  8.94it/s]


Epoch 4: validation loss: 0.527, accuracy: 80.657


Train Epoch 5: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 313/313 [01:46<00:00,  2.93it/s]
Validate (train) Epoch 5: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 313/313 [00:34<00:00,  8.98it/s]


Epoch 5: training loss: 0.406, accuracy: 85.705


Validate Epoch 5: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 79/79 [00:08<00:00,  8.91it/s]


Epoch 5: validation loss: 0.537, accuracy: 80.311


Train Epoch 6: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 313/313 [01:46<00:00,  2.93it/s]
Validate (train) Epoch 6: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 313/313 [00:34<00:00,  8.97it/s]


Epoch 6: training loss: 0.307, accuracy: 88.978


Validate Epoch 6: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 79/79 [00:08<00:00,  8.91it/s]


Epoch 6: validation loss: 0.473, accuracy: 82.714


Train Epoch 7: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 313/313 [01:46<00:00,  2.93it/s]
Validate (train) Epoch 7: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 313/313 [00:34<00:00,  8.98it/s]


Epoch 7: training loss: 0.271, accuracy: 90.830


Validate Epoch 7: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 79/79 [00:08<00:00,  8.91it/s]


Epoch 7: validation loss: 0.444, accuracy: 84.227


Train Epoch 8: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 313/313 [01:46<00:00,  2.93it/s]
Validate (train) Epoch 8: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 313/313 [00:34<00:00,  8.98it/s]


Epoch 8: training loss: 0.237, accuracy: 91.848


Validate Epoch 8: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 79/79 [00:08<00:00,  8.93it/s]


Epoch 8: validation loss: 0.448, accuracy: 84.306


Train Epoch 9: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 313/313 [01:46<00:00,  2.93it/s]
Validate (train) Epoch 9: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 313/313 [00:34<00:00,  8.98it/s]


Epoch 9: training loss: 0.213, accuracy: 92.485


Validate Epoch 9: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 79/79 [00:08<00:00,  8.91it/s]


Epoch 9: validation loss: 0.434, accuracy: 85.186


Train Epoch 10: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 313/313 [01:46<00:00,  2.93it/s]
Validate (train) Epoch 10: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 313/313 [00:34<00:00,  8.98it/s]


Epoch 10: training loss: 0.178, accuracy: 93.765


Validate Epoch 10: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 79/79 [00:08<00:00,  8.93it/s]


Epoch 10: validation loss: 0.434, accuracy: 84.958


Train Epoch 11: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 313/313 [01:46<00:00,  2.93it/s]
Validate (train) Epoch 11: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 313/313 [00:34<00:00,  8.98it/s]


Epoch 11: training loss: 0.189, accuracy: 93.296


Validate Epoch 11: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 79/79 [00:08<00:00,  8.93it/s]


Epoch 11: validation loss: 0.480, accuracy: 84.316


Train Epoch 12: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 313/313 [01:46<00:00,  2.93it/s]
Validate (train) Epoch 12: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 313/313 [00:34<00:00,  8.97it/s]


Epoch 12: training loss: 0.154, accuracy: 94.396


Validate Epoch 12: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 79/79 [00:08<00:00,  8.86it/s]


Epoch 12: validation loss: 0.438, accuracy: 85.176


Train Epoch 13: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 313/313 [01:46<00:00,  2.93it/s]
Validate (train) Epoch 13: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 313/313 [00:34<00:00,  8.97it/s]


Epoch 13: training loss: 0.135, accuracy: 95.133


Validate Epoch 13: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 79/79 [00:08<00:00,  8.93it/s]


Epoch 13: validation loss: 0.436, accuracy: 85.621


Train Epoch 14: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 313/313 [01:46<00:00,  2.93it/s]
Validate (train) Epoch 14: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 313/313 [00:34<00:00,  8.97it/s]


Epoch 14: training loss: 0.142, accuracy: 94.861


Validate Epoch 14: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 79/79 [00:08<00:00,  8.93it/s]


Epoch 14: validation loss: 0.472, accuracy: 84.780


Train Epoch 15: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 313/313 [01:46<00:00,  2.93it/s]
Validate (train) Epoch 15: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 313/313 [00:34<00:00,  8.99it/s]


Epoch 15: training loss: 0.117, accuracy: 95.824


Validate Epoch 15: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 79/79 [00:08<00:00,  8.92it/s]


Epoch 15: validation loss: 0.452, accuracy: 85.216


Train Epoch 16: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 313/313 [01:46<00:00,  2.93it/s]
Validate (train) Epoch 16: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 313/313 [00:34<00:00,  8.98it/s]


Epoch 16: training loss: 0.101, accuracy: 96.426


Validate Epoch 16: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 79/79 [00:08<00:00,  8.92it/s]


Epoch 16: validation loss: 0.450, accuracy: 86.135


Train Epoch 17: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 313/313 [01:46<00:00,  2.93it/s]
Validate (train) Epoch 17: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 313/313 [00:34<00:00,  8.97it/s]


Epoch 17: training loss: 0.130, accuracy: 95.342


Validate Epoch 17: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 79/79 [00:08<00:00,  8.93it/s]


Epoch 17: validation loss: 0.503, accuracy: 84.909


Train Epoch 18: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 313/313 [01:46<00:00,  2.93it/s]
Validate (train) Epoch 18: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 313/313 [00:34<00:00,  8.98it/s]


Epoch 18: training loss: 0.093, accuracy: 96.508


Validate Epoch 18: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 79/79 [00:08<00:00,  8.93it/s]


Epoch 18: validation loss: 0.463, accuracy: 85.957


Train Epoch 19: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 313/313 [01:46<00:00,  2.93it/s]
Validate (train) Epoch 19: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 313/313 [00:34<00:00,  8.98it/s]


Epoch 19: training loss: 0.132, accuracy: 95.275


Validate Epoch 19: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 79/79 [00:08<00:00,  8.93it/s]


Epoch 19: validation loss: 0.536, accuracy: 85.186


Train Epoch 20: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 313/313 [01:46<00:00,  2.93it/s]
Validate (train) Epoch 20: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 313/313 [00:34<00:00,  8.96it/s]


Epoch 20: training loss: 0.093, accuracy: 96.688


Validate Epoch 20: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 79/79 [00:08<00:00,  8.90it/s]


Epoch 20: validation loss: 0.468, accuracy: 86.175


Train Epoch 21: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 313/313 [01:46<00:00,  2.93it/s]
Validate (train) Epoch 21: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 313/313 [00:34<00:00,  8.96it/s]


Epoch 21: training loss: 0.089, accuracy: 96.843


Validate Epoch 21: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 79/79 [00:08<00:00,  8.82it/s]


Epoch 21: validation loss: 0.482, accuracy: 86.462


Train Epoch 22: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 313/313 [01:46<00:00,  2.93it/s]
Validate (train) Epoch 22: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 313/313 [00:34<00:00,  8.97it/s]


Epoch 22: training loss: 0.071, accuracy: 97.347


Validate Epoch 22: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 79/79 [00:08<00:00,  8.87it/s]


Epoch 22: validation loss: 0.465, accuracy: 86.669


Train Epoch 23: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 313/313 [01:46<00:00,  2.93it/s]
Validate (train) Epoch 23: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 313/313 [00:34<00:00,  8.97it/s]


Epoch 23: training loss: 0.087, accuracy: 96.835


Validate Epoch 23: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 79/79 [00:08<00:00,  8.87it/s]


Epoch 23: validation loss: 0.495, accuracy: 86.392


Train Epoch 24: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 313/313 [01:46<00:00,  2.93it/s]
Validate (train) Epoch 24: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 313/313 [00:34<00:00,  8.98it/s]


Epoch 24: training loss: 0.058, accuracy: 97.831


Validate Epoch 24: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 79/79 [00:08<00:00,  8.91it/s]


Epoch 24: validation loss: 0.463, accuracy: 86.877


Train Epoch 25: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 313/313 [01:46<00:00,  2.93it/s]
Validate (train) Epoch 25: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 313/313 [00:34<00:00,  8.98it/s]


Epoch 25: training loss: 0.065, accuracy: 97.554


Validate Epoch 25: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 79/79 [00:08<00:00,  8.93it/s]


Epoch 25: validation loss: 0.461, accuracy: 86.442


Train Epoch 26: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 313/313 [01:46<00:00,  2.93it/s]
Validate (train) Epoch 26: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 313/313 [00:34<00:00,  8.97it/s]


Epoch 26: training loss: 0.076, accuracy: 97.269


Validate Epoch 26: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 79/79 [00:08<00:00,  8.89it/s]


Epoch 26: validation loss: 0.514, accuracy: 86.036


Train Epoch 27: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 313/313 [01:46<00:00,  2.93it/s]
Validate (train) Epoch 27: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 313/313 [00:34<00:00,  8.97it/s]


Epoch 27: training loss: 0.070, accuracy: 97.489


Validate Epoch 27: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 79/79 [00:08<00:00,  8.92it/s]


Epoch 27: validation loss: 0.489, accuracy: 86.392


Train Epoch 28: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 313/313 [01:46<00:00,  2.93it/s]
Validate (train) Epoch 28: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 313/313 [00:35<00:00,  8.91it/s]


Epoch 28: training loss: 0.064, accuracy: 97.666


Validate Epoch 28: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 79/79 [00:08<00:00,  8.89it/s]


Epoch 28: validation loss: 0.481, accuracy: 86.175


Train Epoch 29: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 313/313 [01:46<00:00,  2.93it/s]
Validate (train) Epoch 29: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 313/313 [00:34<00:00,  8.96it/s]


Epoch 29: training loss: 0.053, accuracy: 98.033


Validate Epoch 29: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 79/79 [00:08<00:00,  8.88it/s]

Epoch 29: validation loss: 0.465, accuracy: 87.134





In [14]:
!nvidia-smi


Thu Feb 22 17:12:59 2024       
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 545.29.06              Driver Version: 545.29.06    CUDA Version: 12.3     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|   0  NVIDIA GeForce RTX 3050 ...    Off | 00000000:01:00.0 Off |                  N/A |
| N/A   84C    P0              27W /  45W |   3246MiB /  4096MiB |     52%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------+
                                                         

In [15]:
import IPython

app = IPython.Application.instance()
app.kernel.do_shutdown(True)


{'status': 'ok', 'restart': True}

For this homework I made one main modification which was to change my downsampling strategy to using 2D max pooling.  The downsampling block contains 2 convolution + Gelu layers which maintain the kernel size until the last pass which does the max pooling.  The orinal downsampler was a bit similar using only the convolution as the downsampler using a stride of 2.  I'm not sure what will be better but I figured I'd can give this a try since pooling was introduce in the lecture.  Additionally I set my Classifier with 64 intial filter 3 stages and 3 blocks per stage which Reduces the amount of downsampling but widens each layer compared to the original 4 stages with 2 blocks per stage.  

## Note

In a previous version of a notebook I trained a model with the same 64,3,3 settings with the original downsampler and after 30 epochs I got 96% training accuracy and 82% validation accuracy.  In this case I get 87% training accuracy so I do see an improvement.  