# Columnformer Testing playground on ImageNet-100

## 1 - Getting started

TBD  

## 2 - Cloning the code

Clone your fork of the code from the original repository at : https://github.com/clane9/columnformers  if on colab

In [1]:
# Clone your repository
#!git clone https://github.com/IhabBendidi/columnformers.git

Install all dependencies as needed

In [1]:
!cd .. && python -m pip install .
!cd .. && git checkout -b depth
!pip3 install datasets
!pip3 install torch-summary
!pip3 install timm

[0mLooking in indexes: https://pypi.org/simple, https://pypi.ngc.nvidia.com
Processing /import/pr_biofid/ihab/columnformers
  Installing build dependencies ... [?25ldone
[?25h  Getting requirements to build wheel ... [?25ldone
[?25h  Installing backend dependencies ... [?25ldone
[?25h  Preparing metadata (pyproject.toml) ... [?25ldone
[31mERROR: Ignored the following versions that require a different python version: 0.1.0 Requires-Python >=3.9; 0.1.1 Requires-Python >=3.9[0m[31m
[0m[31mERROR: Could not find a version that satisfies the requirement hf-argparser (from columnformers) (from versions: none)[0m[31m
[0m[31mERROR: No matching distribution found for hf-argparser[0m[31m
[0mfatal: Une branche nommée 'depth' existe déjà.
[0mLooking in indexes: https://pypi.org/simple, https://pypi.ngc.nvidia.com
[0mLooking in indexes: https://pypi.org/simple, https://pypi.ngc.nvidia.com
[0mLooking in indexes: https://pypi.org/simple, https://pypi.ngc.nvidia.com
[0m

In [2]:
!nvidia-smi

Tue Jan  2 15:35:28 2024       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 510.60.02    Driver Version: 510.60.02    CUDA Version: 11.6     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|   0  Tesla V100-PCIE...  Off  | 00000000:3B:00.0 Off |                    0 |
| N/A   26C    P0    26W / 250W |      4MiB / 32768MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
|   1  Tesla V100-PCIE...  Off  | 00000000:AF:00.0 Off |                    0 |
| N/A   67C    P0   228W / 250W |  10967MiB / 32768MiB |     91%      Default |
|       

Import packages

In [3]:
from torch.utils.data import DataLoader,Dataset
from datasets import load_dataset, load_from_disk
import torch.nn.functional as F
from torchvision import transforms
import torch
import torch.nn as nn
import torch.optim as optim
import os
import tqdm

Define gpus to use. For now only on one gpu

In [4]:
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

Importing the dataset from Hugging Face if not already available. If available, read from disk

In [5]:
if os.path.isdir("../../imagenet100.hf"):
    dataset = load_from_disk("../../imagenet100.hf")
else:
    dataset = load_dataset("clane9/imagenet-100")
    dataset.save_to_disk("../../imagenet100.hf")

#### Preparing datasets

In [6]:
from torch.utils.data import Subset
from sklearn.model_selection import StratifiedShuffleSplit
import numpy as np

Define the type of training you will have.

"full" : Using the full ImageNet-100 for training. Not recommended on Colab unless you have a paid account

"debug" : Using a small subset of ImageNet-100 containing 6k images in training, sampled in a balanced manner from the 100 classes, used for debugging and testing the architecture. (AKA Micro-ImageNet-100)

In [7]:
training_type = "full" # "debug" for a small 6k training subset of imagenet100, or "full" for the full imagenet100
batch_size = 512

Extracting Micro-ImageNet-100

In [8]:
import os
import numpy as np

# Function to load or extract labels
def load_or_extract_labels(dataset):
    labels = [dataset[i]['label'] for i in range(len(dataset))]
    return labels

In [9]:


# Define the custom dataset class
class CustomImageDataset(Dataset):
    def __init__(self, dataset, transform=None):
        self.dataset = dataset
        self.transform = transform

    def __len__(self):
        return len(self.dataset)

    def __getitem__(self, idx):
        item = self.dataset[idx]
        image = item['image']
        label = item['label']
        if self.transform:
            image = self.transform(image)
        return {'image': image, 'label': label}

# Updated transformations for the images
transform = transforms.Compose([
    transforms.Lambda(lambda img: img.convert('RGB') if img.mode != 'RGB' else img),  # Convert all images to RGB
    transforms.ColorJitter(0.4,0.4,0.2,0.1),
    transforms.RandomResizedCrop(size=(128, 128)),
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]),
])

test_transform = transforms.Compose([
    transforms.Lambda(lambda img: img.convert('RGB') if img.mode != 'RGB' else img),  # Convert all images to RGB
    transforms.Resize((128, 128)),
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]),
])


# Create instances of the custom dataset with transformations
train_dataset = CustomImageDataset(dataset['train'], transform=transform)
val_dataset = CustomImageDataset(dataset['validation'], transform=test_transform)

In [10]:
if training_type == "debug" :
    # Load or extract labels for training and test datasets
    train_labels = load_or_extract_labels(dataset['train'])
    test_labels = load_or_extract_labels(dataset['validation'])


In [11]:
if training_type == "debug" :
    # Stratified split
    sss_train = StratifiedShuffleSplit(n_splits=1, train_size=0.05, random_state=1)
    sss_test = StratifiedShuffleSplit(n_splits=1, test_size=0.10, random_state=0)
    
    train_indices, _ = next(sss_train.split(np.zeros(len(train_labels)), train_labels))
    _, test_indices = next(sss_test.split(np.zeros(len(test_labels)), test_labels))
    
    # Convert indices to Python integers
    train_indices = [int(i) for i in train_indices]
    test_indices = [int(i) for i in test_indices]
    
    # Create subset datasets
    train_subset = Subset(train_dataset, train_indices)
    test_subset = Subset(val_dataset, test_indices)  # Use val_dataset for test subset
    
    # Create data loaders for subsets
    train_subset_dataloader = DataLoader(train_subset, batch_size=batch_size, shuffle=True,num_workers=4)
    test_subset_dataloader = DataLoader(test_subset, batch_size=batch_size, shuffle=False,num_workers=4)

In [12]:
if training_type == "debug" :
    # Assuming train_subset and test_subset are your final subset datasets
    
    train_subset_size = len(train_subset)
    test_subset_size = len(test_subset)
    
    print(f"Size of Training Subset: {train_subset_size}")
    print(f"Size of Testing Subset: {test_subset_size}")


In [13]:
if training_type == "debug" :
    train_dataloader = train_subset_dataloader
    val_dataloader = test_subset_dataloader
elif training_type == "full" :
    # Create data loaders
    train_dataloader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True,num_workers=4)
    val_dataloader = DataLoader(val_dataset, batch_size=batch_size,num_workers=4)

## Training the model

Importing the model architecture

In [14]:
import sys
import os

# Assuming your notebook is in the 'notebooks' directory
# and you want to import modules from the 'column' directory

# Get the current working directory
notebook_dir = os.getcwd()

# Get the parent directory (columnformers)
parent_dir = os.path.dirname(notebook_dir)

# Add the parent directory to sys.path
if parent_dir not in sys.path:
    sys.path.append(parent_dir)

In [15]:
from columnformers.models.model_v1 import Columnformer, columnformer_v1_patch16_128
from columnformers.models import create_model
from columnformers.models.classification import ImageClassification

In [16]:
torch.cuda.empty_cache()

Initializing the model

In [17]:
columnformer = create_model("columnformer_v1_patch16_128")
model = ImageClassification(
        encoder=columnformer,
        img_size=128,
        patch_size=16,
        output_len=256,
        num_classes=100,
        global_pool="avg",
    ).to(device)

In [18]:
optimizer = optim.Adam(model.parameters(), lr=0.0001)

In [19]:
#scheduler = optim.lr_scheduler.ExponentialLR(optimizer, gamma = 0.99)

In [20]:
from torchsummary import summary
summary(model)

Layer (type:depth-idx)                   Param #
├─Rearrange: 1-1                         --
├─Linear: 1-2                            295,296
├─ZeroPad2d: 1-3                         --
├─Columnformer: 1-4                      --
|    └─Sheet: 2-1                        --
|    |    └─ColumnNorm: 3-1              356,352
|    |    └─ColumnAttention: 3-2         23,051,520
|    |    └─ColumnNorm: 3-3              356,352
|    |    └─ColumnMlp: 3-4               22,836,224
├─GlobalAveragePool: 1-5                 --
├─LayerNorm: 1-6                         768
├─Dropout: 1-7                           --
├─Linear: 1-8                            38,500
Total params: 46,935,012
Trainable params: 46,935,012
Non-trainable params: 0


Layer (type:depth-idx)                   Param #
├─Rearrange: 1-1                         --
├─Linear: 1-2                            295,296
├─ZeroPad2d: 1-3                         --
├─Columnformer: 1-4                      --
|    └─Sheet: 2-1                        --
|    |    └─ColumnNorm: 3-1              356,352
|    |    └─ColumnAttention: 3-2         23,051,520
|    |    └─ColumnNorm: 3-3              356,352
|    |    └─ColumnMlp: 3-4               22,836,224
├─GlobalAveragePool: 1-5                 --
├─LayerNorm: 1-6                         768
├─Dropout: 1-7                           --
├─Linear: 1-8                            38,500
Total params: 46,935,012
Trainable params: 46,935,012
Non-trainable params: 0

Training the model for 100 epochs

In [21]:
for epoch in range(100):  # 100 epochs
    model.train()  # Set the model to training mode
    total_loss = 0
    correct = 0
    total = 0
    for batch in tqdm.tqdm(train_dataloader):
        optimizer.zero_grad()  # Zero the gradients

        # Move each tensor in the batch to the GPU
        images = batch["image"].to(device)
        labels = batch["label"].to(device)

        # Forward pass: Compute loss and state by passing the processed batch through the model
        loss, state = model({"image": images, "label": labels})

        outputs = state["output"]
        # Calculate training accuracy
        _, predicted = torch.max(outputs.data, 1)
        total += labels.size(0)
        correct += (predicted == labels).sum().item()

        # Backward pass: Compute gradient of the loss with respect to model parameters
        loss.backward()

        # Perform a single optimization step (parameter update)
        optimizer.step()
        total_loss += loss.item()

        # Optional: Print loss, you might want to accumulate and print every few iterations
    #scheduler.step()
    train_accuracy = 100 * correct / total
    avg_loss = total_loss / len(train_dataloader)
    print(f"Epoch {epoch}, Training Loss: {avg_loss}, Training Accuracy: {train_accuracy}%")


    # Validation phase
    model.eval()  # Set the model to evaluation mode
    val_loss = 0
    correct = 0
    total = 0

    with torch.no_grad():
        for batch in val_dataloader:
            images = batch["image"].to(device)
            labels = batch["label"].to(device)

            loss, state = model({"image": images, "label": labels})
            val_loss += loss.item()
            outputs = state["output"]

            # Calculate validation accuracy
            _, predicted = torch.max(outputs.data, 1)
            total += labels.size(0)
            correct += (predicted == labels).sum().item()

    val_accuracy = 100 * correct / total
    avg_val_loss = val_loss / len(val_dataloader)
    print(f"Validation Epoch {epoch}, Validation Loss: {avg_val_loss}, Validation Accuracy: {val_accuracy}%")

100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [11:56<00:00,  3.05s/it]


Epoch 0, Training Loss: 4.695886281196107, Training Accuracy: 4.316474961950148%
Validation Epoch 0, Validation Loss: 4.692143440246582, Validation Accuracy: 5.44%


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [11:54<00:00,  3.04s/it]


Epoch 1, Training Loss: 4.460794885107812, Training Accuracy: 5.618902667232216%
Validation Epoch 1, Validation Loss: 4.611500263214111, Validation Accuracy: 7.22%


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [11:48<00:00,  3.01s/it]


Epoch 2, Training Loss: 4.379920502926441, Training Accuracy: 6.802398596106024%
Validation Epoch 2, Validation Loss: 4.555318880081177, Validation Accuracy: 8.0%


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [11:58<00:00,  3.06s/it]


Epoch 3, Training Loss: 4.3053045800391665, Training Accuracy: 7.970924091585784%
Validation Epoch 3, Validation Loss: 4.472852182388306, Validation Accuracy: 9.62%


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [11:57<00:00,  3.05s/it]


Epoch 4, Training Loss: 4.247935307279546, Training Accuracy: 8.635444996132637%
Validation Epoch 4, Validation Loss: 4.461913681030273, Validation Accuracy: 9.66%


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [11:59<00:00,  3.06s/it]


Epoch 5, Training Loss: 4.1989001497309255, Training Accuracy: 9.518700566381396%
Validation Epoch 5, Validation Loss: 4.414018869400024, Validation Accuracy: 11.0%


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [11:52<00:00,  3.03s/it]


Epoch 6, Training Loss: 4.15799113131584, Training Accuracy: 10.206508811763435%
Validation Epoch 6, Validation Loss: 4.390468955039978, Validation Accuracy: 11.3%


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [11:41<00:00,  2.98s/it]


Epoch 7, Training Loss: 4.1156440714572335, Training Accuracy: 10.922594542445337%
Validation Epoch 7, Validation Loss: 4.351707172393799, Validation Accuracy: 12.52%


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [11:53<00:00,  3.03s/it]


Epoch 8, Training Loss: 4.068344738128338, Training Accuracy: 11.678601428844699%
Validation Epoch 8, Validation Loss: 4.309966564178467, Validation Accuracy: 11.62%


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [11:48<00:00,  3.01s/it]


Epoch 9, Training Loss: 4.0254559212542596, Training Accuracy: 12.261616640468409%
Validation Epoch 9, Validation Loss: 4.274158382415772, Validation Accuracy: 13.58%


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [11:41<00:00,  2.98s/it]


Epoch 10, Training Loss: 3.988641938757389, Training Accuracy: 12.922810782038807%
Validation Epoch 10, Validation Loss: 4.2444291591644285, Validation Accuracy: 13.74%


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [11:44<00:00,  3.00s/it]


Epoch 11, Training Loss: 3.9531846259502657, Training Accuracy: 13.536598551194723%
Validation Epoch 11, Validation Loss: 4.206575179100037, Validation Accuracy: 14.54%


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [11:49<00:00,  3.02s/it]


Epoch 13, Training Loss: 3.869630103415631, Training Accuracy: 14.76001563578599%
Validation Epoch 13, Validation Loss: 4.149501633644104, Validation Accuracy: 15.54%


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [11:44<00:00,  3.00s/it]


Epoch 14, Training Loss: 3.8345840677301934, Training Accuracy: 15.577567637249764%
Validation Epoch 14, Validation Loss: 4.092962098121643, Validation Accuracy: 16.04%


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [11:43<00:00,  2.99s/it]


Epoch 15, Training Loss: 3.7976545557062678, Training Accuracy: 16.114008167203107%
Validation Epoch 15, Validation Loss: 4.098816323280334, Validation Accuracy: 16.66%


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [11:59<00:00,  3.06s/it]


Epoch 16, Training Loss: 3.766036970057386, Training Accuracy: 16.718647338173774%
Validation Epoch 16, Validation Loss: 4.082850074768066, Validation Accuracy: 16.4%


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [11:49<00:00,  3.02s/it]


Epoch 17, Training Loss: 3.733436960869647, Training Accuracy: 17.23180052729193%
Validation Epoch 17, Validation Loss: 4.041007065773011, Validation Accuracy: 17.06%


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [11:52<00:00,  3.03s/it]


Epoch 18, Training Loss: 3.708372716700777, Training Accuracy: 17.715012849621996%
Validation Epoch 18, Validation Loss: 4.065835952758789, Validation Accuracy: 18.14%


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [11:47<00:00,  3.01s/it]


Epoch 19, Training Loss: 3.686119585848869, Training Accuracy: 18.012758136014703%
Validation Epoch 19, Validation Loss: 4.02722589969635, Validation Accuracy: 18.08%


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [11:55<00:00,  3.04s/it]


Epoch 20, Training Loss: 3.6556240812261054, Training Accuracy: 18.622387451450052%
Validation Epoch 20, Validation Loss: 3.9923468828201294, Validation Accuracy: 18.8%


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [11:53<00:00,  3.04s/it]


Epoch 21, Training Loss: 3.6384378676718856, Training Accuracy: 19.013282101183496%
Validation Epoch 21, Validation Loss: 3.9516965627670286, Validation Accuracy: 19.18%


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [11:53<00:00,  3.04s/it]


Epoch 22, Training Loss: 3.6107748285252996, Training Accuracy: 19.375899265617072%
Validation Epoch 22, Validation Loss: 3.9844243049621584, Validation Accuracy: 19.84%


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [11:56<00:00,  3.05s/it]


Epoch 23, Training Loss: 3.59262443704808, Training Accuracy: 19.83000241190316%
Validation Epoch 23, Validation Loss: 3.9639835596084594, Validation Accuracy: 19.62%


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [11:54<00:00,  3.04s/it]


Epoch 24, Training Loss: 3.568501130570757, Training Accuracy: 20.116935718622386%
Validation Epoch 24, Validation Loss: 3.9412736654281617, Validation Accuracy: 19.88%


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [11:53<00:00,  3.04s/it]


Epoch 25, Training Loss: 3.548887528764441, Training Accuracy: 20.452938779244327%
Validation Epoch 25, Validation Loss: 3.9224225282669067, Validation Accuracy: 20.6%


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [11:53<00:00,  3.04s/it]


Epoch 26, Training Loss: 3.5333589675578665, Training Accuracy: 20.867120769812953%
Validation Epoch 26, Validation Loss: 3.9141140937805177, Validation Accuracy: 20.84%


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [12:01<00:00,  3.07s/it]


Epoch 27, Training Loss: 3.5182534907726533, Training Accuracy: 21.120786446767635%
Validation Epoch 27, Validation Loss: 3.927727293968201, Validation Accuracy: 20.76%


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [11:54<00:00,  3.04s/it]


Epoch 28, Training Loss: 3.493756180621208, Training Accuracy: 21.522493076174555%
Validation Epoch 28, Validation Loss: 3.884982872009277, Validation Accuracy: 21.04%


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [11:51<00:00,  3.03s/it]


Epoch 29, Training Loss: 3.4850464191842585, Training Accuracy: 21.912556035163885%
Validation Epoch 29, Validation Loss: 3.932182478904724, Validation Accuracy: 21.16%


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [11:46<00:00,  3.01s/it]


Epoch 30, Training Loss: 3.4658733824466137, Training Accuracy: 21.96079409832248%
Validation Epoch 30, Validation Loss: 3.854576516151428, Validation Accuracy: 22.32%


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [11:49<00:00,  3.02s/it]


Epoch 31, Training Loss: 3.443453618313404, Training Accuracy: 22.676879829004385%
Validation Epoch 31, Validation Loss: 3.879201650619507, Validation Accuracy: 22.1%


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [11:43<00:00,  2.99s/it]


Epoch 32, Training Loss: 3.4297161173313224, Training Accuracy: 22.679374901236724%
Validation Epoch 32, Validation Loss: 3.851374959945679, Validation Accuracy: 22.38%


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [11:45<00:00,  3.00s/it]


Epoch 33, Training Loss: 3.41721456507419, Training Accuracy: 22.980446950605888%
Validation Epoch 33, Validation Loss: 3.8773978471755983, Validation Accuracy: 22.76%


  9%|█████████████████▏                                                                                                                                                                                        | 20/235 [00:59<10:27,  2.92s/it]IOPub message rate exceeded.
The Jupyter server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--ServerApp.iopub_msg_rate_limit`.

Current values:
ServerApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
ServerApp.rate_limit_window=3.0 (secs)

100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [11:43<00:00,  2.99s/it]


Epoch 42, Training Loss: 3.307596219854152, Training Accuracy: 25.13785274083685%
Validation Epoch 42, Validation Loss: 3.8358706712722777, Validation Accuracy: 23.6%


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [11:52<00:00,  3.03s/it]


Epoch 43, Training Loss: 3.298079735167483, Training Accuracy: 25.323319776774206%
Validation Epoch 43, Validation Loss: 3.8223422288894655, Validation Accuracy: 23.92%


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [11:48<00:00,  3.01s/it]


Epoch 44, Training Loss: 3.287753336480323, Training Accuracy: 25.447241697647147%
Validation Epoch 44, Validation Loss: 3.8327082872390745, Validation Accuracy: 24.42%


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [11:38<00:00,  2.97s/it]


Epoch 45, Training Loss: 3.2746765948356464, Training Accuracy: 25.661817909628482%
Validation Epoch 45, Validation Loss: 3.8294953107833862, Validation Accuracy: 24.54%


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [11:47<00:00,  3.01s/it]


Epoch 46, Training Loss: 3.2628883828508095, Training Accuracy: 25.788234902733766%
Validation Epoch 46, Validation Loss: 3.8226287364959717, Validation Accuracy: 24.54%


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [11:48<00:00,  3.01s/it]


Epoch 47, Training Loss: 3.251900705378106, Training Accuracy: 26.191604913628915%
Validation Epoch 47, Validation Loss: 3.858278918266296, Validation Accuracy: 24.86%


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [11:45<00:00,  3.00s/it]


Epoch 48, Training Loss: 3.2438467877976436, Training Accuracy: 26.18994153214069%
Validation Epoch 48, Validation Loss: 3.7986743450164795, Validation Accuracy: 24.96%


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [11:49<00:00,  3.02s/it]


Epoch 49, Training Loss: 3.23944407016673, Training Accuracy: 26.397864218169115%
Validation Epoch 49, Validation Loss: 3.829715299606323, Validation Accuracy: 25.22%


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [11:44<00:00,  3.00s/it]


Epoch 50, Training Loss: 3.2265286019507875, Training Accuracy: 26.615767193126906%
Validation Epoch 50, Validation Loss: 3.8204951763153074, Validation Accuracy: 25.82%


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [11:46<00:00,  3.01s/it]


Epoch 51, Training Loss: 3.2153112837608826, Training Accuracy: 26.86527441636102%
Validation Epoch 51, Validation Loss: 3.77184944152832, Validation Accuracy: 25.22%


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [11:48<00:00,  3.02s/it]


Epoch 52, Training Loss: 3.2042637459775234, Training Accuracy: 26.90769064431082%
Validation Epoch 52, Validation Loss: 3.833961915969849, Validation Accuracy: 25.38%


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [11:44<00:00,  3.00s/it]


Epoch 53, Training Loss: 3.194171720869998, Training Accuracy: 27.352645192411654%
Validation Epoch 53, Validation Loss: 3.790812134742737, Validation Accuracy: 26.08%


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [11:57<00:00,  3.05s/it]


Epoch 54, Training Loss: 3.1900801049902086, Training Accuracy: 27.24452539567687%
Validation Epoch 54, Validation Loss: 3.7755215406417846, Validation Accuracy: 25.5%


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [11:43<00:00,  2.99s/it]


Epoch 55, Training Loss: 3.177359394316978, Training Accuracy: 27.53312208388433%
Validation Epoch 55, Validation Loss: 3.7780579805374144, Validation Accuracy: 25.52%


 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                               | 161/235 [08:07<03:35,  2.91s/it]IOPub message rate exceeded.
The Jupyter server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--ServerApp.iopub_msg_rate_limit`.

Current values:
ServerApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
ServerApp.rate_limit_window=3.0 (secs)

100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [11:48<00:00,  3.01s/it]


Epoch 97, Training Loss: 2.9027496175563083, Training Accuracy: 32.995666891223166%
Validation Epoch 97, Validation Loss: 3.735791039466858, Validation Accuracy: 30.16%


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [11:49<00:00,  3.02s/it]


Epoch 98, Training Loss: 2.8992265275184144, Training Accuracy: 32.91582457978825%
Validation Epoch 98, Validation Loss: 3.7464061975479126, Validation Accuracy: 30.06%


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [11:45<00:00,  3.00s/it]


Epoch 99, Training Loss: 2.8891082601344333, Training Accuracy: 33.127905719537246%
Validation Epoch 99, Validation Loss: 3.7591807365417482, Validation Accuracy: 30.0%
