# Columnformer Testing playground on ImageNet-100

## 1 - Getting started

TBD  

## 2 - Cloning the code

Clone your fork of the code from the original repository at : https://github.com/clane9/columnformers  if on colab

In [1]:
# Clone your repository
#!git clone https://github.com/IhabBendidi/columnformers.git

Install all dependencies as needed

In [2]:
!cd .. && python -m pip install .
!cd .. && git checkout -b imagenet_benchmarking
!pip3 install datasets
!pip3 install torch-summary
!pip3 install timm

Looking in indexes: https://pypi.org/simple, https://pypi.ngc.nvidia.com
Processing /import/pr_biofid/ihab/columnformers
  Installing build dependencies ... [?25ldone
[?25h  Getting requirements to build wheel ... [?25ldone
[?25h  Installing backend dependencies ... [?25ldone
[?25h  Preparing metadata (pyproject.toml) ... [?25ldone
[?25hCollecting datasets (from columnformers==0.1.dev27+gf0425ff.d20231230)
  Downloading datasets-2.16.0-py3-none-any.whl.metadata (20 kB)
Collecting einops (from columnformers==0.1.dev27+gf0425ff.d20231230)
  Downloading einops-0.7.0-py3-none-any.whl.metadata (13 kB)
Collecting fvcore (from columnformers==0.1.dev27+gf0425ff.d20231230)
  Downloading fvcore-0.1.5.post20221221.tar.gz (50 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m50.2/50.2 kB[0m [31m19.7 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25ldone
[?25hCollecting hf-argparser (from columnformers==0.1.dev27+gf0425ff.d20231230)
  Downloa

In [3]:
!nvidia-smi

Sat Dec 30 17:30:55 2023       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 510.60.02    Driver Version: 510.60.02    CUDA Version: 11.6     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|   0  Tesla V100-PCIE...  Off  | 00000000:3B:00.0 Off |                    0 |
| N/A   25C    P0    25W / 250W |      0MiB / 32768MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
|   1  Tesla V100-PCIE...  Off  | 00000000:AF:00.0 Off |                    0 |
| N/A   68C    P0   235W / 250W |  10967MiB / 32768MiB |    100%      Default |
|       

Import packages

In [4]:
from torch.utils.data import DataLoader,Dataset
from datasets import load_dataset, load_from_disk
import torch.nn.functional as F
from torchvision import transforms
import torch
import torch.nn as nn
import torch.optim as optim
import os
import tqdm

  from .autonotebook import tqdm as notebook_tqdm


Define gpus to use. For now only on one gpu

In [5]:
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

Importing the dataset from Hugging Face if not already available. If available, read from disk

In [6]:
if os.path.isdir("../../imagenet100.hf"):
    dataset = load_from_disk("../../imagenet100.hf")
else:
    dataset = load_dataset("clane9/imagenet-100")
    dataset.save_to_disk("../../imagenet100.hf")

#### Preparing datasets

In [7]:
from torch.utils.data import Subset
from sklearn.model_selection import StratifiedShuffleSplit
import numpy as np

Define the type of training you will have.

"full" : Using the full ImageNet-100 for training. Not recommended on Colab unless you have a paid account

"debug" : Using a small subset of ImageNet-100 containing 6k images in training, sampled in a balanced manner from the 100 classes, used for debugging and testing the architecture. (AKA Micro-ImageNet-100)

In [8]:
training_type = "full" # "debug" for a small 6k training subset of imagenet100, or "full" for the full imagenet100
batch_size = 512

Extracting Micro-ImageNet-100

In [9]:
import os
import numpy as np

# Function to load or extract labels
def load_or_extract_labels(dataset):
    labels = [dataset[i]['label'] for i in range(len(dataset))]
    return labels

In [10]:


# Define the custom dataset class
class CustomImageDataset(Dataset):
    def __init__(self, dataset, transform=None):
        self.dataset = dataset
        self.transform = transform

    def __len__(self):
        return len(self.dataset)

    def __getitem__(self, idx):
        item = self.dataset[idx]
        image = item['image']
        label = item['label']
        if self.transform:
            image = self.transform(image)
        return {'image': image, 'label': label}

# Updated transformations for the images
transform = transforms.Compose([
    transforms.Lambda(lambda img: img.convert('RGB') if img.mode != 'RGB' else img),  # Convert all images to RGB
    transforms.ColorJitter(0.4,0.4,0.2,0.1),
    transforms.RandomResizedCrop(size=(128, 128)),
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]),
])

test_transform = transforms.Compose([
    transforms.Lambda(lambda img: img.convert('RGB') if img.mode != 'RGB' else img),  # Convert all images to RGB
    transforms.Resize((128, 128)),
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]),
])


# Create instances of the custom dataset with transformations
train_dataset = CustomImageDataset(dataset['train'], transform=transform)
val_dataset = CustomImageDataset(dataset['validation'], transform=test_transform)

In [11]:
if training_type == "debug" :
    # Load or extract labels for training and test datasets
    train_labels = load_or_extract_labels(dataset['train'])
    test_labels = load_or_extract_labels(dataset['validation'])


In [12]:
if training_type == "debug" :
    # Stratified split
    sss_train = StratifiedShuffleSplit(n_splits=1, train_size=0.05, random_state=1)
    sss_test = StratifiedShuffleSplit(n_splits=1, test_size=0.10, random_state=0)
    
    train_indices, _ = next(sss_train.split(np.zeros(len(train_labels)), train_labels))
    _, test_indices = next(sss_test.split(np.zeros(len(test_labels)), test_labels))
    
    # Convert indices to Python integers
    train_indices = [int(i) for i in train_indices]
    test_indices = [int(i) for i in test_indices]
    
    # Create subset datasets
    train_subset = Subset(train_dataset, train_indices)
    test_subset = Subset(val_dataset, test_indices)  # Use val_dataset for test subset
    
    # Create data loaders for subsets
    train_subset_dataloader = DataLoader(train_subset, batch_size=batch_size, shuffle=True)
    test_subset_dataloader = DataLoader(test_subset, batch_size=batch_size, shuffle=False)

In [13]:
if training_type == "debug" :
    # Assuming train_subset and test_subset are your final subset datasets
    
    train_subset_size = len(train_subset)
    test_subset_size = len(test_subset)
    
    print(f"Size of Training Subset: {train_subset_size}")
    print(f"Size of Testing Subset: {test_subset_size}")


In [14]:
if training_type == "debug" :
    train_dataloader = train_subset_dataloader
    val_dataloader = test_subset_dataloader
elif training_type == "full" :
    # Create data loaders
    train_dataloader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)
    val_dataloader = DataLoader(val_dataset, batch_size=batch_size)

## Training the model

Importing the model architecture

In [15]:
import sys
import os

# Assuming your notebook is in the 'notebooks' directory
# and you want to import modules from the 'column' directory

# Get the current working directory
notebook_dir = os.getcwd()

# Get the parent directory (columnformers)
parent_dir = os.path.dirname(notebook_dir)

# Add the parent directory to sys.path
if parent_dir not in sys.path:
    sys.path.append(parent_dir)

In [16]:
from columnformers.models.model_v1 import Columnformer, columnformer_v1_patch16_128
from columnformers.models import create_model
from columnformers.models.classification import ImageClassification

In [17]:
torch.cuda.empty_cache()

Initializing the model

In [18]:
columnformer = create_model("columnformer_v1_patch16_128")
model = ImageClassification(
        encoder=columnformer,
        img_size=128,
        patch_size=16,
        output_len=256,
        num_classes=100,
        global_pool="avg",
    ).to(device)

In [19]:
optimizer = optim.Adam(model.parameters(), lr=0.0001)

In [20]:
#scheduler = optim.lr_scheduler.ExponentialLR(optimizer, gamma = 0.99)

In [21]:
from torchsummary import summary
summary(model)

Layer (type:depth-idx)                   Param #
├─Rearrange: 1-1                         --
├─Linear: 1-2                            295,296
├─ZeroPad2d: 1-3                         --
├─Columnformer: 1-4                      --
|    └─Sheet: 2-1                        --
|    |    └─ColumnNorm: 3-1              356,352
|    |    └─ColumnAttention: 3-2         23,051,520
|    |    └─ColumnNorm: 3-3              356,352
|    |    └─ColumnMlp: 3-4               22,836,224
├─GlobalAveragePool: 1-5                 --
├─LayerNorm: 1-6                         768
├─Dropout: 1-7                           --
├─Linear: 1-8                            38,500
Total params: 46,935,012
Trainable params: 46,935,012
Non-trainable params: 0


Layer (type:depth-idx)                   Param #
├─Rearrange: 1-1                         --
├─Linear: 1-2                            295,296
├─ZeroPad2d: 1-3                         --
├─Columnformer: 1-4                      --
|    └─Sheet: 2-1                        --
|    |    └─ColumnNorm: 3-1              356,352
|    |    └─ColumnAttention: 3-2         23,051,520
|    |    └─ColumnNorm: 3-3              356,352
|    |    └─ColumnMlp: 3-4               22,836,224
├─GlobalAveragePool: 1-5                 --
├─LayerNorm: 1-6                         768
├─Dropout: 1-7                           --
├─Linear: 1-8                            38,500
Total params: 46,935,012
Trainable params: 46,935,012
Non-trainable params: 0

Training the model for 100 epochs

In [22]:
for epoch in range(300):  # 100 epochs
    model.train()  # Set the model to training mode
    total_loss = 0
    correct = 0
    total = 0
    for batch in tqdm.tqdm(train_dataloader):
        optimizer.zero_grad()  # Zero the gradients

        # Move each tensor in the batch to the GPU
        images = batch["image"].to(device)
        labels = batch["label"].to(device)

        # Forward pass: Compute loss and state by passing the processed batch through the model
        loss, state = model({"image": images, "label": labels})

        outputs = state["output"]
        # Calculate training accuracy
        _, predicted = torch.max(outputs.data, 1)
        total += labels.size(0)
        correct += (predicted == labels).sum().item()

        # Backward pass: Compute gradient of the loss with respect to model parameters
        loss.backward()

        # Perform a single optimization step (parameter update)
        optimizer.step()
        total_loss += loss.item()

        # Optional: Print loss, you might want to accumulate and print every few iterations
    #scheduler.step()
    train_accuracy = 100 * correct / total
    avg_loss = total_loss / len(train_dataloader)
    print(f"Epoch {epoch}, Training Loss: {avg_loss}, Training Accuracy: {train_accuracy}%")


    # Validation phase
    model.eval()  # Set the model to evaluation mode
    val_loss = 0
    correct = 0
    total = 0

    with torch.no_grad():
        for batch in val_dataloader:
            images = batch["image"].to(device)
            labels = batch["label"].to(device)

            loss, state = model({"image": images, "label": labels})
            val_loss += loss.item()
            outputs = state["output"]

            # Calculate validation accuracy
            _, predicted = torch.max(outputs.data, 1)
            total += labels.size(0)
            correct += (predicted == labels).sum().item()

    val_accuracy = 100 * correct / total
    avg_val_loss = val_loss / len(val_dataloader)
    print(f"Validation Epoch {epoch}, Validation Loss: {avg_val_loss}, Validation Accuracy: {val_accuracy}%")

100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [13:42<00:00,  3.50s/it]


Epoch 0, Training Loss: 4.619133287795046, Training Accuracy: 4.2540981561416205%
Validation Epoch 0, Validation Loss: 4.596132469177246, Validation Accuracy: 5.3%


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [13:43<00:00,  3.50s/it]


Epoch 1, Training Loss: 4.376102729553872, Training Accuracy: 5.507456107520979%
Validation Epoch 1, Validation Loss: 4.527549982070923, Validation Accuracy: 7.04%


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [13:35<00:00,  3.47s/it]


Epoch 2, Training Loss: 4.3000832151859365, Training Accuracy: 6.636892138027396%
Validation Epoch 2, Validation Loss: 4.462942266464234, Validation Accuracy: 8.04%


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [13:42<00:00,  3.50s/it]


Epoch 3, Training Loss: 4.2619331319281395, Training Accuracy: 7.211590442209968%
Validation Epoch 3, Validation Loss: 4.445978689193725, Validation Accuracy: 8.88%


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [13:41<00:00,  3.50s/it]


Epoch 4, Training Loss: 4.22979510287021, Training Accuracy: 7.636584412452073%
Validation Epoch 4, Validation Loss: 4.442480278015137, Validation Accuracy: 7.96%


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [13:45<00:00,  3.51s/it]


Epoch 5, Training Loss: 4.218734438875888, Training Accuracy: 7.856982459642206%
Validation Epoch 5, Validation Loss: 4.446598839759827, Validation Accuracy: 8.3%


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [13:41<00:00,  3.50s/it]


Epoch 6, Training Loss: 4.2097781526281475, Training Accuracy: 7.914369120986053%
Validation Epoch 6, Validation Loss: 4.455448746681213, Validation Accuracy: 8.96%


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [13:41<00:00,  3.50s/it]


Epoch 7, Training Loss: 4.1905528799016425, Training Accuracy: 8.27948135765197%
Validation Epoch 7, Validation Loss: 4.435946726799012, Validation Accuracy: 9.52%


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [13:32<00:00,  3.46s/it]


Epoch 8, Training Loss: 4.199470175073502, Training Accuracy: 8.274491213187288%
Validation Epoch 8, Validation Loss: 4.490350556373596, Validation Accuracy: 8.84%


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [13:38<00:00,  3.48s/it]


Epoch 9, Training Loss: 4.203722509424737, Training Accuracy: 8.148074220082005%
Validation Epoch 9, Validation Loss: 4.4776757717132565, Validation Accuracy: 9.42%


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [13:33<00:00,  3.46s/it]


Epoch 10, Training Loss: 4.200164267357359, Training Accuracy: 8.355165215366318%
Validation Epoch 10, Validation Loss: 4.473282313346862, Validation Accuracy: 9.2%


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [13:40<00:00,  3.49s/it]


Epoch 11, Training Loss: 4.177886031536346, Training Accuracy: 8.567246355115314%
Validation Epoch 11, Validation Loss: 4.460333847999573, Validation Accuracy: 9.68%


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [13:33<00:00,  3.46s/it]


Epoch 12, Training Loss: 4.158960456036507, Training Accuracy: 8.820912032069995%
Validation Epoch 12, Validation Loss: 4.45323429107666, Validation Accuracy: 10.28%


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [13:36<00:00,  3.48s/it]


Epoch 13, Training Loss: 4.13992675416013, Training Accuracy: 9.034656553307219%
Validation Epoch 13, Validation Loss: 4.458095097541809, Validation Accuracy: 10.46%


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [13:32<00:00,  3.46s/it]


Epoch 14, Training Loss: 4.127386137779723, Training Accuracy: 9.405590625181933%
Validation Epoch 14, Validation Loss: 4.431161618232727, Validation Accuracy: 10.36%


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [13:31<00:00,  3.45s/it]


Epoch 15, Training Loss: 4.120145068270094, Training Accuracy: 9.496244916290326%
Validation Epoch 15, Validation Loss: 4.425616431236267, Validation Accuracy: 10.78%


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [13:36<00:00,  3.47s/it]


Epoch 16, Training Loss: 4.115759622289779, Training Accuracy: 9.581909062934038%
Validation Epoch 16, Validation Loss: 4.407860589027405, Validation Accuracy: 10.46%


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [13:40<00:00,  3.49s/it]


Epoch 17, Training Loss: 4.10147987933869, Training Accuracy: 9.817277543518218%
Validation Epoch 17, Validation Loss: 4.4157867431640625, Validation Accuracy: 10.56%


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [13:44<00:00,  3.51s/it]


Epoch 18, Training Loss: 4.097628865343459, Training Accuracy: 9.870505751141495%
Validation Epoch 18, Validation Loss: 4.402360796928406, Validation Accuracy: 10.38%


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [13:36<00:00,  3.47s/it]


Epoch 19, Training Loss: 4.101190242361515, Training Accuracy: 9.749910593245009%
Validation Epoch 19, Validation Loss: 4.458198022842407, Validation Accuracy: 10.48%


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [13:39<00:00,  3.49s/it]


Epoch 20, Training Loss: 4.11366137037886, Training Accuracy: 9.628483744604406%
Validation Epoch 20, Validation Loss: 4.447666049003601, Validation Accuracy: 10.64%


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [13:42<00:00,  3.50s/it]


Epoch 21, Training Loss: 4.104220498876368, Training Accuracy: 9.853040245515107%
Validation Epoch 21, Validation Loss: 4.420626401901245, Validation Accuracy: 10.56%


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [13:51<00:00,  3.54s/it]


Epoch 22, Training Loss: 4.094524237450133, Training Accuracy: 10.060131240799421%
Validation Epoch 22, Validation Loss: 4.442844080924988, Validation Accuracy: 10.8%


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [13:36<00:00,  3.47s/it]


Epoch 23, Training Loss: 4.099599678972934, Training Accuracy: 9.899614927185475%
Validation Epoch 23, Validation Loss: 4.46770875453949, Validation Accuracy: 10.66%


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [13:43<00:00,  3.50s/it]


Epoch 24, Training Loss: 4.096983012747257, Training Accuracy: 9.98361569234096%
Validation Epoch 24, Validation Loss: 4.480363821983337, Validation Accuracy: 11.02%


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [13:43<00:00,  3.51s/it]


Epoch 25, Training Loss: 4.108875093054264, Training Accuracy: 9.833079667656378%
Validation Epoch 25, Validation Loss: 4.469143486022949, Validation Accuracy: 10.68%


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [13:41<00:00,  3.49s/it]


Epoch 26, Training Loss: 4.085414432972035, Training Accuracy: 10.2164891006928%
Validation Epoch 26, Validation Loss: 4.433990406990051, Validation Accuracy: 10.82%


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [13:37<00:00,  3.48s/it]


Epoch 27, Training Loss: 4.073569804049553, Training Accuracy: 10.359539908680356%
Validation Epoch 27, Validation Loss: 4.450184345245361, Validation Accuracy: 11.04%


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [13:41<00:00,  3.50s/it]


Epoch 28, Training Loss: 4.069020006504465, Training Accuracy: 10.518392840806074%
Validation Epoch 28, Validation Loss: 4.443663215637207, Validation Accuracy: 11.14%


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [13:40<00:00,  3.49s/it]


Epoch 29, Training Loss: 4.063401082221498, Training Accuracy: 10.581601337358716%
Validation Epoch 29, Validation Loss: 4.450740575790405, Validation Accuracy: 11.3%


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [13:38<00:00,  3.48s/it]


Epoch 30, Training Loss: 4.085360198325299, Training Accuracy: 10.170746109766544%
Validation Epoch 30, Validation Loss: 4.4838176488876345, Validation Accuracy: 10.7%


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [13:34<00:00,  3.47s/it]


Epoch 31, Training Loss: 4.080970395879542, Training Accuracy: 10.254746874922029%
Validation Epoch 31, Validation Loss: 4.520419931411743, Validation Accuracy: 10.46%


IOPub message rate exceeded.
The Jupyter server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--ServerApp.iopub_msg_rate_limit`.

Current values:
ServerApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
ServerApp.rate_limit_window=3.0 (secs)

100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [13:37<00:00,  3.48s/it]


Epoch 93, Training Loss: 4.020197699932342, Training Accuracy: 12.181774329033493%
Validation Epoch 93, Validation Loss: 4.765346479415894, Validation Accuracy: 12.2%


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [13:36<00:00,  3.47s/it]


Epoch 94, Training Loss: 4.034778265242881, Training Accuracy: 11.988822076399112%
Validation Epoch 94, Validation Loss: 4.757084059715271, Validation Accuracy: 12.54%


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [13:34<00:00,  3.46s/it]


Epoch 95, Training Loss: 4.022360501390822, Training Accuracy: 12.240824371865566%
Validation Epoch 95, Validation Loss: 4.744451665878296, Validation Accuracy: 12.7%


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [13:34<00:00,  3.46s/it]


Epoch 96, Training Loss: 4.015334530079619, Training Accuracy: 12.316508229579913%
Validation Epoch 96, Validation Loss: 4.73508653640747, Validation Accuracy: 12.64%


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [13:35<00:00,  3.47s/it]


Epoch 97, Training Loss: 4.00822512951303, Training Accuracy: 12.381380107620782%
Validation Epoch 97, Validation Loss: 4.785855412483215, Validation Accuracy: 11.94%


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [13:38<00:00,  3.48s/it]


Epoch 98, Training Loss: 4.023747045435804, Training Accuracy: 12.152665152989512%
Validation Epoch 98, Validation Loss: 4.713558149337769, Validation Accuracy: 13.04%


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [13:36<00:00,  3.47s/it]


Epoch 100, Training Loss: 4.03211942835057, Training Accuracy: 12.107753852807372%
Validation Epoch 100, Validation Loss: 4.812699913978577, Validation Accuracy: 12.3%


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [13:41<00:00,  3.49s/it]


Epoch 101, Training Loss: 4.036650626202847, Training Accuracy: 12.071991150810483%
Validation Epoch 101, Validation Loss: 4.808967924118042, Validation Accuracy: 12.04%


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [13:40<00:00,  3.49s/it]


Epoch 102, Training Loss: 4.030042442362359, Training Accuracy: 12.16347713266299%
Validation Epoch 102, Validation Loss: 4.790238666534424, Validation Accuracy: 12.28%


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [13:43<00:00,  3.50s/it]


Epoch 103, Training Loss: 4.046651787453509, Training Accuracy: 11.837454360970417%
Validation Epoch 103, Validation Loss: 4.801662421226501, Validation Accuracy: 11.9%


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [13:37<00:00,  3.48s/it]


Epoch 104, Training Loss: 4.038270340574549, Training Accuracy: 12.14767500852483%
Validation Epoch 104, Validation Loss: 4.786218547821045, Validation Accuracy: 12.66%


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [13:44<00:00,  3.51s/it]


Epoch 105, Training Loss: 4.0251950548050255, Training Accuracy: 12.322330064788709%
Validation Epoch 105, Validation Loss: 4.796634316444397, Validation Accuracy: 12.78%


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [13:33<00:00,  3.46s/it]


Epoch 106, Training Loss: 4.023899594773638, Training Accuracy: 12.426291407802923%
Validation Epoch 106, Validation Loss: 4.782403922080993, Validation Accuracy: 13.14%


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [13:38<00:00,  3.48s/it]


Epoch 107, Training Loss: 4.017528496397302, Training Accuracy: 12.425459717058809%
Validation Epoch 107, Validation Loss: 4.796634769439697, Validation Accuracy: 12.88%


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [13:37<00:00,  3.48s/it]


Epoch 108, Training Loss: 4.020767295106928, Training Accuracy: 12.487004832123223%
Validation Epoch 108, Validation Loss: 4.817319798469543, Validation Accuracy: 12.8%


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [13:30<00:00,  3.45s/it]


Epoch 109, Training Loss: 4.012926911293192, Training Accuracy: 12.5402330397465%
Validation Epoch 109, Validation Loss: 4.802441239356995, Validation Accuracy: 12.66%


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [13:38<00:00,  3.48s/it]


Epoch 110, Training Loss: 4.007440787173332, Training Accuracy: 12.635877475319576%
Validation Epoch 110, Validation Loss: 4.800846147537231, Validation Accuracy: 12.58%


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 235/235 [13:38<00:00,  3.48s/it]


Epoch 111, Training Loss: 4.002740094002257, Training Accuracy: 12.635877475319576%
Validation Epoch 111, Validation Loss: 4.810680890083313, Validation Accuracy: 12.54%


 57%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                                    | 133/235 [07:41<06:02,  3.56s/it]IOPub message rate exceeded.
The Jupyter server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--ServerApp.iopub_msg_rate_limit`.

Current values:
ServerApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
ServerApp.rate_limit_window=3.0 (secs)

 86%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                            | 201/235 [11:42<01:58,  3.49s/it]


KeyboardInterrupt: 