In [1]:
!nvidia-smi

!pip install -q timm scikit-learn
!pip install --upgrade timm


Sun Nov 30 20:55:06 2025       
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 550.54.15              Driver Version: 550.54.15      CUDA Version: 12.4     |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|   0  Tesla T4                       Off |   00000000:00:04.0 Off |                    0 |
| N/A   53C    P8             10W /   70W |       0MiB /  15360MiB |      0%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+
                                                

In [2]:
import os, math, time, random
import numpy as np
import matplotlib.pyplot as plt

import torch
import torch.nn as nn
import torch.nn.functional as F
from torch.utils.data import DataLoader
from torch.cuda.amp import autocast, GradScaler

import torchvision
from torchvision import transforms
import timm
from tqdm.auto import tqdm
from sklearn.neighbors import KNeighborsClassifier

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print("Device:", device)

# Seeds
seed = 42
random.seed(seed)
np.random.seed(seed)
torch.manual_seed(seed)
if torch.cuda.is_available():
    torch.cuda.manual_seed_all(seed)

# ---------- CONFIG: ViT-Tiny + big batch ----------
CFG = {
    "image_size": 128,          # all crops -> 128x128
    "batch_size": 256,          # if OOM -> 192 or 160
    "num_workers": 0,           # avoid multiprocessing issues
    "epochs_pretrain": 100,      # self-supervised DINO epochs
    "epochs_linear": 150,        # linear probe epochs
    "learning_rate_dino": 5e-4,
    "learning_rate_linear": 0.1,
    "weight_decay": 1e-5,
    "warmup_epochs": 2,
    "out_dim": 256,             # DINO projection dim
    "student_temp": 0.1,
    "teacher_temp": 0.04,
    "momentum_teacher": 0.996,
}
print(CFG)


Device: cuda
{'image_size': 128, 'batch_size': 256, 'num_workers': 0, 'epochs_pretrain': 100, 'epochs_linear': 150, 'learning_rate_dino': 0.0005, 'learning_rate_linear': 0.1, 'weight_decay': 1e-05, 'warmup_epochs': 2, 'out_dim': 256, 'student_temp': 0.1, 'teacher_temp': 0.04, 'momentum_teacher': 0.996}


In [3]:
CIFAR_MEAN = (0.5071, 0.4867, 0.4408)
CIFAR_STD  = (0.2675, 0.2565, 0.2761)

class DinoMultiCropTransform:
    """
    2 global crops + 2 local crops.
    All crops OUTPUT at size = CFG["image_size"] (128x128),
    locals differ only by scale range.
    """
    def __init__(self, size=128, n_global=2, n_local=2):
        self.n_global = n_global
        self.n_local = n_local
        self.size = size

        flip_color = transforms.Compose([
            transforms.RandomHorizontalFlip(p=0.5),
            transforms.RandomApply([
                transforms.ColorJitter(0.4, 0.4, 0.4, 0.1)
            ], p=0.8),
            transforms.RandomGrayscale(p=0.2),
        ])

        normalize = transforms.Compose([
            transforms.ToTensor(),
            transforms.Normalize(CIFAR_MEAN, CIFAR_STD),
        ])

        self.global_transforms = [
            transforms.Compose([
                transforms.RandomResizedCrop(
                    size, scale=(0.4, 1.0),
                    interpolation=transforms.InterpolationMode.BICUBIC,
                ),
                flip_color,
                transforms.GaussianBlur(kernel_size=15, sigma=(0.1, 2.0)),
                normalize,
            ]),
            transforms.Compose([
                transforms.RandomResizedCrop(
                    size, scale=(0.4, 1.0),
                    interpolation=transforms.InterpolationMode.BICUBIC,
                ),
                flip_color,
                transforms.GaussianBlur(kernel_size=15, sigma=(0.1, 2.0)),
                transforms.RandomSolarize(threshold=0.5, p=0.2),
                normalize,
            ]),
        ]

        # local crops: smaller scale, but still resized to 128
        self.local_transform = transforms.Compose([
            transforms.RandomResizedCrop(
                size, scale=(0.08, 0.4),
                interpolation=transforms.InterpolationMode.BICUBIC,
            ),
            flip_color,
            transforms.GaussianBlur(kernel_size=9, sigma=(0.1, 2.0)),
            normalize,
        ])

    def __call__(self, x):
        crops = []
        for i in range(self.n_global):
            crops.append(self.global_transforms[i](x))
        for _ in range(self.n_local):
            crops.append(self.local_transform(x))
        return crops

# ---- Datasets ----
dino_transform = DinoMultiCropTransform(size=CFG["image_size"], n_global=2, n_local=2)

train_unlabeled = torchvision.datasets.CIFAR100(
    root="./data", train=True, download=True, transform=dino_transform
)

linear_train_transform = transforms.Compose([
    transforms.Resize(CFG["image_size"],
                     interpolation=transforms.InterpolationMode.BICUBIC),
    transforms.RandomHorizontalFlip(),
    transforms.ToTensor(),
    transforms.Normalize(CIFAR_MEAN, CIFAR_STD),
])

linear_test_transform = transforms.Compose([
    transforms.Resize(CFG["image_size"],
                     interpolation=transforms.InterpolationMode.BICUBIC),
    transforms.ToTensor(),
    transforms.Normalize(CIFAR_MEAN, CIFAR_STD),
])

train_labeled = torchvision.datasets.CIFAR100(
    root="./data", train=True, download=False, transform=linear_train_transform
)
test_labeled = torchvision.datasets.CIFAR100(
    root="./data", train=False, download=False, transform=linear_test_transform
)

# ---- DataLoaders ----
pretrain_loader = DataLoader(
    train_unlabeled,
    batch_size=CFG["batch_size"],
    shuffle=True,
    num_workers=CFG["num_workers"],
    pin_memory=True,
    drop_last=True,
)

linear_train_loader = DataLoader(
    train_labeled,
    batch_size=CFG["batch_size"],
    shuffle=True,
    num_workers=CFG["num_workers"],
    pin_memory=True,
)

linear_test_loader = DataLoader(
    test_labeled,
    batch_size=CFG["batch_size"],
    shuffle=False,
    num_workers=CFG["num_workers"],
    pin_memory=True,
)

print("Unlabeled train:", len(train_unlabeled))
print("Labeled train:", len(train_labeled))
print("Labeled test :", len(test_labeled))


100%|██████████| 169M/169M [00:03<00:00, 47.7MB/s]


Unlabeled train: 50000
Labeled train: 50000
Labeled test : 10000


In [4]:
class VitBackbone(nn.Module):
    def __init__(self, model_name="vit_tiny_patch16_224", img_size=128):
        super().__init__()
        self.vit = timm.create_model(
            model_name,
            pretrained=False,
            num_classes=0,
            img_size=img_size,
        )

    def forward(self, x):
        return self.vit(x)


class DinoHead(nn.Module):
    def __init__(self, in_dim, out_dim=256, hidden_dim=2048, bottleneck_dim=256):
        super().__init__()
        self.mlp = nn.Sequential(
            nn.Linear(in_dim, hidden_dim),
            nn.GELU(),
            nn.Linear(hidden_dim, bottleneck_dim),
            nn.GELU(),
        )
        self.last_layer = nn.utils.weight_norm(
            nn.Linear(bottleneck_dim, out_dim, bias=False)
        )
        self.last_layer.weight_g.data.fill_(1.0)
        self.last_layer.weight_g.requires_grad = False

    def forward(self, x):
        x = self.mlp(x)
        x = F.normalize(x, dim=-1, p=2)
        return self.last_layer(x)


def build_dino_vit(out_dim=256, img_size=128):
    backbone = VitBackbone("vit_tiny_patch16_224", img_size=img_size)
    embed_dim = backbone.vit.num_features
    head = DinoHead(embed_dim, out_dim=out_dim)
    return backbone, head

student_backbone, student_head = build_dino_vit(
    out_dim=CFG["out_dim"],
    img_size=CFG["image_size"],
)
student = nn.Sequential(student_backbone, student_head).to(device)

teacher_backbone, teacher_head = build_dino_vit(
    out_dim=CFG["out_dim"],
    img_size=CFG["image_size"],
)
teacher = nn.Sequential(teacher_backbone, teacher_head).to(device)
for p in teacher.parameters():
    p.requires_grad = False

print("Student (ViT-Tiny) params (M):",
      sum(p.numel() for p in student.parameters()) / 1e6)


  WeightNorm.apply(module, name, dim)


Student (ViT-Tiny) params (M): 6.484672


In [5]:
class DINOLoss(nn.Module):
    def __init__(self, out_dim, student_temp=0.1, teacher_temp=0.04, center_momentum=0.9):
        super().__init__()
        self.student_temp = student_temp
        self.teacher_temp = teacher_temp
        self.center_momentum = center_momentum
        self.register_buffer("center", torch.zeros(1, out_dim))

    def forward(self, student_out, teacher_out):
        student_out = [s / self.student_temp for s in student_out]
        teacher_out = [(t - self.center) / self.teacher_temp for t in teacher_out]

        student_out = [F.log_softmax(s, dim=-1) for s in student_out]
        teacher_out = [F.softmax(t, dim=-1).detach() for t in teacher_out]

        total_loss, n_terms = 0.0, 0
        for t in teacher_out:
            for s in student_out:
                loss = torch.sum(-t * s, dim=-1).mean()
                total_loss += loss
                n_terms += 1
        total_loss /= n_terms

        batch_center = torch.cat(teacher_out).mean(dim=0, keepdim=True)
        self.center = self.center * self.center_momentum + batch_center * (1 - self.center_momentum)
        return total_loss

def update_teacher(student, teacher, m):
    with torch.no_grad():
        for ps, pt in zip(student.parameters(), teacher.parameters()):
            pt.data.mul_(m).add_(ps.data, alpha=1.0 - m)

dino_loss_fn = DINOLoss(
    out_dim=CFG["out_dim"],
    student_temp=CFG["student_temp"],
    teacher_temp=CFG["teacher_temp"],
).to(device)


In [6]:
def cosine_scheduler(base_value, final_value, epochs, niter_per_epoch,
                     warmup_epochs=0, start_warmup_value=0.0):
    iters = epochs * niter_per_epoch
    warmup_iters = warmup_epochs * niter_per_epoch
    schedule = []
    for i in range(iters):
        if i < warmup_iters:
            v = start_warmup_value + i / max(1, warmup_iters) * (base_value - start_warmup_value)
        else:
            progress = (i - warmup_iters) / max(1, iters - warmup_iters)
            v = final_value + 0.5 * (base_value - final_value) * (1.0 + math.cos(math.pi * progress))
        schedule.append(v)
    return schedule

params = [p for p in student.parameters() if p.requires_grad]
optimizer = torch.optim.AdamW(
    params,
    lr=CFG["learning_rate_dino"],
    weight_decay=CFG["weight_decay"],
)

niter_per_epoch = len(pretrain_loader)
lr_schedule = cosine_scheduler(
    CFG["learning_rate_dino"],
    1e-6,
    CFG["epochs_pretrain"],
    niter_per_epoch,
    warmup_epochs=CFG["warmup_epochs"],
)

momentum_schedule = cosine_scheduler(
    CFG["momentum_teacher"],
    1.0,
    CFG["epochs_pretrain"],
    niter_per_epoch,
)

print("iters/epoch:", niter_per_epoch, "total iters:", len(lr_schedule))


iters/epoch: 195 total iters: 19500


In [7]:
scaler = GradScaler()

def train_dino(student, teacher, dino_loss_fn, loader, optimizer,
               lr_schedule, momentum_schedule, epochs):
    it = 0
    student.train()
    teacher.eval()

    for epoch in range(epochs):
        epoch_loss = 0.0
        start = time.time()
        pbar = tqdm(loader, desc=f"[DINO] Epoch {epoch+1}/{epochs}")

        for crops, _ in pbar:
            crops = [c.to(device, non_blocking=True) for c in crops]

            for pg in optimizer.param_groups:
                pg["lr"] = lr_schedule[it]
            m = momentum_schedule[it]

            with autocast(dtype=torch.float16):
                student_out = [student(c) for c in crops]
                with torch.no_grad():
                    teacher_out = [teacher(c) for c in crops[:2]]  # 2 global crops
                loss = dino_loss_fn(student_out, teacher_out)

            optimizer.zero_grad()
            scaler.scale(loss).backward()
            scaler.step(optimizer)
            scaler.update()

            update_teacher(student, teacher, m)

            epoch_loss += loss.item()
            it += 1
            pbar.set_postfix({"loss": f"{loss.item():.4f}"})

        epoch_loss /= len(loader)
        print(f"Epoch {epoch+1}: loss={epoch_loss:.4f}, time={time.time()-start:.1f}s")

    return student, teacher


  scaler = GradScaler()


In [8]:
student, teacher = train_dino(
    student,
    teacher,
    dino_loss_fn,
    pretrain_loader,
    optimizer,
    lr_schedule,
    momentum_schedule,
    CFG["epochs_pretrain"],
)

os.makedirs("checkpoints", exist_ok=True)
torch.save(student_backbone.state_dict(),
           "checkpoints/dino_vit_tiny_cifar100_backbone_batch256.pth")
print("Backbone saved.")


[DINO] Epoch 1/100:


100%|██████████████████████████████████████████████████████████ 195/195 [14:00<00:16, 4.76it/s]



Epoch   1: loss=4.9490, time=945.0s

[DINO] Epoch 2/100:


100%|██████████████████████████████████████████████████████████ 195/195 [16:00<00:16, 4.79it/s]



Epoch   2: loss=4.9317, time=938.9s

[DINO] Epoch 3/100:


100%|██████████████████████████████████████████████████████████ 195/195 [14:00<00:14, 4.67it/s]



Epoch   3: loss=4.8627, time=957.7s

[DINO] Epoch 4/100:


100%|██████████████████████████████████████████████████████████ 195/195 [14:00<00:16, 4.51it/s]



Epoch   4: loss=4.8380, time=959.5s

[DINO] Epoch 5/100:


100%|██████████████████████████████████████████████████████████ 195/195 [16:00<00:15, 4.59it/s]



Epoch   5: loss=4.8024, time=935.3s

[DINO] Epoch 6/100:


100%|██████████████████████████████████████████████████████████ 195/195 [16:00<00:15, 4.82it/s]



Epoch   6: loss=4.7416, time=942.0s

[DINO] Epoch 7/100:


100%|██████████████████████████████████████████████████████████ 195/195 [15:00<00:14, 4.88it/s]



Epoch   7: loss=4.6897, time=939.4s

[DINO] Epoch 8/100:


100%|██████████████████████████████████████████████████████████ 195/195 [16:00<00:15, 4.84it/s]



Epoch   8: loss=4.6763, time=967.8s

[DINO] Epoch 9/100:


100%|██████████████████████████████████████████████████████████ 195/195 [15:00<00:14, 4.71it/s]



Epoch   9: loss=4.6241, time=972.3s

[DINO] Epoch 10/100:


100%|██████████████████████████████████████████████████████████ 195/195 [15:00<00:16, 4.75it/s]



Epoch  10: loss=4.5677, time=938.1s

[DINO] Epoch 11/100:


100%|██████████████████████████████████████████████████████████ 195/195 [15:00<00:14, 4.76it/s]



Epoch  11: loss=4.5522, time=974.0s

[DINO] Epoch 12/100:


100%|██████████████████████████████████████████████████████████ 195/195 [15:00<00:16, 4.65it/s]



Epoch  12: loss=4.5094, time=942.3s

[DINO] Epoch 13/100:


100%|██████████████████████████████████████████████████████████ 195/195 [16:00<00:15, 4.64it/s]



Epoch  13: loss=4.4621, time=965.8s

[DINO] Epoch 14/100:


100%|██████████████████████████████████████████████████████████ 195/195 [16:00<00:14, 4.53it/s]



Epoch  14: loss=4.4134, time=946.0s

[DINO] Epoch 15/100:


100%|██████████████████████████████████████████████████████████ 195/195 [15:00<00:16, 4.68it/s]



Epoch  15: loss=4.3775, time=944.9s

[DINO] Epoch 16/100:


100%|██████████████████████████████████████████████████████████ 195/195 [14:00<00:14, 4.63it/s]



Epoch  16: loss=4.3409, time=971.2s

[DINO] Epoch 17/100:


100%|██████████████████████████████████████████████████████████ 195/195 [14:00<00:14, 4.66it/s]



Epoch  17: loss=4.3025, time=960.5s

[DINO] Epoch 18/100:


100%|██████████████████████████████████████████████████████████ 195/195 [14:00<00:16, 4.79it/s]



Epoch  18: loss=4.2440, time=974.8s

[DINO] Epoch 19/100:


100%|██████████████████████████████████████████████████████████ 195/195 [14:00<00:15, 4.76it/s]



Epoch  19: loss=4.1876, time=968.5s

[DINO] Epoch 20/100:


100%|██████████████████████████████████████████████████████████ 195/195 [16:00<00:16, 4.72it/s]



Epoch  20: loss=4.1571, time=961.3s

[DINO] Epoch 21/100:


100%|██████████████████████████████████████████████████████████ 195/195 [14:00<00:16, 4.64it/s]



Epoch  21: loss=4.1177, time=969.0s

[DINO] Epoch 22/100:


100%|██████████████████████████████████████████████████████████ 195/195 [14:00<00:16, 4.84it/s]



Epoch  22: loss=4.0624, time=965.6s

[DINO] Epoch 23/100:


100%|██████████████████████████████████████████████████████████ 195/195 [15:00<00:15, 4.74it/s]



Epoch  23: loss=4.0378, time=956.1s

[DINO] Epoch 24/100:


100%|███████████████████████████████████████████████████████████ 195/195 [16:00<00:14, 4.6it/s]



Epoch  24: loss=3.9992, time=940.2s

[DINO] Epoch 25/100:


100%|██████████████████████████████████████████████████████████ 195/195 [15:00<00:16, 4.85it/s]



Epoch  25: loss=3.9436, time=948.2s

[DINO] Epoch 26/100:


100%|██████████████████████████████████████████████████████████ 195/195 [14:00<00:16, 4.56it/s]



Epoch  26: loss=3.9230, time=946.9s

[DINO] Epoch 27/100:


100%|███████████████████████████████████████████████████████████ 195/195 [14:00<00:16, 4.7it/s]



Epoch  27: loss=3.8825, time=974.2s

[DINO] Epoch 28/100:


100%|██████████████████████████████████████████████████████████ 195/195 [16:00<00:16, 4.62it/s]



Epoch  28: loss=3.8284, time=941.9s

[DINO] Epoch 29/100:


100%|██████████████████████████████████████████████████████████ 195/195 [16:00<00:16, 4.81it/s]



Epoch  29: loss=3.7987, time=962.0s

[DINO] Epoch 30/100:


100%|███████████████████████████████████████████████████████████ 195/195 [14:00<00:15, 4.7it/s]



Epoch  30: loss=3.7551, time=972.4s

[DINO] Epoch 31/100:


100%|██████████████████████████████████████████████████████████ 195/195 [14:00<00:14, 4.62it/s]



Epoch  31: loss=3.7131, time=977.6s

[DINO] Epoch 32/100:


100%|██████████████████████████████████████████████████████████ 195/195 [15:00<00:14, 4.53it/s]



Epoch  32: loss=3.6751, time=959.0s

[DINO] Epoch 33/100:


100%|██████████████████████████████████████████████████████████ 195/195 [16:00<00:15, 4.55it/s]



Epoch  33: loss=3.6319, time=942.4s

[DINO] Epoch 34/100:


100%|██████████████████████████████████████████████████████████ 195/195 [16:00<00:15, 4.71it/s]



Epoch  34: loss=3.5906, time=976.8s

[DINO] Epoch 35/100:


100%|███████████████████████████████████████████████████████████ 195/195 [16:00<00:14, 4.8it/s]



Epoch  35: loss=3.5385, time=953.0s

[DINO] Epoch 36/100:


100%|██████████████████████████████████████████████████████████ 195/195 [15:00<00:15, 4.77it/s]



Epoch  36: loss=3.5040, time=955.3s

[DINO] Epoch 37/100:


100%|███████████████████████████████████████████████████████████ 195/195 [14:00<00:15, 4.6it/s]



Epoch  37: loss=3.4268, time=959.9s

[DINO] Epoch 38/100:


100%|██████████████████████████████████████████████████████████ 195/195 [14:00<00:14, 4.74it/s]



Epoch  38: loss=3.4123, time=937.6s

[DINO] Epoch 39/100:


100%|██████████████████████████████████████████████████████████ 195/195 [14:00<00:15, 4.53it/s]



Epoch  39: loss=3.3448, time=945.7s

[DINO] Epoch 40/100:


100%|██████████████████████████████████████████████████████████ 195/195 [14:00<00:16, 4.77it/s]



Epoch  40: loss=3.3053, time=977.1s

[DINO] Epoch 41/100:


100%|██████████████████████████████████████████████████████████ 195/195 [15:00<00:14, 4.73it/s]



Epoch  41: loss=3.2894, time=971.3s

[DINO] Epoch 42/100:


100%|██████████████████████████████████████████████████████████ 195/195 [14:00<00:16, 4.58it/s]



Epoch  42: loss=3.2332, time=954.1s

[DINO] Epoch 43/100:


100%|██████████████████████████████████████████████████████████ 195/195 [16:00<00:14, 4.69it/s]



Epoch  43: loss=3.2009, time=979.3s

[DINO] Epoch 44/100:


100%|██████████████████████████████████████████████████████████ 195/195 [15:00<00:16, 4.54it/s]



Epoch  44: loss=3.1456, time=973.8s

[DINO] Epoch 45/100:


100%|███████████████████████████████████████████████████████████ 195/195 [14:00<00:16, 4.6it/s]



Epoch  45: loss=3.1079, time=954.0s

[DINO] Epoch 46/100:


100%|██████████████████████████████████████████████████████████ 195/195 [14:00<00:14, 4.61it/s]



Epoch  46: loss=3.0657, time=973.8s

[DINO] Epoch 47/100:


100%|██████████████████████████████████████████████████████████ 195/195 [14:00<00:16, 4.72it/s]



Epoch  47: loss=3.0460, time=972.6s

[DINO] Epoch 48/100:


100%|██████████████████████████████████████████████████████████ 195/195 [14:00<00:14, 4.89it/s]



Epoch  48: loss=2.9803, time=956.7s

[DINO] Epoch 49/100:


100%|██████████████████████████████████████████████████████████ 195/195 [14:00<00:14, 4.85it/s]



Epoch  49: loss=2.9372, time=979.3s

[DINO] Epoch 50/100:


100%|██████████████████████████████████████████████████████████ 195/195 [15:00<00:15, 4.61it/s]



Epoch  50: loss=2.8969, time=978.1s

[DINO] Epoch 51/100:


100%|███████████████████████████████████████████████████████████ 195/195 [16:00<00:16, 4.9it/s]



Epoch  51: loss=2.8667, time=942.0s

[DINO] Epoch 52/100:


100%|██████████████████████████████████████████████████████████ 195/195 [14:00<00:16, 4.62it/s]



Epoch  52: loss=2.8254, time=937.7s

[DINO] Epoch 53/100:


100%|██████████████████████████████████████████████████████████ 195/195 [14:00<00:16, 4.63it/s]



Epoch  53: loss=2.7731, time=976.4s

[DINO] Epoch 54/100:


100%|██████████████████████████████████████████████████████████ 195/195 [14:00<00:16, 4.71it/s]



Epoch  54: loss=2.7152, time=943.4s

[DINO] Epoch 55/100:


100%|██████████████████████████████████████████████████████████ 195/195 [16:00<00:14, 4.74it/s]



Epoch  55: loss=2.6862, time=977.4s

[DINO] Epoch 56/100:


100%|██████████████████████████████████████████████████████████ 195/195 [16:00<00:16, 4.73it/s]



Epoch  56: loss=2.6296, time=938.7s

[DINO] Epoch 57/100:


100%|██████████████████████████████████████████████████████████ 195/195 [16:00<00:16, 4.76it/s]



Epoch  57: loss=2.5987, time=946.7s

[DINO] Epoch 58/100:


100%|██████████████████████████████████████████████████████████ 195/195 [15:00<00:14, 4.77it/s]



Epoch  58: loss=2.5546, time=940.9s

[DINO] Epoch 59/100:


100%|██████████████████████████████████████████████████████████ 195/195 [15:00<00:15, 4.76it/s]



Epoch  59: loss=2.5392, time=977.1s

[DINO] Epoch 60/100:


100%|███████████████████████████████████████████████████████████ 195/195 [16:00<00:16, 4.5it/s]



Epoch  60: loss=2.4998, time=938.3s

[DINO] Epoch 61/100:


100%|██████████████████████████████████████████████████████████ 195/195 [15:00<00:14, 4.59it/s]



Epoch  61: loss=2.4553, time=974.6s

[DINO] Epoch 62/100:


100%|██████████████████████████████████████████████████████████ 195/195 [15:00<00:15, 4.85it/s]



Epoch  62: loss=2.3823, time=972.5s

[DINO] Epoch 63/100:


100%|██████████████████████████████████████████████████████████ 195/195 [16:00<00:16, 4.78it/s]



Epoch  63: loss=2.3552, time=965.1s

[DINO] Epoch 64/100:


100%|██████████████████████████████████████████████████████████ 195/195 [16:00<00:14, 4.72it/s]



Epoch  64: loss=2.3296, time=941.0s

[DINO] Epoch 65/100:


100%|██████████████████████████████████████████████████████████ 195/195 [14:00<00:16, 4.55it/s]



Epoch  65: loss=2.2721, time=947.3s

[DINO] Epoch 66/100:


100%|██████████████████████████████████████████████████████████ 195/195 [16:00<00:15, 4.74it/s]



Epoch  66: loss=2.2161, time=963.5s

[DINO] Epoch 67/100:


100%|██████████████████████████████████████████████████████████ 195/195 [15:00<00:15, 4.61it/s]



Epoch  67: loss=2.2022, time=973.1s

[DINO] Epoch 68/100:


100%|██████████████████████████████████████████████████████████ 195/195 [15:00<00:15, 4.54it/s]



Epoch  68: loss=2.1258, time=950.0s

[DINO] Epoch 69/100:


100%|██████████████████████████████████████████████████████████ 195/195 [15:00<00:14, 4.55it/s]



Epoch  69: loss=2.1116, time=959.8s

[DINO] Epoch 70/100:


100%|██████████████████████████████████████████████████████████ 195/195 [14:00<00:14, 4.67it/s]



Epoch  70: loss=2.0430, time=974.7s

[DINO] Epoch 71/100:


100%|██████████████████████████████████████████████████████████ 195/195 [16:00<00:14, 4.86it/s]



Epoch  71: loss=2.0314, time=961.2s

[DINO] Epoch 72/100:


100%|██████████████████████████████████████████████████████████ 195/195 [14:00<00:14, 4.56it/s]



Epoch  72: loss=1.9683, time=975.5s

[DINO] Epoch 73/100:


100%|██████████████████████████████████████████████████████████ 195/195 [14:00<00:15, 4.82it/s]



Epoch  73: loss=1.9224, time=946.2s

[DINO] Epoch 74/100:


100%|██████████████████████████████████████████████████████████ 195/195 [16:00<00:15, 4.54it/s]



Epoch  74: loss=1.9110, time=968.7s

[DINO] Epoch 75/100:


100%|██████████████████████████████████████████████████████████ 195/195 [14:00<00:14, 4.87it/s]



Epoch  75: loss=1.8690, time=971.5s

[DINO] Epoch 76/100:


100%|██████████████████████████████████████████████████████████ 195/195 [14:00<00:14, 4.85it/s]



Epoch  76: loss=1.8175, time=949.9s

[DINO] Epoch 77/100:


100%|██████████████████████████████████████████████████████████ 195/195 [16:00<00:16, 4.87it/s]



Epoch  77: loss=1.7784, time=947.0s

[DINO] Epoch 78/100:


100%|██████████████████████████████████████████████████████████ 195/195 [14:00<00:15, 4.81it/s]



Epoch  78: loss=1.7389, time=973.6s

[DINO] Epoch 79/100:


100%|██████████████████████████████████████████████████████████ 195/195 [15:00<00:15, 4.59it/s]



Epoch  79: loss=1.6742, time=970.8s

[DINO] Epoch 80/100:


100%|██████████████████████████████████████████████████████████ 195/195 [14:00<00:16, 4.59it/s]



Epoch  80: loss=1.6277, time=949.8s

[DINO] Epoch 81/100:


100%|██████████████████████████████████████████████████████████ 195/195 [15:00<00:15, 4.85it/s]



Epoch  81: loss=1.6037, time=953.0s

[DINO] Epoch 82/100:


100%|██████████████████████████████████████████████████████████ 195/195 [16:00<00:15, 4.89it/s]



Epoch  82: loss=1.5736, time=940.2s

[DINO] Epoch 83/100:


100%|██████████████████████████████████████████████████████████ 195/195 [14:00<00:16, 4.89it/s]



Epoch  83: loss=1.5325, time=946.9s

[DINO] Epoch 84/100:


100%|██████████████████████████████████████████████████████████ 195/195 [15:00<00:15, 4.54it/s]



Epoch  84: loss=1.4811, time=949.1s

[DINO] Epoch 85/100:


100%|██████████████████████████████████████████████████████████ 195/195 [16:00<00:14, 4.74it/s]



Epoch  85: loss=1.4254, time=960.9s

[DINO] Epoch 86/100:


100%|███████████████████████████████████████████████████████████ 195/195 [16:00<00:15, 4.6it/s]



Epoch  86: loss=1.3681, time=976.7s

[DINO] Epoch 87/100:


100%|██████████████████████████████████████████████████████████ 195/195 [16:00<00:16, 4.72it/s]



Epoch  87: loss=1.3555, time=943.9s

[DINO] Epoch 88/100:


100%|██████████████████████████████████████████████████████████ 195/195 [16:00<00:15, 4.67it/s]



Epoch  88: loss=1.3089, time=964.9s

[DINO] Epoch 89/100:


100%|██████████████████████████████████████████████████████████ 195/195 [15:00<00:16, 4.55it/s]



Epoch  89: loss=1.2544, time=953.4s

[DINO] Epoch 90/100:


100%|██████████████████████████████████████████████████████████ 195/195 [15:00<00:16, 4.66it/s]



Epoch  90: loss=1.2051, time=953.9s

[DINO] Epoch 91/100:


100%|██████████████████████████████████████████████████████████ 195/195 [16:00<00:16, 4.88it/s]



Epoch  91: loss=1.1941, time=962.7s

[DINO] Epoch 92/100:


100%|██████████████████████████████████████████████████████████ 195/195 [16:00<00:14, 4.62it/s]



Epoch  92: loss=1.1282, time=944.5s

[DINO] Epoch 93/100:


100%|██████████████████████████████████████████████████████████ 195/195 [16:00<00:16, 4.81it/s]



Epoch  93: loss=1.0869, time=954.9s

[DINO] Epoch 94/100:


100%|██████████████████████████████████████████████████████████ 195/195 [16:00<00:15, 4.77it/s]



Epoch  94: loss=1.0637, time=978.2s

[DINO] Epoch 95/100:


100%|██████████████████████████████████████████████████████████ 195/195 [16:00<00:14, 4.79it/s]



Epoch  95: loss=1.0014, time=964.9s

[DINO] Epoch 96/100:


100%|██████████████████████████████████████████████████████████ 195/195 [14:00<00:14, 4.75it/s]



Epoch  96: loss=0.9749, time=945.1s

[DINO] Epoch 97/100:


100%|██████████████████████████████████████████████████████████ 195/195 [14:00<00:14, 4.58it/s]



Epoch  97: loss=0.9158, time=956.4s

[DINO] Epoch 98/100:


100%|██████████████████████████████████████████████████████████ 195/195 [14:00<00:15, 4.84it/s]



Epoch  98: loss=0.8806, time=963.3s

[DINO] Epoch 99/100:


100%|██████████████████████████████████████████████████████████ 195/195 [16:00<00:15, 4.58it/s]



Epoch  99: loss=0.8418, time=946.0s

[DINO] Epoch 100/100:


100%|██████████████████████████████████████████████████████████ 195/195 [14:00<00:00, 4.76it/s]


Epoch 100: loss=0.8157, time=973.7s






In [None]:
backbone_linear = VitBackbone(
    "vit_tiny_patch16_224",
    img_size=CFG["image_size"],
).to(device)

state_dict = torch.load(
    "checkpoints/dino_vit_tiny_cifar100_backbone_batch256.pth",
    map_location=device,
)
backbone_linear.load_state_dict(state_dict)
backbone_linear.eval()
for p in backbone_linear.parameters():
    p.requires_grad = False

num_classes = 100

class LinearProbe(nn.Module):
    def __init__(self, backbone, in_dim, num_classes=100):
        super().__init__()
        self.backbone = backbone
        self.fc = nn.Linear(in_dim, num_classes)

    def forward(self, x):
        with torch.no_grad():
            feat = self.backbone(x)
        return self.fc(feat)

embed_dim = backbone_linear.vit.num_features
linear_model = LinearProbe(backbone_linear, embed_dim, num_classes=num_classes).to(device)

criterion_ce = nn.CrossEntropyLoss()
optimizer_linear = torch.optim.SGD(
    linear_model.fc.parameters(),
    lr=CFG["learning_rate_linear"],
    momentum=0.9,
    weight_decay=0.0,
)

def evaluate_linear(model, loader):
    model.eval()
    correct = total = 0
    with torch.no_grad():
        for imgs, labels in loader:
            imgs = imgs.to(device)
            labels = labels.to(device)
            logits = model(imgs)
            _, preds = logits.max(1)
            correct += preds.eq(labels).sum().item()
            total += labels.size(0)
    return 100.0 * correct / total if total > 0 else 0.0

def train_linear(model, train_loader, test_loader, epochs):
    for epoch in range(epochs):
        model.train()
        total_loss = 0.0
        correct = total = 0

        pbar = tqdm(train_loader, desc=f"[Linear] Epoch {epoch+1}/{epochs}")
        for imgs, labels in pbar:
            imgs = imgs.to(device)
            labels = labels.to(device)

            optimizer_linear.zero_grad()
            logits = model(imgs)
            loss = criterion_ce(logits, labels)
            loss.backward()
            optimizer_linear.step()

            total_loss += loss.item()
            _, preds = logits.max(1)
            correct += preds.eq(labels).sum().item()
            total += labels.size(0)

            pbar.set_postfix({
                "loss": f"{loss.item():.4f}",
                "train_acc": f"{100.0 * correct / total:.2f}%"
            })

        avg_loss = total_loss / len(train_loader)
        train_acc = 100.0 * correct / total
        test_acc = evaluate_linear(model, test_loader)
        print(f"Epoch {epoch+1}: loss={avg_loss:.4f}, train_acc={train_acc:.2f}%, test_acc={test_acc:.2f}%")


In [11]:
train_linear(
    linear_model,
    linear_train_loader,
    linear_test_loader,
    CFG["epochs_linear"],
)


[Linear] Epoch 1/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:46<00:00, 4.64it/s]



Epoch   1: loss=3.8733, train_acc=10.40%, test_acc=12.63%

[Linear] Epoch 2/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:44<00:00, 4.56it/s]



Epoch   2: loss=3.8387, train_acc=10.81%, test_acc=12.81%

[Linear] Epoch 3/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:46<00:00, 4.54it/s]



Epoch   3: loss=3.8334, train_acc=11.32%, test_acc=13.67%

[Linear] Epoch 4/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:49<00:00, 4.40it/s]



Epoch   4: loss=3.8256, train_acc=11.95%, test_acc=13.62%

[Linear] Epoch 5/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:41<00:00, 4.56it/s]



Epoch   5: loss=3.8061, train_acc=12.24%, test_acc=13.83%

[Linear] Epoch 6/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:47<00:00, 4.82it/s]



Epoch   6: loss=3.7753, train_acc=12.93%, test_acc=14.26%

[Linear] Epoch 7/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:45<00:00, 4.68it/s]



Epoch   7: loss=3.7556, train_acc=13.39%, test_acc=14.91%

[Linear] Epoch 8/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:46<00:00, 4.87it/s]



Epoch   8: loss=3.7349, train_acc=13.44%, test_acc=15.27%

[Linear] Epoch 9/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:41<00:00, 4.40it/s]



Epoch   9: loss=3.7535, train_acc=13.89%, test_acc=16.26%

[Linear] Epoch 10/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:44<00:00, 4.68it/s]



Epoch  10: loss=3.7238, train_acc=14.65%, test_acc=16.48%

[Linear] Epoch 11/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:46<00:00, 4.83it/s]



Epoch  11: loss=3.7312, train_acc=14.95%, test_acc=17.14%

[Linear] Epoch 12/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:44<00:00, 4.49it/s]



Epoch  12: loss=3.6821, train_acc=15.60%, test_acc=17.44%

[Linear] Epoch 13/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:43<00:00, 4.65it/s]



Epoch  13: loss=3.6405, train_acc=15.96%, test_acc=17.26%

[Linear] Epoch 14/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:42<00:00, 4.52it/s]



Epoch  14: loss=3.6567, train_acc=16.73%, test_acc=17.74%

[Linear] Epoch 15/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:43<00:00, 4.66it/s]



Epoch  15: loss=3.6348, train_acc=17.17%, test_acc=18.69%

[Linear] Epoch 16/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:49<00:00, 4.32it/s]



Epoch  16: loss=3.6163, train_acc=17.17%, test_acc=19.02%

[Linear] Epoch 17/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:49<00:00, 4.60it/s]



Epoch  17: loss=3.5910, train_acc=18.01%, test_acc=19.64%

[Linear] Epoch 18/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:40<00:00, 4.89it/s]



Epoch  18: loss=3.5848, train_acc=18.00%, test_acc=19.97%

[Linear] Epoch 19/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:45<00:00, 4.89it/s]



Epoch  19: loss=3.5646, train_acc=18.66%, test_acc=20.57%

[Linear] Epoch 20/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:47<00:00, 4.53it/s]



Epoch  20: loss=3.5507, train_acc=18.93%, test_acc=20.77%

[Linear] Epoch 21/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:43<00:00, 4.50it/s]



Epoch  21: loss=3.5255, train_acc=19.59%, test_acc=20.90%

[Linear] Epoch 22/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:49<00:00, 4.81it/s]



Epoch  22: loss=3.5102, train_acc=19.91%, test_acc=21.20%

[Linear] Epoch 23/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:49<00:00, 4.70it/s]



Epoch  23: loss=3.4746, train_acc=20.67%, test_acc=22.10%

[Linear] Epoch 24/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:47<00:00, 4.38it/s]



Epoch  24: loss=3.4431, train_acc=21.08%, test_acc=22.51%

[Linear] Epoch 25/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:41<00:00, 4.50it/s]



Epoch  25: loss=3.4622, train_acc=21.77%, test_acc=23.23%

[Linear] Epoch 26/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:40<00:00, 4.85it/s]



Epoch  26: loss=3.4422, train_acc=21.97%, test_acc=22.88%

[Linear] Epoch 27/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:49<00:00, 4.49it/s]



Epoch  27: loss=3.4045, train_acc=22.58%, test_acc=23.45%

[Linear] Epoch 28/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:41<00:00, 4.90it/s]



Epoch  28: loss=3.3837, train_acc=23.05%, test_acc=24.14%

[Linear] Epoch 29/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:47<00:00, 4.62it/s]



Epoch  29: loss=3.3796, train_acc=23.44%, test_acc=24.87%

[Linear] Epoch 30/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:45<00:00, 4.67it/s]



Epoch  30: loss=3.3393, train_acc=23.61%, test_acc=25.15%

[Linear] Epoch 31/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:49<00:00, 4.67it/s]



Epoch  31: loss=3.3553, train_acc=23.99%, test_acc=25.32%

[Linear] Epoch 32/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:49<00:00, 4.73it/s]



Epoch  32: loss=3.3306, train_acc=24.87%, test_acc=26.09%

[Linear] Epoch 33/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:42<00:00, 4.44it/s]



Epoch  33: loss=3.3339, train_acc=25.35%, test_acc=26.62%

[Linear] Epoch 34/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:46<00:00, 4.42it/s]



Epoch  34: loss=3.2922, train_acc=25.60%, test_acc=26.95%

[Linear] Epoch 35/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:45<00:00, 4.77it/s]



Epoch  35: loss=3.2651, train_acc=25.90%, test_acc=26.93%

[Linear] Epoch 36/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:48<00:00, 4.66it/s]



Epoch  36: loss=3.2251, train_acc=26.55%, test_acc=27.50%

[Linear] Epoch 37/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:47<00:00, 4.86it/s]



Epoch  37: loss=3.2350, train_acc=26.79%, test_acc=27.70%

[Linear] Epoch 38/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:44<00:00, 4.40it/s]



Epoch  38: loss=3.2168, train_acc=27.68%, test_acc=28.14%

[Linear] Epoch 39/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:48<00:00, 4.85it/s]



Epoch  39: loss=3.2211, train_acc=28.20%, test_acc=28.83%

[Linear] Epoch 40/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:43<00:00, 4.54it/s]



Epoch  40: loss=3.1732, train_acc=28.15%, test_acc=29.11%

[Linear] Epoch 41/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:40<00:00, 4.49it/s]



Epoch  41: loss=3.1749, train_acc=28.76%, test_acc=29.48%

[Linear] Epoch 42/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:49<00:00, 4.32it/s]



Epoch  42: loss=3.1423, train_acc=29.52%, test_acc=30.41%

[Linear] Epoch 43/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:46<00:00, 4.58it/s]



Epoch  43: loss=3.1504, train_acc=29.49%, test_acc=30.41%

[Linear] Epoch 44/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:49<00:00, 4.39it/s]



Epoch  44: loss=3.1145, train_acc=30.19%, test_acc=31.29%

[Linear] Epoch 45/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:41<00:00, 4.44it/s]



Epoch  45: loss=3.0743, train_acc=30.78%, test_acc=31.60%

[Linear] Epoch 46/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:48<00:00, 4.34it/s]



Epoch  46: loss=3.0720, train_acc=31.18%, test_acc=32.04%

[Linear] Epoch 47/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:47<00:00, 4.65it/s]



Epoch  47: loss=3.0415, train_acc=31.32%, test_acc=32.25%

[Linear] Epoch 48/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:41<00:00, 4.64it/s]



Epoch  48: loss=3.0461, train_acc=32.09%, test_acc=32.69%

[Linear] Epoch 49/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:45<00:00, 4.87it/s]



Epoch  49: loss=3.0352, train_acc=32.54%, test_acc=32.85%

[Linear] Epoch 50/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:40<00:00, 4.82it/s]



Epoch  50: loss=2.9932, train_acc=32.92%, test_acc=33.86%

[Linear] Epoch 51/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:40<00:00, 4.51it/s]



Epoch  51: loss=2.9665, train_acc=33.55%, test_acc=33.78%

[Linear] Epoch 52/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:47<00:00, 4.65it/s]



Epoch  52: loss=2.9420, train_acc=33.83%, test_acc=34.40%

[Linear] Epoch 53/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:48<00:00, 4.69it/s]



Epoch  53: loss=2.9571, train_acc=34.67%, test_acc=34.95%

[Linear] Epoch 54/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:41<00:00, 4.41it/s]



Epoch  54: loss=2.9410, train_acc=35.11%, test_acc=35.03%

[Linear] Epoch 55/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:47<00:00, 4.42it/s]



Epoch  55: loss=2.9331, train_acc=35.19%, test_acc=35.68%

[Linear] Epoch 56/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:48<00:00, 4.54it/s]



Epoch  56: loss=2.8904, train_acc=35.48%, test_acc=36.38%

[Linear] Epoch 57/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:48<00:00, 4.47it/s]



Epoch  57: loss=2.8469, train_acc=36.31%, test_acc=36.52%

[Linear] Epoch 58/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:44<00:00, 4.78it/s]



Epoch  58: loss=2.8500, train_acc=36.64%, test_acc=37.50%

[Linear] Epoch 59/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:41<00:00, 4.50it/s]



Epoch  59: loss=2.8495, train_acc=37.06%, test_acc=37.80%

[Linear] Epoch 60/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:40<00:00, 4.46it/s]



Epoch  60: loss=2.8155, train_acc=37.56%, test_acc=38.40%

[Linear] Epoch 61/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:42<00:00, 4.41it/s]



Epoch  61: loss=2.7782, train_acc=37.96%, test_acc=38.27%

[Linear] Epoch 62/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:47<00:00, 4.57it/s]



Epoch  62: loss=2.7640, train_acc=38.49%, test_acc=38.82%

[Linear] Epoch 63/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:49<00:00, 4.74it/s]



Epoch  63: loss=2.7729, train_acc=38.94%, test_acc=39.41%

[Linear] Epoch 64/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:40<00:00, 4.77it/s]



Epoch  64: loss=2.7583, train_acc=39.38%, test_acc=39.74%

[Linear] Epoch 65/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:41<00:00, 4.75it/s]



Epoch  65: loss=2.7019, train_acc=40.11%, test_acc=40.31%

[Linear] Epoch 66/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:41<00:00, 4.56it/s]



Epoch  66: loss=2.6962, train_acc=40.45%, test_acc=40.49%

[Linear] Epoch 67/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:40<00:00, 4.87it/s]



Epoch  67: loss=2.6732, train_acc=40.79%, test_acc=40.93%

[Linear] Epoch 68/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:40<00:00, 4.57it/s]



Epoch  68: loss=2.6543, train_acc=41.20%, test_acc=41.32%

[Linear] Epoch 69/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:49<00:00, 4.47it/s]



Epoch  69: loss=2.6296, train_acc=41.55%, test_acc=41.91%

[Linear] Epoch 70/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:41<00:00, 4.85it/s]



Epoch  70: loss=2.6565, train_acc=42.32%, test_acc=42.10%

[Linear] Epoch 71/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:46<00:00, 4.67it/s]



Epoch  71: loss=2.6519, train_acc=42.48%, test_acc=42.48%

[Linear] Epoch 72/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:41<00:00, 4.34it/s]



Epoch  72: loss=2.6168, train_acc=43.42%, test_acc=43.45%

[Linear] Epoch 73/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:49<00:00, 4.88it/s]



Epoch  73: loss=2.5961, train_acc=43.71%, test_acc=43.67%

[Linear] Epoch 74/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:42<00:00, 4.47it/s]



Epoch  74: loss=2.5475, train_acc=44.17%, test_acc=44.23%

[Linear] Epoch 75/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:43<00:00, 4.40it/s]



Epoch  75: loss=2.5335, train_acc=44.79%, test_acc=44.73%

[Linear] Epoch 76/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:44<00:00, 4.44it/s]



Epoch  76: loss=2.5237, train_acc=45.00%, test_acc=44.91%

[Linear] Epoch 77/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:41<00:00, 4.89it/s]



Epoch  77: loss=2.5371, train_acc=45.16%, test_acc=45.29%

[Linear] Epoch 78/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:44<00:00, 4.73it/s]



Epoch  78: loss=2.4906, train_acc=45.83%, test_acc=45.86%

[Linear] Epoch 79/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:43<00:00, 4.38it/s]



Epoch  79: loss=2.4524, train_acc=46.32%, test_acc=46.25%

[Linear] Epoch 80/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:48<00:00, 4.38it/s]



Epoch  80: loss=2.4631, train_acc=46.85%, test_acc=46.88%

[Linear] Epoch 81/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:45<00:00, 4.38it/s]



Epoch  81: loss=2.4641, train_acc=47.46%, test_acc=47.11%

[Linear] Epoch 82/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:41<00:00, 4.48it/s]



Epoch  82: loss=2.4501, train_acc=47.56%, test_acc=47.89%

[Linear] Epoch 83/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:42<00:00, 4.61it/s]



Epoch  83: loss=2.3807, train_acc=48.00%, test_acc=48.33%

[Linear] Epoch 84/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:46<00:00, 4.46it/s]



Epoch  84: loss=2.3949, train_acc=48.40%, test_acc=48.51%

[Linear] Epoch 85/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:45<00:00, 4.66it/s]



Epoch  85: loss=2.3503, train_acc=49.17%, test_acc=49.15%

[Linear] Epoch 86/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:49<00:00, 4.50it/s]



Epoch  86: loss=2.3245, train_acc=49.78%, test_acc=48.93%

[Linear] Epoch 87/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:47<00:00, 4.87it/s]



Epoch  87: loss=2.3199, train_acc=49.85%, test_acc=49.76%

[Linear] Epoch 88/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:40<00:00, 4.67it/s]



Epoch  88: loss=2.3393, train_acc=50.51%, test_acc=50.25%

[Linear] Epoch 89/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:42<00:00, 4.48it/s]



Epoch  89: loss=2.3164, train_acc=50.88%, test_acc=50.53%

[Linear] Epoch 90/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:41<00:00, 4.71it/s]



Epoch  90: loss=2.2749, train_acc=51.38%, test_acc=50.87%

[Linear] Epoch 91/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:48<00:00, 4.39it/s]



Epoch  91: loss=2.2512, train_acc=52.15%, test_acc=51.31%

[Linear] Epoch 92/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:47<00:00, 4.54it/s]



Epoch  92: loss=2.2449, train_acc=52.08%, test_acc=51.66%

[Linear] Epoch 93/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:44<00:00, 4.37it/s]



Epoch  93: loss=2.2045, train_acc=52.51%, test_acc=52.66%

[Linear] Epoch 94/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:44<00:00, 4.82it/s]



Epoch  94: loss=2.2358, train_acc=53.48%, test_acc=52.98%

[Linear] Epoch 95/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:47<00:00, 4.86it/s]



Epoch  95: loss=2.1714, train_acc=53.50%, test_acc=53.56%

[Linear] Epoch 96/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:48<00:00, 4.58it/s]



Epoch  96: loss=2.1718, train_acc=53.91%, test_acc=53.51%

[Linear] Epoch 97/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:42<00:00, 4.57it/s]



Epoch  97: loss=2.1590, train_acc=54.35%, test_acc=53.86%

[Linear] Epoch 98/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:48<00:00, 4.66it/s]



Epoch  98: loss=2.1464, train_acc=54.95%, test_acc=54.07%

[Linear] Epoch 99/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:41<00:00, 4.36it/s]



Epoch  99: loss=2.1039, train_acc=55.46%, test_acc=54.82%

[Linear] Epoch 100/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:40<00:00, 4.33it/s]



Epoch 100: loss=2.1037, train_acc=55.92%, test_acc=55.16%

[Linear] Epoch 101/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:44<00:00, 4.53it/s]



Epoch 101: loss=2.0850, train_acc=56.66%, test_acc=55.87%

[Linear] Epoch 102/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:41<00:00, 4.67it/s]



Epoch 102: loss=2.0398, train_acc=56.84%, test_acc=56.59%

[Linear] Epoch 103/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:43<00:00, 4.63it/s]



Epoch 103: loss=2.0247, train_acc=57.44%, test_acc=56.55%

[Linear] Epoch 104/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:40<00:00, 4.32it/s]



Epoch 104: loss=2.0408, train_acc=58.02%, test_acc=57.08%

[Linear] Epoch 105/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:48<00:00, 4.39it/s]



Epoch 105: loss=1.9884, train_acc=58.56%, test_acc=57.35%

[Linear] Epoch 106/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:46<00:00, 4.54it/s]



Epoch 106: loss=2.0126, train_acc=58.82%, test_acc=57.94%

[Linear] Epoch 107/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:44<00:00, 4.61it/s]



Epoch 107: loss=1.9778, train_acc=59.20%, test_acc=57.98%

[Linear] Epoch 108/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:41<00:00, 4.50it/s]



Epoch 108: loss=1.9510, train_acc=59.56%, test_acc=59.12%

[Linear] Epoch 109/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:46<00:00, 4.82it/s]



Epoch 109: loss=1.9438, train_acc=60.00%, test_acc=59.36%

[Linear] Epoch 110/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:45<00:00, 4.88it/s]



Epoch 110: loss=1.9037, train_acc=60.33%, test_acc=59.65%

[Linear] Epoch 111/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:47<00:00, 4.61it/s]



Epoch 111: loss=1.9185, train_acc=60.99%, test_acc=60.36%

[Linear] Epoch 112/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:45<00:00, 4.45it/s]



Epoch 112: loss=1.8960, train_acc=61.33%, test_acc=60.49%

[Linear] Epoch 113/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:44<00:00, 4.55it/s]



Epoch 113: loss=1.8482, train_acc=61.98%, test_acc=61.06%

[Linear] Epoch 114/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:48<00:00, 4.58it/s]



Epoch 114: loss=1.8616, train_acc=62.56%, test_acc=61.41%

[Linear] Epoch 115/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:49<00:00, 4.64it/s]



Epoch 115: loss=1.8287, train_acc=62.83%, test_acc=62.20%

[Linear] Epoch 116/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:45<00:00, 4.58it/s]



Epoch 116: loss=1.8148, train_acc=63.47%, test_acc=62.56%

[Linear] Epoch 117/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:48<00:00, 4.71it/s]



Epoch 117: loss=1.7799, train_acc=63.81%, test_acc=63.07%

[Linear] Epoch 118/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:42<00:00, 4.47it/s]



Epoch 118: loss=1.8025, train_acc=64.57%, test_acc=63.35%

[Linear] Epoch 119/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:46<00:00, 4.72it/s]



Epoch 119: loss=1.7573, train_acc=64.73%, test_acc=63.62%

[Linear] Epoch 120/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:47<00:00, 4.86it/s]



Epoch 120: loss=1.7273, train_acc=65.24%, test_acc=64.03%

[Linear] Epoch 121/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:43<00:00, 4.84it/s]



Epoch 121: loss=1.7127, train_acc=65.82%, test_acc=64.15%

[Linear] Epoch 122/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:49<00:00, 4.33it/s]



Epoch 122: loss=1.6787, train_acc=66.37%, test_acc=64.99%

[Linear] Epoch 123/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:42<00:00, 4.75it/s]



Epoch 123: loss=1.7057, train_acc=66.44%, test_acc=65.35%

[Linear] Epoch 124/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:41<00:00, 4.46it/s]



Epoch 124: loss=1.6825, train_acc=66.88%, test_acc=65.37%

[Linear] Epoch 125/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:42<00:00, 4.84it/s]



Epoch 125: loss=1.6340, train_acc=67.26%, test_acc=66.03%

[Linear] Epoch 126/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:46<00:00, 4.58it/s]



Epoch 126: loss=1.6102, train_acc=68.24%, test_acc=66.98%

[Linear] Epoch 127/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:46<00:00, 4.39it/s]



Epoch 127: loss=1.6368, train_acc=68.41%, test_acc=67.15%

[Linear] Epoch 128/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:42<00:00, 4.75it/s]



Epoch 128: loss=1.5831, train_acc=68.62%, test_acc=67.68%

[Linear] Epoch 129/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:42<00:00, 4.69it/s]



Epoch 129: loss=1.5923, train_acc=69.55%, test_acc=67.53%

[Linear] Epoch 130/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:44<00:00, 4.85it/s]



Epoch 130: loss=1.5803, train_acc=70.06%, test_acc=67.96%

[Linear] Epoch 131/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:47<00:00, 4.80it/s]



Epoch 131: loss=1.5232, train_acc=70.41%, test_acc=69.06%

[Linear] Epoch 132/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:40<00:00, 4.47it/s]



Epoch 132: loss=1.5119, train_acc=70.78%, test_acc=69.54%

[Linear] Epoch 133/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:44<00:00, 4.50it/s]



Epoch 133: loss=1.5145, train_acc=71.19%, test_acc=69.94%

[Linear] Epoch 134/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:45<00:00, 4.38it/s]



Epoch 134: loss=1.4744, train_acc=71.83%, test_acc=69.93%

[Linear] Epoch 135/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:46<00:00, 4.74it/s]



Epoch 135: loss=1.4831, train_acc=71.81%, test_acc=70.37%

[Linear] Epoch 136/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:46<00:00, 4.48it/s]



Epoch 136: loss=1.4336, train_acc=72.63%, test_acc=71.04%

[Linear] Epoch 137/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:44<00:00, 4.54it/s]



Epoch 137: loss=1.4237, train_acc=72.96%, test_acc=71.04%

[Linear] Epoch 138/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:44<00:00, 4.89it/s]



Epoch 138: loss=1.4421, train_acc=73.18%, test_acc=71.71%

[Linear] Epoch 139/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:42<00:00, 4.57it/s]



Epoch 139: loss=1.3878, train_acc=73.99%, test_acc=72.29%

[Linear] Epoch 140/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:43<00:00, 4.46it/s]



Epoch 140: loss=1.3642, train_acc=74.50%, test_acc=72.64%

[Linear] Epoch 141/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:46<00:00, 4.40it/s]



Epoch 141: loss=1.3874, train_acc=75.09%, test_acc=73.32%

[Linear] Epoch 142/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:46<00:00, 4.71it/s]



Epoch 142: loss=1.3704, train_acc=75.24%, test_acc=73.31%

[Linear] Epoch 143/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:44<00:00, 4.87it/s]



Epoch 143: loss=1.3233, train_acc=76.07%, test_acc=73.87%

[Linear] Epoch 144/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:49<00:00, 4.72it/s]



Epoch 144: loss=1.3234, train_acc=76.42%, test_acc=74.66%

[Linear] Epoch 145/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:46<00:00, 4.76it/s]



Epoch 145: loss=1.2957, train_acc=76.87%, test_acc=74.85%

[Linear] Epoch 146/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:43<00:00, 4.62it/s]



Epoch 146: loss=1.2970, train_acc=76.93%, test_acc=75.53%

[Linear] Epoch 147/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:42<00:00, 4.84it/s]



Epoch 147: loss=1.2562, train_acc=77.42%, test_acc=75.98%

[Linear] Epoch 148/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:46<00:00, 4.57it/s]



Epoch 148: loss=1.2490, train_acc=78.07%, test_acc=76.45%

[Linear] Epoch 149/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:40<00:00, 4.57it/s]



Epoch 149: loss=1.2000, train_acc=78.49%, test_acc=76.62%

[Linear] Epoch 150/150:


100%|█████████████████████████████████████████████████████ 196/196 [00:46<00:00, 4.64it/s]


Epoch 150: loss=1.2000, train_acc=78.71%, test_acc=76.80%






In [12]:
def extract_features(backbone, loader):
    backbone.eval()
    feats, labels_all = [], []
    with torch.no_grad():
        for imgs, labels in tqdm(loader, desc="Extracting features"):
            imgs = imgs.to(device)
            f = backbone(imgs)
            feats.append(f.cpu())
            labels_all.append(labels)
    feats = torch.cat(feats, dim=0).numpy()
    labels_all = torch.cat(labels_all, dim=0).numpy()
    return feats, labels_all

train_feats, train_labels = extract_features(backbone_linear, linear_train_loader)
test_feats,  test_labels  = extract_features(backbone_linear, linear_test_loader)

knn = KNeighborsClassifier(n_neighbors=20, metric="cosine")
knn.fit(train_feats, train_labels)
knn_acc = knn.score(test_feats, test_labels)
print(f"k-NN accuracy on CIFAR-100 (ViT-Tiny DINO features): {knn_acc * 100:.2f}%")





Extracting features: 100%|██████████████████████████████████████████ 196/196 [00:44<00:00, 4.48it/s]
Extracting features: 100%|████████████████████████████████████████████ 40/40 [00:07<00:00, 4.62it/s]



k-NN accuracy on CIFAR-100 (ViT-Tiny DINO features): 76.34%



