In [11]:
#!pip install timm
#!pip install pytorch-accelerated
!pip list | grep -E 'timm|accelerated'

pytorch-accelerated       0.1.47
timm                      0.9.16


In [2]:
import timm

In [3]:
timm.list_models(pretrained=True)

['bat_resnext26ts.ch_in1k',
 'beit_base_patch16_224.in22k_ft_in22k',
 'beit_base_patch16_224.in22k_ft_in22k_in1k',
 'beit_base_patch16_384.in22k_ft_in22k_in1k',
 'beit_large_patch16_224.in22k_ft_in22k',
 'beit_large_patch16_224.in22k_ft_in22k_in1k',
 'beit_large_patch16_384.in22k_ft_in22k_in1k',
 'beit_large_patch16_512.in22k_ft_in22k_in1k',
 'beitv2_base_patch16_224.in1k_ft_in1k',
 'beitv2_base_patch16_224.in1k_ft_in22k',
 'beitv2_base_patch16_224.in1k_ft_in22k_in1k',
 'beitv2_large_patch16_224.in1k_ft_in1k',
 'beitv2_large_patch16_224.in1k_ft_in22k',
 'beitv2_large_patch16_224.in1k_ft_in22k_in1k',
 'botnet26t_256.c1_in1k',
 'caformer_b36.sail_in1k',
 'caformer_b36.sail_in1k_384',
 'caformer_b36.sail_in22k',
 'caformer_b36.sail_in22k_ft_in1k',
 'caformer_b36.sail_in22k_ft_in1k_384',
 'caformer_m36.sail_in1k',
 'caformer_m36.sail_in1k_384',
 'caformer_m36.sail_in22k',
 'caformer_m36.sail_in22k_ft_in1k',
 'caformer_m36.sail_in22k_ft_in1k_384',
 'caformer_s18.sail_in1k',
 'caformer_s18.s

In [19]:
#!wget 'https://s3.amazonaws.com/fast-ai-imageclas/imagenette2-320.tgz'
#!tar xvzf imagenette2-320.tgz
# train 갯수를 짝수로 맞춤
!rm imagenette2-320/train/n03888257/n03888257_9997.JPEG

In [21]:
import argparse
from pathlib import Path

import timm
import timm.data
import timm.loss
import timm.optim
import timm.utils
import torch
import torchmetrics
from timm.scheduler import CosineLRScheduler

from pytorch_accelerated.callbacks import SaveBestModelCallback
from pytorch_accelerated.trainer import Trainer, DEFAULT_CALLBACKS


def create_datasets(image_size, data_mean, data_std, train_path, val_path):
    train_transforms = timm.data.create_transform(
        input_size=image_size,
        is_training=True,
        mean=data_mean,
        std=data_std,
        auto_augment="rand-m7-mstd0.5-inc1",
    )

    eval_transforms = timm.data.create_transform(
        input_size=image_size, mean=data_mean, std=data_std
    )

    train_dataset = timm.data.dataset.ImageDataset(
        train_path, transform=train_transforms
    )
    eval_dataset = timm.data.dataset.ImageDataset(val_path, transform=eval_transforms)

    return train_dataset, eval_dataset


class TimmMixupTrainer(Trainer):
    def __init__(self, eval_loss_fn, mixup_args, num_classes, *args, **kwargs):
        super().__init__(*args, **kwargs)
        self.eval_loss_fn = eval_loss_fn
        self.num_updates = None
        self.mixup_fn = timm.data.Mixup(**mixup_args)

        self.accuracy = torchmetrics.Accuracy(num_classes=num_classes, task="multiclass")
        self.ema_accuracy = torchmetrics.Accuracy(num_classes=num_classes, task="multiclass")
        self.ema_model = None

    def create_scheduler(self):
        return timm.scheduler.CosineLRScheduler(
            self.optimizer,
            t_initial=self.run_config.num_epochs,
            cycle_decay=0.5,
            lr_min=1e-6,
            t_in_epochs=True,
            warmup_t=3,
            warmup_lr_init=1e-4,
            cycle_limit=1,
        )

    def training_run_start(self):
        # Model EMA requires the model without a DDP wrapper and before sync batchnorm conversion
        self.ema_model = timm.utils.ModelEmaV2(
            self._accelerator.unwrap_model(self.model), decay=0.9
        )
        if self.run_config.is_distributed:
            self.model = torch.nn.SyncBatchNorm.convert_sync_batchnorm(self.model)

    def train_epoch_start(self):
        super().train_epoch_start()
        self.num_updates = self.run_history.current_epoch * len(self._train_dataloader)

    def calculate_train_batch_loss(self, batch):
        xb, yb = batch
        #print('### batch_size =', len(batch), len(xb), len(yb))
        mixup_xb, mixup_yb = self.mixup_fn(xb, yb)
        return super().calculate_train_batch_loss((mixup_xb, mixup_yb))

    def train_epoch_end(
        self,
    ):
        self.ema_model.update(self.model)
        self.ema_model.eval()

        if hasattr(self.optimizer, "sync_lookahead"):
            self.optimizer.sync_lookahead()

    def scheduler_step(self):
        self.num_updates += 1
        if self.scheduler is not None:
            self.scheduler.step_update(num_updates=self.num_updates)

    def calculate_eval_batch_loss(self, batch):
        with torch.no_grad():
            xb, yb = batch
            outputs = self.model(xb)
            val_loss = self.eval_loss_fn(outputs, yb)
            self.accuracy.update(outputs.argmax(-1), yb)

            ema_model_preds = self.ema_model.module(xb).argmax(-1)
            self.ema_accuracy.update(ema_model_preds, yb)

        return {"loss": val_loss, "model_outputs": outputs, "batch_size": xb.size(0)}

    def eval_epoch_end(self):
        super().eval_epoch_end()

        if self.scheduler is not None:
            self.scheduler.step(self.run_history.current_epoch + 1)

        self.run_history.update_metric("accuracy", self.accuracy.compute().cpu())
        self.run_history.update_metric(
            "ema_model_accuracy", self.ema_accuracy.compute().cpu()
        )
        self.accuracy.reset()
        self.ema_accuracy.reset()


def main(data_path):

    # Set training arguments, hardcoded here for clarity
    image_size = (224, 224)
    lr = 5e-3
    smoothing = 0.1
    mixup = 0.2
    cutmix = 1.0
    batch_size = 32
    bce_target_thresh = 0.2
    num_epochs = 40

    data_path = Path(data_path)
    train_path = data_path / "train"
    val_path = data_path / "val"
    num_classes = len(list(train_path.iterdir()))

    mixup_args = dict(
        mixup_alpha=mixup,
        cutmix_alpha=cutmix,
        label_smoothing=smoothing,
        num_classes=num_classes,
    )

    # Create model using timm
    model = timm.create_model(
        "resnet50d", pretrained=False, num_classes=num_classes, drop_path_rate=0.05
    )

    # Load data config associated with the model to use in data augmentation pipeline
    data_config = timm.data.resolve_data_config({}, model=model, verbose=True)
    data_mean = data_config["mean"]
    data_std = data_config["std"]

    # Create training and validation datasets
    train_dataset, eval_dataset = create_datasets(
        train_path=train_path,
        val_path=val_path,
        image_size=image_size,
        data_mean=data_mean,
        data_std=data_std,
    )

    # Create optimizer
    optimizer = timm.optim.create_optimizer_v2(
        model, opt="lookahead_AdamW", lr=lr, weight_decay=0.01
    )

    # As we are using Mixup, we can use BCE during training and CE for evaluation
    train_loss_fn = timm.loss.BinaryCrossEntropy(
        target_threshold=bce_target_thresh, smoothing=smoothing
    )
    validate_loss_fn = torch.nn.CrossEntropyLoss()

    # Create trainer and start training
    trainer = TimmMixupTrainer(
        model=model,
        optimizer=optimizer,
        loss_func=train_loss_fn,
        eval_loss_fn=validate_loss_fn,
        mixup_args=mixup_args,
        num_classes=num_classes,
        callbacks=[
            *DEFAULT_CALLBACKS,
            SaveBestModelCallback(watch_metric="accuracy", greater_is_better=True),
        ],
    )

    trainer.train(
        per_device_batch_size=batch_size,
        train_dataset=train_dataset,
        eval_dataset=eval_dataset,
        num_epochs=num_epochs,
        create_scheduler_fn=trainer.create_scheduler,
    )


if __name__ == "__main__":
    parser = argparse.ArgumentParser(description="Simple example of training script using timm.")
    parser.add_argument("--data_dir", required=True, help="The data folder on disk.")
    args = parser.parse_args(args=['--data_dir=imagenette2-320'])
    main(args.data_dir)

100%|██████████████████████████████████████████████████████████████████████████▋| 295/296 [08:47<00:01,  1.79s/it]



Starting training run

Starting epoch 1


100%|███████████████████████████████████████████████████████████████████████████| 296/296 [00:24<00:00, 11.85it/s]



train_loss_epoch: 0.39548781514167786


100%|███████████████████████████████████████████████████████████████████████████| 123/123 [00:06<00:00, 18.74it/s]



accuracy: 0.46292993426322937

eval_loss_epoch: 1.6810799837112427

ema_model_accuracy: 0.09834394603967667

Starting epoch 2


100%|███████████████████████████████████████████████████████████████████████████| 296/296 [00:24<00:00, 11.94it/s]



train_loss_epoch: 0.3940792381763458


100%|███████████████████████████████████████████████████████████████████████████| 123/123 [00:06<00:00, 19.07it/s]



accuracy: 0.38751593232154846

eval_loss_epoch: 1.7718867063522339

ema_model_accuracy: 0.10522293299436569

Starting epoch 3


100%|███████████████████████████████████████████████████████████████████████████| 296/296 [00:24<00:00, 11.93it/s]



train_loss_epoch: 0.3719797432422638


100%|███████████████████████████████████████████████████████████████████████████| 123/123 [00:06<00:00, 19.19it/s]



accuracy: 0.5085350275039673

eval_loss_epoch: 1.5199953317642212

ema_model_accuracy: 0.10063694417476654

Starting epoch 4


100%|███████████████████████████████████████████████████████████████████████████| 296/296 [00:24<00:00, 11.94it/s]



train_loss_epoch: 0.3540121912956238


100%|███████████████████████████████████████████████████████████████████████████| 123/123 [00:06<00:00, 19.13it/s]



accuracy: 0.5378344058990479

eval_loss_epoch: 1.4788990020751953

ema_model_accuracy: 0.10598725825548172

Starting epoch 5


100%|███████████████████████████████████████████████████████████████████████████| 296/296 [00:24<00:00, 11.94it/s]



train_loss_epoch: 0.3455859124660492


100%|███████████████████████████████████████████████████████████████████████████| 123/123 [00:06<00:00, 19.09it/s]



accuracy: 0.40203821659088135

eval_loss_epoch: 2.5843546390533447

ema_model_accuracy: 0.15286624431610107

Starting epoch 6


100%|███████████████████████████████████████████████████████████████████████████| 296/296 [00:24<00:00, 11.94it/s]



train_loss_epoch: 0.3354220688343048


100%|███████████████████████████████████████████████████████████████████████████| 123/123 [00:06<00:00, 19.15it/s]



accuracy: 0.6229299306869507

eval_loss_epoch: 1.1654940843582153

ema_model_accuracy: 0.15159235894680023

Starting epoch 7


100%|███████████████████████████████████████████████████████████████████████████| 296/296 [00:24<00:00, 11.95it/s]



train_loss_epoch: 0.3313611149787903


100%|███████████████████████████████████████████████████████████████████████████| 123/123 [00:06<00:00, 19.05it/s]



accuracy: 0.674904465675354

eval_loss_epoch: 1.043614387512207

ema_model_accuracy: 0.22496815025806427

Starting epoch 8


100%|███████████████████████████████████████████████████████████████████████████| 296/296 [00:24<00:00, 11.94it/s]



train_loss_epoch: 0.3200397193431854


100%|███████████████████████████████████████████████████████████████████████████| 123/123 [00:06<00:00, 18.97it/s]



accuracy: 0.6420382261276245

eval_loss_epoch: 1.105533242225647

ema_model_accuracy: 0.2685350179672241

Starting epoch 9


100%|███████████████████████████████████████████████████████████████████████████| 296/296 [00:24<00:00, 11.92it/s]



train_loss_epoch: 0.3250081539154053


100%|███████████████████████████████████████████████████████████████████████████| 123/123 [00:06<00:00, 19.13it/s]



accuracy: 0.6631847023963928

eval_loss_epoch: 1.0259928703308105

ema_model_accuracy: 0.2917197346687317

Starting epoch 10


100%|███████████████████████████████████████████████████████████████████████████| 296/296 [00:24<00:00, 11.93it/s]



train_loss_epoch: 0.3119368255138397


100%|███████████████████████████████████████████████████████████████████████████| 123/123 [00:06<00:00, 19.07it/s]



accuracy: 0.6715923547744751

eval_loss_epoch: 1.049636960029602

ema_model_accuracy: 0.2807643413543701

Starting epoch 11


100%|███████████████████████████████████████████████████████████████████████████| 296/296 [00:24<00:00, 11.92it/s]



train_loss_epoch: 0.30846717953681946


100%|███████████████████████████████████████████████████████████████████████████| 123/123 [00:06<00:00, 18.97it/s]



accuracy: 0.7098089456558228

eval_loss_epoch: 0.8872039914131165

ema_model_accuracy: 0.301656037569046

Starting epoch 12


100%|███████████████████████████████████████████████████████████████████████████| 296/296 [00:24<00:00, 11.92it/s]



train_loss_epoch: 0.29983848333358765


100%|███████████████████████████████████████████████████████████████████████████| 123/123 [00:06<00:00, 19.12it/s]



accuracy: 0.6947770714759827

eval_loss_epoch: 0.9555351734161377

ema_model_accuracy: 0.342420369386673

Starting epoch 13


100%|███████████████████████████████████████████████████████████████████████████| 296/296 [00:24<00:00, 11.93it/s]



train_loss_epoch: 0.30141016840934753


100%|███████████████████████████████████████████████████████████████████████████| 123/123 [00:06<00:00, 19.05it/s]



accuracy: 0.7396178245544434

eval_loss_epoch: 0.823412299156189

ema_model_accuracy: 0.39923566579818726

Starting epoch 14


100%|███████████████████████████████████████████████████████████████████████████| 296/296 [00:24<00:00, 11.92it/s]



train_loss_epoch: 0.29322513937950134


100%|███████████████████████████████████████████████████████████████████████████| 123/123 [00:06<00:00, 19.11it/s]



accuracy: 0.684840738773346

eval_loss_epoch: 0.976523756980896

ema_model_accuracy: 0.47439491748809814

Starting epoch 15


100%|███████████████████████████████████████████████████████████████████████████| 296/296 [00:24<00:00, 11.92it/s]



train_loss_epoch: 0.2835255563259125


100%|███████████████████████████████████████████████████████████████████████████| 123/123 [00:06<00:00, 19.11it/s]



accuracy: 0.7589808702468872

eval_loss_epoch: 0.7508158683776855

ema_model_accuracy: 0.53121018409729

Starting epoch 16


100%|███████████████████████████████████████████████████████████████████████████| 296/296 [00:24<00:00, 11.94it/s]



train_loss_epoch: 0.28609979152679443


100%|███████████████████████████████████████████████████████████████████████████| 123/123 [00:06<00:00, 19.08it/s]



accuracy: 0.7503184676170349

eval_loss_epoch: 0.808853805065155

ema_model_accuracy: 0.584458589553833

Starting epoch 17


100%|███████████████████████████████████████████████████████████████████████████| 296/296 [00:24<00:00, 11.94it/s]



train_loss_epoch: 0.2781609296798706


100%|███████████████████████████████████████████████████████████████████████████| 123/123 [00:06<00:00, 19.04it/s]



accuracy: 0.7564331293106079

eval_loss_epoch: 0.7667374610900879

ema_model_accuracy: 0.6343948841094971

Starting epoch 18


100%|███████████████████████████████████████████████████████████████████████████| 296/296 [00:24<00:00, 11.92it/s]



train_loss_epoch: 0.27662163972854614


100%|███████████████████████████████████████████████████████████████████████████| 123/123 [00:06<00:00, 19.01it/s]



accuracy: 0.8096815347671509

eval_loss_epoch: 0.6058191061019897

ema_model_accuracy: 0.6723566651344299

Starting epoch 19


100%|███████████████████████████████████████████████████████████████████████████| 296/296 [00:24<00:00, 11.92it/s]



train_loss_epoch: 0.2815611958503723


100%|███████████████████████████████████████████████████████████████████████████| 123/123 [00:06<00:00, 19.09it/s]



accuracy: 0.7839490175247192

eval_loss_epoch: 0.6804972887039185

ema_model_accuracy: 0.699617862701416

Starting epoch 20


100%|███████████████████████████████████████████████████████████████████████████| 296/296 [00:24<00:00, 11.92it/s]



train_loss_epoch: 0.26997828483581543


100%|███████████████████████████████████████████████████████████████████████████| 123/123 [00:06<00:00, 19.07it/s]



accuracy: 0.7839490175247192

eval_loss_epoch: 0.7105535864830017

ema_model_accuracy: 0.7238216400146484

Starting epoch 21


100%|███████████████████████████████████████████████████████████████████████████| 296/296 [00:24<00:00, 11.92it/s]



train_loss_epoch: 0.2555110454559326


100%|███████████████████████████████████████████████████████████████████████████| 123/123 [00:06<00:00, 18.95it/s]



accuracy: 0.8112102150917053

eval_loss_epoch: 0.5934414863586426

ema_model_accuracy: 0.7396178245544434

Starting epoch 22


100%|███████████████████████████████████████████████████████████████████████████| 296/296 [00:24<00:00, 11.89it/s]



train_loss_epoch: 0.26697108149528503


100%|███████████████████████████████████████████████████████████████████████████| 123/123 [00:06<00:00, 18.92it/s]



accuracy: 0.8142675161361694

eval_loss_epoch: 0.5907924175262451

ema_model_accuracy: 0.7508280277252197

Starting epoch 23


100%|███████████████████████████████████████████████████████████████████████████| 296/296 [00:24<00:00, 11.91it/s]



train_loss_epoch: 0.26235777139663696


100%|███████████████████████████████████████████████████████████████████████████| 123/123 [00:06<00:00, 19.08it/s]



accuracy: 0.7783439755439758

eval_loss_epoch: 0.6978936195373535

ema_model_accuracy: 0.7633121013641357

Starting epoch 24


100%|███████████████████████████████████████████████████████████████████████████| 296/296 [00:24<00:00, 11.92it/s]



train_loss_epoch: 0.253771036863327


100%|███████████████████████████████████████████████████████████████████████████| 123/123 [00:06<00:00, 19.08it/s]



accuracy: 0.8379617929458618

eval_loss_epoch: 0.5230501294136047

ema_model_accuracy: 0.7712101936340332

Starting epoch 25


100%|███████████████████████████████████████████████████████████████████████████| 296/296 [00:24<00:00, 11.90it/s]



train_loss_epoch: 0.24456116557121277


100%|███████████████████████████████████████████████████████████████████████████| 123/123 [00:06<00:00, 18.97it/s]



accuracy: 0.8399999737739563

eval_loss_epoch: 0.5265788435935974

ema_model_accuracy: 0.7765604853630066

Starting epoch 26


100%|███████████████████████████████████████████████████████████████████████████| 296/296 [00:24<00:00, 11.91it/s]



train_loss_epoch: 0.24637556076049805


100%|███████████████████████████████████████████████████████████████████████████| 123/123 [00:06<00:00, 18.94it/s]



accuracy: 0.8216560482978821

eval_loss_epoch: 0.587203323841095

ema_model_accuracy: 0.7821655869483948

Starting epoch 27


100%|███████████████████████████████████████████████████████████████████████████| 296/296 [00:24<00:00, 11.92it/s]



train_loss_epoch: 0.24217934906482697


100%|███████████████████████████████████████████████████████████████████████████| 123/123 [00:06<00:00, 19.03it/s]



accuracy: 0.8537579774856567

eval_loss_epoch: 0.47789162397384644

ema_model_accuracy: 0.7943949103355408

Starting epoch 28


100%|███████████████████████████████████████████████████████████████████████████| 296/296 [00:24<00:00, 11.89it/s]



train_loss_epoch: 0.24026773869991302


100%|███████████████████████████████████████████████████████████████████████████| 123/123 [00:06<00:00, 19.03it/s]



accuracy: 0.8557961583137512

eval_loss_epoch: 0.4542619585990906

ema_model_accuracy: 0.8030573129653931

Starting epoch 29


100%|███████████████████████████████████████████████████████████████████████████| 296/296 [00:24<00:00, 11.87it/s]



train_loss_epoch: 0.22928811609745026


100%|███████████████████████████████████████████████████████████████████████████| 123/123 [00:06<00:00, 19.03it/s]



accuracy: 0.8644586205482483

eval_loss_epoch: 0.4511854946613312

ema_model_accuracy: 0.8107006549835205

Starting epoch 30


100%|███████████████████████████████████████████████████████████████████████████| 296/296 [00:24<00:00, 11.90it/s]



train_loss_epoch: 0.23595258593559265


100%|███████████████████████████████████████████████████████████████████████████| 123/123 [00:06<00:00, 19.05it/s]



accuracy: 0.8591082692146301

eval_loss_epoch: 0.4455135464668274

ema_model_accuracy: 0.8180891871452332

Starting epoch 31


100%|███████████████████████████████████████████████████████████████████████████| 296/296 [00:24<00:00, 11.91it/s]



train_loss_epoch: 0.2271619439125061


100%|███████████████████████████████████████████████████████████████████████████| 123/123 [00:06<00:00, 18.99it/s]



accuracy: 0.8728662133216858

eval_loss_epoch: 0.41346096992492676

ema_model_accuracy: 0.8226751685142517

Starting epoch 32


100%|███████████████████████████████████████████████████████████████████████████| 296/296 [00:24<00:00, 11.90it/s]



train_loss_epoch: 0.23070237040519714


100%|███████████████████████████████████████████████████████████████████████████| 123/123 [00:06<00:00, 19.03it/s]



accuracy: 0.8675159215927124

eval_loss_epoch: 0.4309409558773041

ema_model_accuracy: 0.8298088908195496

Starting epoch 33


100%|███████████████████████████████████████████████████████████████████████████| 296/296 [00:24<00:00, 11.91it/s]



train_loss_epoch: 0.2201327383518219


100%|███████████████████████████████████████████████████████████████████████████| 123/123 [00:06<00:00, 19.01it/s]



accuracy: 0.8759235739707947

eval_loss_epoch: 0.39318275451660156

ema_model_accuracy: 0.8331210017204285

Starting epoch 34


100%|███████████████████████████████████████████████████████████████████████████| 296/296 [00:24<00:00, 11.90it/s]



train_loss_epoch: 0.22676897048950195


100%|███████████████████████████████████████████████████████████████████████████| 123/123 [00:06<00:00, 19.01it/s]



accuracy: 0.8736305832862854

eval_loss_epoch: 0.39814019203186035

ema_model_accuracy: 0.8366879224777222

Starting epoch 35


100%|███████████████████████████████████████████████████████████████████████████| 296/296 [00:24<00:00, 11.91it/s]



train_loss_epoch: 0.22446221113204956


100%|███████████████████████████████████████████████████████████████████████████| 123/123 [00:06<00:00, 19.08it/s]



accuracy: 0.881019115447998

eval_loss_epoch: 0.3903728425502777

ema_model_accuracy: 0.8410190939903259

Starting epoch 36


100%|███████████████████████████████████████████████████████████████████████████| 296/296 [00:24<00:00, 11.91it/s]



train_loss_epoch: 0.2260984629392624


100%|███████████████████████████████████████████████████████████████████████████| 123/123 [00:06<00:00, 19.06it/s]



accuracy: 0.8728662133216858

eval_loss_epoch: 0.4023045599460602

ema_model_accuracy: 0.8440764546394348

Starting epoch 37


 40%|██████████████████████████████▏                                            | 119/296 [00:10<00:14, 12.10it/s]

KeyboardInterrupt: 