In [1]:
import common

import os
import time
import random

import timm
import torch
import albumentations as A
import pandas as pd
import numpy as np
import torch.nn as nn
from albumentations.pytorch import ToTensorV2
from torch.optim import Adam
from torchvision import transforms
from torch.utils.data import Dataset, DataLoader
from PIL import Image
from tqdm import tqdm
from sklearn.metrics import accuracy_score, f1_score
from sklearn.model_selection import train_test_split

from dotenv import load_dotenv
from datetime import datetime
from zoneinfo import ZoneInfo
import wandb

In [2]:
common.wandb_login_init('SKF_densenet169.tv_in1k')

Failed to detect the name of this notebook, you can set it manually with the WANDB_NOTEBOOK_NAME environment variable to enable code saving.
[34m[1mwandb[0m: Currently logged in as: [33mkerneld82[0m ([33mkerneld[0m). Use [1m`wandb login --relogin`[0m to force relogin
[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /data/ephemeral/home/.netrc


train_time = SKF_densenet169.tv_in1k


In [3]:
# device
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

# data config
data_path = 'datasets_fin/'

# model config
model_name = 'densenet169.tv_in1k' # 'resnet50' 'efficientnet-b0', ...

# training config
trn_img_size = 224
tst_img_size = 224
LR = 1e-3
EPOCHS = 20
FOLDS = 2
BATCH_SIZE = 32
num_workers = 12
augment_ratio = 200

wandb.config.update({
    "learning_rate": LR,
    "architecture": model_name,
    "dataset": "custom-dataset",
    "epochs": EPOCHS,
    "folds": FOLDS,
    "batch_size": BATCH_SIZE,
    "train_image_size": trn_img_size,
    "test_image_size": tst_img_size,
    "num_workers": num_workers,
    'augment_ratio' : augment_ratio,
})

In [4]:
# 시드를 고정합니다.
SEED = 42

common.set_seed(SEED)

In [5]:
device

device(type='cuda')

### Load Data
* 학습, 테스트 데이터셋과 로더를 정의합니다.

In [6]:
# 학습과 검증에 사용할 폴드별 csv 파일들을 먼저 만들기.
# 나중에 이어서 학습하고 싶을때 사용하기 위해서.
common.generate_fold_train_valid_csv_files(SEED, FOLDS)

Fold 1/2, train_idx: <class 'numpy.ndarray'> 867, <class 'numpy.ndarray'> 867
Fold 2/2, train_idx: <class 'numpy.ndarray'> 867, <class 'numpy.ndarray'> 867


In [7]:
for fold in range(FOLDS):
    fold += 1
    print(f"Fold {fold}/{FOLDS}")
    
    supplies = common.get_supplies_for_train_and_valid_with_fold(seed =SEED, 
                                                                 model_name = model_name, 
                                                                 lr = LR,
                                                                 batch_size = BATCH_SIZE, 
                                                                 num_workers = num_workers, 
                                                                 fold = fold, 
                                                                 folds = FOLDS, 
                                                                 augment_ratio = augment_ratio, 
                                                                 trn_img_size = trn_img_size, 
                                                                 tst_img_size = tst_img_size, 
                                                                 device = device)
    
    common.train_with_start_end_epoch(seed = SEED, 
                                      tst_img_size = tst_img_size,
                                      batch_size = BATCH_SIZE,
                                      start_epoch_inclusive = 1, 
                                      end_epoch_exclusive = EPOCHS + 1, 
                                      augment_ratio = augment_ratio,
                                      trn_loader = supplies['trn_loader'], 
                                      val_loader = supplies['val_loader'], 
                                      model = supplies['model'], 
                                      model_name = model_name, 
                                      optimizer = supplies['optimizer'], 
                                      loss_fn = supplies['loss_fn'], 
                                      device = device, 
                                      is_save_model_checkpoint = True, 
                                      is_evaluate_train_valid = True,
                                      fold = fold,
                                      folds = FOLDS)
    

Fold 1/2


model.safetensors:   0%|          | 0.00/57.4M [00:00<?, ?B/s]


epoch: 1
다음 epoch 학습을 중단 예약하고 싶으면, 빈 BREAK 파일을 생성하세요.


Loss: 0.0629: 100%|██████████| 5419/5419 [09:21<00:00,  9.65it/s]


train_loss: 0.2241
train_acc: 0.9210
train_f1: 0.9210



Evaluating: 100%|██████████| 28/28 [00:04<00:00,  5.82it/s]



final_valid_loss: 0.31329002758398666
final_valid_accuracy: 0.9307958477508651
final_valid_f1: 0.9288146776090586
valid's error preds count: 60/867, {13: 2, 7: 19, 3: 24, 14: 10, 11: 1, 4: 2, 6: 1, 12: 1}
Model checkpoint saved. filename: cp-densenet169.tv_in1k_sd_42_epc_1_aug_200_vl_0.3133_va_0.9308_vf1_0.9288_fold_1_folds_2.pt
5초 동안 잠시 sleep 합니다. 다음 epoch 학습을 중단 예약하고 싶으면, 빈 BREAK 파일을 생성하세요.
BREAK 파일이 있는지 확인합니다.

epoch: 2
다음 epoch 학습을 중단 예약하고 싶으면, 빈 BREAK 파일을 생성하세요.


Loss: 0.0002: 100%|██████████| 5419/5419 [09:22<00:00,  9.63it/s]


train_loss: 0.0729
train_acc: 0.9756
train_f1: 0.9757



Evaluating: 100%|██████████| 28/28 [00:04<00:00,  6.91it/s]



final_valid_loss: 0.37792224111451234
final_valid_accuracy: 0.9423298731257209
final_valid_f1: 0.941243932954193
valid's error preds count: 50/867, {13: 4, 7: 16, 3: 17, 14: 4, 4: 5, 11: 2, 12: 2}
Model checkpoint saved. filename: cp-densenet169.tv_in1k_sd_42_epc_2_aug_200_vl_0.3779_va_0.9423_vf1_0.9412_fold_1_folds_2.pt
5초 동안 잠시 sleep 합니다. 다음 epoch 학습을 중단 예약하고 싶으면, 빈 BREAK 파일을 생성하세요.
BREAK 파일이 있는지 확인합니다.

epoch: 3
다음 epoch 학습을 중단 예약하고 싶으면, 빈 BREAK 파일을 생성하세요.


Loss: 0.0079: 100%|██████████| 5419/5419 [09:23<00:00,  9.62it/s]


train_loss: 0.0463
train_acc: 0.9841
train_f1: 0.9842



Evaluating: 100%|██████████| 28/28 [00:04<00:00,  6.76it/s]



final_valid_loss: 0.32443738801963
final_valid_accuracy: 0.9307958477508651
final_valid_f1: 0.9303793348322088
valid's error preds count: 60/867, {13: 5, 7: 21, 4: 8, 3: 16, 11: 1, 14: 6, 12: 2, 6: 1}
Model checkpoint saved. filename: cp-densenet169.tv_in1k_sd_42_epc_3_aug_200_vl_0.3244_va_0.9308_vf1_0.9304_fold_1_folds_2.pt
5초 동안 잠시 sleep 합니다. 다음 epoch 학습을 중단 예약하고 싶으면, 빈 BREAK 파일을 생성하세요.
BREAK 파일이 있는지 확인합니다.

epoch: 4
다음 epoch 학습을 중단 예약하고 싶으면, 빈 BREAK 파일을 생성하세요.


Loss: 0.0000: 100%|██████████| 5419/5419 [09:22<00:00,  9.63it/s]


train_loss: 0.0338
train_acc: 0.9889
train_f1: 0.9889



Evaluating: 100%|██████████| 28/28 [00:04<00:00,  6.90it/s]



final_valid_loss: 0.43618577196526637
final_valid_accuracy: 0.9342560553633218
final_valid_f1: 0.9333659756887511
valid's error preds count: 57/867, {13: 5, 7: 18, 3: 20, 14: 8, 4: 3, 11: 1, 12: 1, 2: 1}
Model checkpoint saved. filename: cp-densenet169.tv_in1k_sd_42_epc_4_aug_200_vl_0.4362_va_0.9343_vf1_0.9334_fold_1_folds_2.pt
5초 동안 잠시 sleep 합니다. 다음 epoch 학습을 중단 예약하고 싶으면, 빈 BREAK 파일을 생성하세요.
BREAK 파일이 있는지 확인합니다.

epoch: 5
다음 epoch 학습을 중단 예약하고 싶으면, 빈 BREAK 파일을 생성하세요.


Loss: 0.0001: 100%|██████████| 5419/5419 [09:31<00:00,  9.48it/s]


train_loss: 0.0268
train_acc: 0.9910
train_f1: 0.9910



Evaluating: 100%|██████████| 28/28 [00:04<00:00,  6.71it/s]



final_valid_loss: 0.5851730591675732
final_valid_accuracy: 0.9331026528258363
final_valid_f1: 0.9299286692337079
valid's error preds count: 58/867, {13: 5, 7: 26, 3: 13, 14: 8, 11: 1, 12: 2, 6: 1, 5: 1, 4: 1}
Model checkpoint saved. filename: cp-densenet169.tv_in1k_sd_42_epc_5_aug_200_vl_0.5852_va_0.9331_vf1_0.9299_fold_1_folds_2.pt
5초 동안 잠시 sleep 합니다. 다음 epoch 학습을 중단 예약하고 싶으면, 빈 BREAK 파일을 생성하세요.
BREAK 파일이 있는지 확인합니다.

epoch: 6
다음 epoch 학습을 중단 예약하고 싶으면, 빈 BREAK 파일을 생성하세요.


Loss: 0.0001: 100%|██████████| 5419/5419 [09:26<00:00,  9.57it/s]


train_loss: 0.0216
train_acc: 0.9926
train_f1: 0.9926



Evaluating: 100%|██████████| 28/28 [00:04<00:00,  6.74it/s]



final_valid_loss: 0.6157491119312375
final_valid_accuracy: 0.9284890426758939
final_valid_f1: 0.9256475553808672
valid's error preds count: 62/867, {13: 5, 7: 25, 3: 16, 14: 8, 11: 3, 6: 1, 12: 1, 1: 1, 15: 1, 4: 1}
Model checkpoint saved. filename: cp-densenet169.tv_in1k_sd_42_epc_6_aug_200_vl_0.6157_va_0.9285_vf1_0.9256_fold_1_folds_2.pt
5초 동안 잠시 sleep 합니다. 다음 epoch 학습을 중단 예약하고 싶으면, 빈 BREAK 파일을 생성하세요.
BREAK 파일이 있는지 확인합니다.

epoch: 7
다음 epoch 학습을 중단 예약하고 싶으면, 빈 BREAK 파일을 생성하세요.


Loss: 0.0000: 100%|██████████| 5419/5419 [09:24<00:00,  9.59it/s]


train_loss: 0.0201
train_acc: 0.9935
train_f1: 0.9935



Evaluating: 100%|██████████| 28/28 [00:04<00:00,  6.88it/s]



final_valid_loss: 0.6078194386183294
final_valid_accuracy: 0.9342560553633218
final_valid_f1: 0.9328153341229078
valid's error preds count: 57/867, {13: 4, 7: 15, 3: 19, 14: 12, 11: 2, 4: 3, 12: 1, 15: 1}
Model checkpoint saved. filename: cp-densenet169.tv_in1k_sd_42_epc_7_aug_200_vl_0.6078_va_0.9343_vf1_0.9328_fold_1_folds_2.pt
5초 동안 잠시 sleep 합니다. 다음 epoch 학습을 중단 예약하고 싶으면, 빈 BREAK 파일을 생성하세요.
BREAK 파일이 있는지 확인합니다.
BREAK 파일이 존재합니다. 학습을 중단합니다.
Fold 2/2

epoch: 1
다음 epoch 학습을 중단 예약하고 싶으면, 빈 BREAK 파일을 생성하세요.


Loss: 0.0800: 100%|██████████| 5419/5419 [09:27<00:00,  9.55it/s]


train_loss: 0.2330
train_acc: 0.9182
train_f1: 0.9176



Evaluating: 100%|██████████| 28/28 [00:04<00:00,  6.81it/s]



final_valid_loss: 0.4481894893629682
final_valid_accuracy: 0.903114186851211
final_valid_f1: 0.9070888340628805
valid's error preds count: 84/867, {7: 10, 3: 32, 4: 14, 6: 2, 14: 18, 11: 2, 16: 1, 12: 1, 13: 1, 0: 2, 10: 1}
Model checkpoint saved. filename: cp-densenet169.tv_in1k_sd_42_epc_1_aug_200_vl_0.4482_va_0.9031_vf1_0.9071_fold_2_folds_2.pt
5초 동안 잠시 sleep 합니다. 다음 epoch 학습을 중단 예약하고 싶으면, 빈 BREAK 파일을 생성하세요.
BREAK 파일이 있는지 확인합니다.

epoch: 2
다음 epoch 학습을 중단 예약하고 싶으면, 빈 BREAK 파일을 생성하세요.


Loss: 0.0313: 100%|██████████| 5419/5419 [09:28<00:00,  9.54it/s]


train_loss: 0.0760
train_acc: 0.9746
train_f1: 0.9745



Evaluating: 100%|██████████| 28/28 [00:04<00:00,  6.92it/s]



final_valid_loss: 0.3870307690369503
final_valid_accuracy: 0.9319492502883506
final_valid_f1: 0.9303656102623875
valid's error preds count: 59/867, {10: 2, 7: 9, 3: 34, 11: 2, 14: 4, 4: 4, 12: 1, 13: 1, 0: 2}
Model checkpoint saved. filename: cp-densenet169.tv_in1k_sd_42_epc_2_aug_200_vl_0.3870_va_0.9319_vf1_0.9304_fold_2_folds_2.pt
5초 동안 잠시 sleep 합니다. 다음 epoch 학습을 중단 예약하고 싶으면, 빈 BREAK 파일을 생성하세요.
BREAK 파일이 있는지 확인합니다.

epoch: 3
다음 epoch 학습을 중단 예약하고 싶으면, 빈 BREAK 파일을 생성하세요.


Loss: 0.0118: 100%|██████████| 5419/5419 [09:28<00:00,  9.53it/s]


train_loss: 0.0470
train_acc: 0.9842
train_f1: 0.9841



Evaluating: 100%|██████████| 28/28 [00:04<00:00,  6.74it/s]



final_valid_loss: 0.4528095752993977
final_valid_accuracy: 0.9250288350634371
final_valid_f1: 0.9230681150867417
valid's error preds count: 65/867, {7: 35, 3: 13, 11: 3, 14: 8, 4: 3, 12: 1, 10: 1, 0: 1}
Model checkpoint saved. filename: cp-densenet169.tv_in1k_sd_42_epc_3_aug_200_vl_0.4528_va_0.9250_vf1_0.9231_fold_2_folds_2.pt
5초 동안 잠시 sleep 합니다. 다음 epoch 학습을 중단 예약하고 싶으면, 빈 BREAK 파일을 생성하세요.
BREAK 파일이 있는지 확인합니다.

epoch: 4
다음 epoch 학습을 중단 예약하고 싶으면, 빈 BREAK 파일을 생성하세요.


Loss: 0.1006: 100%|██████████| 5419/5419 [09:27<00:00,  9.55it/s]


train_loss: 0.0350
train_acc: 0.9885
train_f1: 0.9885



Evaluating: 100%|██████████| 28/28 [00:04<00:00,  6.97it/s]



final_valid_loss: 0.521478388725557
final_valid_accuracy: 0.922722029988466
final_valid_f1: 0.921471946492569
valid's error preds count: 67/867, {7: 14, 3: 30, 11: 3, 16: 3, 14: 10, 4: 5, 10: 1, 0: 1}
Model checkpoint saved. filename: cp-densenet169.tv_in1k_sd_42_epc_4_aug_200_vl_0.5215_va_0.9227_vf1_0.9215_fold_2_folds_2.pt
5초 동안 잠시 sleep 합니다. 다음 epoch 학습을 중단 예약하고 싶으면, 빈 BREAK 파일을 생성하세요.
BREAK 파일이 있는지 확인합니다.

epoch: 5
다음 epoch 학습을 중단 예약하고 싶으면, 빈 BREAK 파일을 생성하세요.


Loss: 0.0016: 100%|██████████| 5419/5419 [09:27<00:00,  9.56it/s]


train_loss: 0.0262
train_acc: 0.9914
train_f1: 0.9914



Evaluating: 100%|██████████| 28/28 [00:04<00:00,  6.93it/s]



final_valid_loss: 0.5351564044202382
final_valid_accuracy: 0.9250288350634371
final_valid_f1: 0.9267054219826136
valid's error preds count: 65/867, {7: 26, 3: 12, 4: 11, 11: 4, 14: 10, 10: 1, 13: 1}
Model checkpoint saved. filename: cp-densenet169.tv_in1k_sd_42_epc_5_aug_200_vl_0.5352_va_0.9250_vf1_0.9267_fold_2_folds_2.pt
5초 동안 잠시 sleep 합니다. 다음 epoch 학습을 중단 예약하고 싶으면, 빈 BREAK 파일을 생성하세요.
BREAK 파일이 있는지 확인합니다.

epoch: 6
다음 epoch 학습을 중단 예약하고 싶으면, 빈 BREAK 파일을 생성하세요.


Loss: 0.0074: 100%|██████████| 5419/5419 [09:33<00:00,  9.45it/s]


train_loss: 0.0231
train_acc: 0.9924
train_f1: 0.9924



Evaluating: 100%|██████████| 28/28 [00:04<00:00,  6.85it/s]



final_valid_loss: 0.5206608308777325
final_valid_accuracy: 0.9377162629757786
final_valid_f1: 0.9363896341911718
valid's error preds count: 54/867, {7: 30, 3: 11, 11: 1, 14: 8, 4: 2, 13: 1, 10: 1}
Model checkpoint saved. filename: cp-densenet169.tv_in1k_sd_42_epc_6_aug_200_vl_0.5207_va_0.9377_vf1_0.9364_fold_2_folds_2.pt
5초 동안 잠시 sleep 합니다. 다음 epoch 학습을 중단 예약하고 싶으면, 빈 BREAK 파일을 생성하세요.
BREAK 파일이 있는지 확인합니다.

epoch: 7
다음 epoch 학습을 중단 예약하고 싶으면, 빈 BREAK 파일을 생성하세요.


Loss: 0.0004: 100%|██████████| 5419/5419 [09:26<00:00,  9.56it/s]


train_loss: 0.0195
train_acc: 0.9937
train_f1: 0.9936



Evaluating: 100%|██████████| 28/28 [00:04<00:00,  6.75it/s]



final_valid_loss: 0.5566798395261036
final_valid_accuracy: 0.9238754325259516
final_valid_f1: 0.923020475714169
valid's error preds count: 66/867, {7: 31, 3: 12, 11: 3, 13: 3, 14: 14, 4: 1, 0: 1, 10: 1}
Model checkpoint saved. filename: cp-densenet169.tv_in1k_sd_42_epc_7_aug_200_vl_0.5567_va_0.9239_vf1_0.9230_fold_2_folds_2.pt
5초 동안 잠시 sleep 합니다. 다음 epoch 학습을 중단 예약하고 싶으면, 빈 BREAK 파일을 생성하세요.
BREAK 파일이 있는지 확인합니다.

epoch: 8
다음 epoch 학습을 중단 예약하고 싶으면, 빈 BREAK 파일을 생성하세요.


Loss: 0.0000: 100%|██████████| 5419/5419 [09:25<00:00,  9.59it/s]


train_loss: 0.0161
train_acc: 0.9946
train_f1: 0.9946



Evaluating: 100%|██████████| 28/28 [00:04<00:00,  6.73it/s]



final_valid_loss: 0.702215315641037
final_valid_accuracy: 0.9284890426758939
final_valid_f1: 0.9281185070205868
valid's error preds count: 62/867, {7: 27, 3: 15, 11: 3, 14: 12, 4: 2, 13: 1, 10: 1, 0: 1}
Model checkpoint saved. filename: cp-densenet169.tv_in1k_sd_42_epc_8_aug_200_vl_0.7022_va_0.9285_vf1_0.9281_fold_2_folds_2.pt
5초 동안 잠시 sleep 합니다. 다음 epoch 학습을 중단 예약하고 싶으면, 빈 BREAK 파일을 생성하세요.
BREAK 파일이 있는지 확인합니다.
BREAK 파일이 존재합니다. 학습을 중단합니다.


In [8]:
# wandb 실행 종료
wandb.finish()

VBox(children=(Label(value='0.006 MB of 0.006 MB uploaded\r'), FloatProgress(value=1.0, max=1.0)))

0,1
final_valid_accuracy,▆█▆▇▆▆▇▁▆▅▅▅▇▅▆
final_valid_f1,▅█▆▆▆▅▆▁▆▄▄▅▇▄▅
final_valid_loss,▁▂▁▃▆▆▆▃▂▄▅▅▅▅█
train_acc,▁▆▇▇███▁▆▇▇████
train_f1,▁▆▇▇███▁▆▇▇████
train_loss,█▃▂▂▁▁▁█▃▂▂▁▁▁▁

0,1
final_valid_accuracy,0.92849
final_valid_f1,0.92812
final_valid_loss,0.70222
train_acc,0.99462
train_f1,0.9946
train_loss,0.01614


In [9]:
import sys
sys.exit('아래 셀은 수동으로 실행하기 위해서 여기서 실행 멈춤.')

SystemExit: 아래 셀은 수동으로 실행하기 위해서 여기서 실행 멈춤.

  warn("To exit: use 'exit', 'quit', or Ctrl-D.", stacklevel=1)


# 수동으로 특정 체크포인트부터 이어서 학습하기 위한 부분


In [None]:
# checkpoint = common.load_model_checkpoint("checkpoint-resnet34_seed_42_epoch_0_isFull_False.pt", model, optimizer, device)

In [None]:
# next_epoch = checkpoint['epoch'] + 1

# common.train_with_start_end_epoch(seed = checkpoint['seed'],
#                            tst_img_size = checkpoint['tst_img_size'],
#                            batch_size = checkpoint['batch_size'],
#                            start_epoch_inclusive = next_epoch, 
#                            end_epoch_exclusive = next_epoch + 2, 
#                            augment_ratio = augment_ratio,
#                            trn_loader = trn_loader,
#                            val_loader = val_loader,
#                            model = model,
#                            model_name = model_name,
#                            optimizer = optimizer,
#                            loss_fn = loss_fn,
#                            device = device,
#                            is_save_model_checkpoint = True,
#                            is_evaluate_train_valid = True)