In [1]:
import common

import os
import time
import random

import timm
import torch
import albumentations as A
import pandas as pd
import numpy as np
import torch.nn as nn
from albumentations.pytorch import ToTensorV2
from torch.optim import Adam
from torchvision import transforms
from torch.utils.data import Dataset, DataLoader
from PIL import Image
from tqdm import tqdm
from sklearn.metrics import accuracy_score, f1_score
from sklearn.model_selection import train_test_split

from dotenv import load_dotenv
from datetime import datetime
from zoneinfo import ZoneInfo
import wandb

In [2]:
common.wandb_login_init('SKF_densenet121.ra_in1k')

Failed to detect the name of this notebook, you can set it manually with the WANDB_NOTEBOOK_NAME environment variable to enable code saving.
[34m[1mwandb[0m: Currently logged in as: [33mkerneld82[0m ([33mkerneld[0m). Use [1m`wandb login --relogin`[0m to force relogin
[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /data/ephemeral/home/.netrc
[34m[1mwandb[0m: W&B API key is configured. Use [1m`wandb login --relogin`[0m to force relogin


train_time = SKF_densenet121.ra_in1k


In [3]:
# device
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

# data config
data_path = 'datasets_fin/'

# model config
model_name = 'densenet121.ra_in1k' # 'resnet50' 'efficientnet-b0', ...

# training config
trn_img_size = 224
tst_img_size = 288
LR = 1e-3
EPOCHS = 20
FOLDS = 2
BATCH_SIZE = 32
num_workers = 12
augment_ratio = 200

wandb.config.update({
    "learning_rate": LR,
    "architecture": model_name,
    "dataset": "custom-dataset",
    "epochs": EPOCHS,
    "folds": FOLDS,
    "batch_size": BATCH_SIZE,
    "train_image_size": trn_img_size,
    "test_image_size": tst_img_size,
    "num_workers": num_workers,
    'augment_ratio' : augment_ratio,
})

In [4]:
# 시드를 고정합니다.
SEED = 42

common.set_seed(SEED)

In [5]:
device

device(type='cuda')

### Load Data
* 학습, 테스트 데이터셋과 로더를 정의합니다.

In [6]:
# 학습과 검증에 사용할 폴드별 csv 파일들을 먼저 만들기.
# 나중에 이어서 학습하고 싶을때 사용하기 위해서.
common.generate_fold_train_valid_csv_files(SEED, FOLDS)

Fold 1/2, train_idx: <class 'numpy.ndarray'> 867, <class 'numpy.ndarray'> 867
Fold 2/2, train_idx: <class 'numpy.ndarray'> 867, <class 'numpy.ndarray'> 867


In [7]:
for fold in range(FOLDS):
    fold += 1
    print(f"Fold {fold}/{FOLDS}")
    
    supplies = common.get_supplies_for_train_and_valid_with_fold(seed =SEED, 
                                                                 model_name = model_name, 
                                                                 lr = LR,
                                                                 batch_size = BATCH_SIZE, 
                                                                 num_workers = num_workers, 
                                                                 fold = fold, 
                                                                 folds = FOLDS, 
                                                                 augment_ratio = augment_ratio, 
                                                                 trn_img_size = trn_img_size, 
                                                                 tst_img_size = tst_img_size, 
                                                                 device = device)
    
    common.train_with_start_end_epoch(seed = SEED, 
                                      tst_img_size = tst_img_size,
                                      batch_size = BATCH_SIZE,
                                      start_epoch_inclusive = 1, 
                                      end_epoch_exclusive = EPOCHS + 1, 
                                      augment_ratio = augment_ratio,
                                      trn_loader = supplies['trn_loader'], 
                                      val_loader = supplies['val_loader'], 
                                      model = supplies['model'], 
                                      model_name = model_name, 
                                      optimizer = supplies['optimizer'], 
                                      loss_fn = supplies['loss_fn'], 
                                      device = device, 
                                      is_save_model_checkpoint = True, 
                                      is_evaluate_train_valid = True,
                                      fold = fold,
                                      folds = FOLDS)
    

Fold 1/2

epoch: 1
다음 epoch 학습을 중단 예약하고 싶으면, 빈 BREAK 파일을 생성하세요.


Loss: 0.0132: 100%|██████████| 5419/5419 [07:55<00:00, 11.39it/s]


train_loss: 0.1832
train_acc: 0.9368
train_f1: 0.9369



Evaluating: 100%|██████████| 28/28 [00:05<00:00,  4.87it/s]



final_valid_loss: 0.3414192717256291
final_valid_accuracy: 0.9158016147635525
final_valid_f1: 0.9147159673711445
valid's error preds count: 73/867, {7: 15, 4: 11, 11: 3, 3: 28, 12: 2, 14: 9, 5: 1, 10: 1, 15: 2, 2: 1}
Model checkpoint saved. filename: cp-densenet121.ra_in1k_sd_42_epc_1_aug_200_vl_0.3414_va_0.9158_vf1_0.9147_fold_1_folds_2.pt
5초 동안 잠시 sleep 합니다. 다음 epoch 학습을 중단 예약하고 싶으면, 빈 BREAK 파일을 생성하세요.
BREAK 파일이 있는지 확인합니다.

epoch: 2
다음 epoch 학습을 중단 예약하고 싶으면, 빈 BREAK 파일을 생성하세요.


Loss: 0.0005: 100%|██████████| 5419/5419 [07:49<00:00, 11.54it/s]


train_loss: 0.0552
train_acc: 0.9812
train_f1: 0.9813



Evaluating: 100%|██████████| 28/28 [00:04<00:00,  6.27it/s]



final_valid_loss: 0.3113760010538889
final_valid_accuracy: 0.9192618223760092
final_valid_f1: 0.919170882514981
valid's error preds count: 70/867, {13: 4, 7: 19, 12: 4, 3: 20, 5: 3, 14: 9, 4: 8, 11: 1, 15: 2}
Model checkpoint saved. filename: cp-densenet121.ra_in1k_sd_42_epc_2_aug_200_vl_0.3114_va_0.9193_vf1_0.9192_fold_1_folds_2.pt
5초 동안 잠시 sleep 합니다. 다음 epoch 학습을 중단 예약하고 싶으면, 빈 BREAK 파일을 생성하세요.
BREAK 파일이 있는지 확인합니다.

epoch: 3
다음 epoch 학습을 중단 예약하고 싶으면, 빈 BREAK 파일을 생성하세요.


Loss: 0.0001: 100%|██████████| 5419/5419 [07:52<00:00, 11.48it/s]


train_loss: 0.0326
train_acc: 0.9892
train_f1: 0.9893



Evaluating: 100%|██████████| 28/28 [00:04<00:00,  6.17it/s]



final_valid_loss: 0.45356841795312774
final_valid_accuracy: 0.9146482122260668
final_valid_f1: 0.9121293737781772
valid's error preds count: 74/867, {3: 33, 1: 2, 7: 14, 14: 19, 5: 3, 11: 1, 6: 1, 12: 1}
Model checkpoint saved. filename: cp-densenet121.ra_in1k_sd_42_epc_3_aug_200_vl_0.4536_va_0.9146_vf1_0.9121_fold_1_folds_2.pt
5초 동안 잠시 sleep 합니다. 다음 epoch 학습을 중단 예약하고 싶으면, 빈 BREAK 파일을 생성하세요.
BREAK 파일이 있는지 확인합니다.

epoch: 4
다음 epoch 학습을 중단 예약하고 싶으면, 빈 BREAK 파일을 생성하세요.


Loss: 0.0004: 100%|██████████| 5419/5419 [08:22<00:00, 10.79it/s]


train_loss: 0.0232
train_acc: 0.9921
train_f1: 0.9922



Evaluating: 100%|██████████| 28/28 [00:04<00:00,  6.21it/s]



final_valid_loss: 0.45894527643603006
final_valid_accuracy: 0.9204152249134948
final_valid_f1: 0.9195048185380168
valid's error preds count: 69/867, {3: 24, 7: 16, 11: 4, 14: 13, 4: 6, 5: 3, 6: 1, 12: 1, 15: 1}
Model checkpoint saved. filename: cp-densenet121.ra_in1k_sd_42_epc_4_aug_200_vl_0.4589_va_0.9204_vf1_0.9195_fold_1_folds_2.pt
5초 동안 잠시 sleep 합니다. 다음 epoch 학습을 중단 예약하고 싶으면, 빈 BREAK 파일을 생성하세요.
BREAK 파일이 있는지 확인합니다.

epoch: 5
다음 epoch 학습을 중단 예약하고 싶으면, 빈 BREAK 파일을 생성하세요.


Loss: 0.0000: 100%|██████████| 5419/5419 [08:15<00:00, 10.94it/s]


train_loss: 0.0185
train_acc: 0.9940
train_f1: 0.9941



Evaluating: 100%|██████████| 28/28 [00:04<00:00,  6.09it/s]



final_valid_loss: 0.6567321528148439
final_valid_accuracy: 0.895040369088812
final_valid_f1: 0.8920208164679779
valid's error preds count: 91/867, {5: 19, 3: 30, 7: 16, 12: 5, 14: 11, 4: 6, 13: 1, 8: 1, 11: 2}
Model checkpoint saved. filename: cp-densenet121.ra_in1k_sd_42_epc_5_aug_200_vl_0.6567_va_0.8950_vf1_0.8920_fold_1_folds_2.pt
5초 동안 잠시 sleep 합니다. 다음 epoch 학습을 중단 예약하고 싶으면, 빈 BREAK 파일을 생성하세요.
BREAK 파일이 있는지 확인합니다.

epoch: 6
다음 epoch 학습을 중단 예약하고 싶으면, 빈 BREAK 파일을 생성하세요.


Loss: 0.0001: 100%|██████████| 5419/5419 [08:09<00:00, 11.06it/s]


train_loss: 0.0146
train_acc: 0.9952
train_f1: 0.9953



Evaluating: 100%|██████████| 28/28 [00:04<00:00,  6.29it/s]



final_valid_loss: 0.6448522488520082
final_valid_accuracy: 0.8915801614763552
final_valid_f1: 0.8891841927479366
valid's error preds count: 94/867, {5: 20, 13: 3, 3: 28, 7: 17, 11: 4, 12: 3, 4: 10, 14: 6, 9: 2, 15: 1}
Model checkpoint saved. filename: cp-densenet121.ra_in1k_sd_42_epc_6_aug_200_vl_0.6449_va_0.8916_vf1_0.8892_fold_1_folds_2.pt
5초 동안 잠시 sleep 합니다. 다음 epoch 학습을 중단 예약하고 싶으면, 빈 BREAK 파일을 생성하세요.
BREAK 파일이 있는지 확인합니다.
BREAK 파일이 존재합니다. 학습을 중단합니다.
Fold 2/2

epoch: 1
다음 epoch 학습을 중단 예약하고 싶으면, 빈 BREAK 파일을 생성하세요.


Loss: 0.1757: 100%|██████████| 5419/5419 [07:58<00:00, 11.32it/s]


train_loss: 0.1874
train_acc: 0.9363
train_f1: 0.9359



Evaluating: 100%|██████████| 28/28 [00:04<00:00,  6.28it/s]



final_valid_loss: 0.3596715792747481
final_valid_accuracy: 0.8938869665513264
final_valid_f1: 0.8986571771380856
valid's error preds count: 92/867, {7: 14, 10: 6, 3: 24, 4: 12, 14: 20, 9: 4, 16: 1, 12: 4, 15: 4, 11: 2, 13: 1}
Model checkpoint saved. filename: cp-densenet121.ra_in1k_sd_42_epc_1_aug_200_vl_0.3597_va_0.8939_vf1_0.8987_fold_2_folds_2.pt
5초 동안 잠시 sleep 합니다. 다음 epoch 학습을 중단 예약하고 싶으면, 빈 BREAK 파일을 생성하세요.
BREAK 파일이 있는지 확인합니다.

epoch: 2
다음 epoch 학습을 중단 예약하고 싶으면, 빈 BREAK 파일을 생성하세요.


Loss: 0.0529: 100%|██████████| 5419/5419 [07:52<00:00, 11.46it/s]


train_loss: 0.0535
train_acc: 0.9819
train_f1: 0.9819



Evaluating: 100%|██████████| 28/28 [00:04<00:00,  6.18it/s]



final_valid_loss: 0.46458536374224685
final_valid_accuracy: 0.8754325259515571
final_valid_f1: 0.8715663362256999
valid's error preds count: 108/867, {15: 12, 7: 38, 10: 3, 9: 15, 3: 11, 11: 2, 12: 5, 4: 8, 14: 8, 8: 2, 6: 2, 13: 1, 1: 1}
Model checkpoint saved. filename: cp-densenet121.ra_in1k_sd_42_epc_2_aug_200_vl_0.4646_va_0.8754_vf1_0.8716_fold_2_folds_2.pt
5초 동안 잠시 sleep 합니다. 다음 epoch 학습을 중단 예약하고 싶으면, 빈 BREAK 파일을 생성하세요.
BREAK 파일이 있는지 확인합니다.

epoch: 3
다음 epoch 학습을 중단 예약하고 싶으면, 빈 BREAK 파일을 생성하세요.


Loss: 0.0005: 100%|██████████| 5419/5419 [07:57<00:00, 11.35it/s]


train_loss: 0.0331
train_acc: 0.9886
train_f1: 0.9886



Evaluating: 100%|██████████| 28/28 [00:04<00:00,  6.22it/s]



final_valid_loss: 0.5112245245171445
final_valid_accuracy: 0.8938869665513264
final_valid_f1: 0.8987466568323306
valid's error preds count: 92/867, {7: 25, 4: 16, 3: 20, 14: 21, 11: 3, 9: 2, 12: 4, 10: 1}
Model checkpoint saved. filename: cp-densenet121.ra_in1k_sd_42_epc_3_aug_200_vl_0.5112_va_0.8939_vf1_0.8987_fold_2_folds_2.pt
5초 동안 잠시 sleep 합니다. 다음 epoch 학습을 중단 예약하고 싶으면, 빈 BREAK 파일을 생성하세요.
BREAK 파일이 있는지 확인합니다.

epoch: 4
다음 epoch 학습을 중단 예약하고 싶으면, 빈 BREAK 파일을 생성하세요.


Loss: 0.0010: 100%|██████████| 5419/5419 [07:57<00:00, 11.35it/s]


train_loss: 0.0225
train_acc: 0.9923
train_f1: 0.9923



Evaluating: 100%|██████████| 28/28 [00:04<00:00,  6.19it/s]



final_valid_loss: 0.4932570992968489
final_valid_accuracy: 0.9261822376009228
final_valid_f1: 0.921333093445377
valid's error preds count: 64/867, {7: 35, 3: 12, 9: 2, 14: 4, 4: 6, 12: 2, 6: 1, 10: 1, 1: 1}
Model checkpoint saved. filename: cp-densenet121.ra_in1k_sd_42_epc_4_aug_200_vl_0.4933_va_0.9262_vf1_0.9213_fold_2_folds_2.pt
5초 동안 잠시 sleep 합니다. 다음 epoch 학습을 중단 예약하고 싶으면, 빈 BREAK 파일을 생성하세요.
BREAK 파일이 있는지 확인합니다.

epoch: 5
다음 epoch 학습을 중단 예약하고 싶으면, 빈 BREAK 파일을 생성하세요.


Loss: 0.0010: 100%|██████████| 5419/5419 [07:57<00:00, 11.34it/s]


train_loss: 0.0180
train_acc: 0.9941
train_f1: 0.9940



Evaluating: 100%|██████████| 28/28 [00:04<00:00,  6.19it/s]



final_valid_loss: 0.6814111515384736
final_valid_accuracy: 0.9077277970011534
final_valid_f1: 0.9040737953881037
valid's error preds count: 80/867, {7: 38, 10: 3, 3: 9, 14: 22, 9: 2, 4: 1, 12: 1, 13: 1, 6: 1, 8: 1, 11: 1}
Model checkpoint saved. filename: cp-densenet121.ra_in1k_sd_42_epc_5_aug_200_vl_0.6814_va_0.9077_vf1_0.9041_fold_2_folds_2.pt
5초 동안 잠시 sleep 합니다. 다음 epoch 학습을 중단 예약하고 싶으면, 빈 BREAK 파일을 생성하세요.
BREAK 파일이 있는지 확인합니다.

epoch: 6
다음 epoch 학습을 중단 예약하고 싶으면, 빈 BREAK 파일을 생성하세요.


Loss: 0.0000: 100%|██████████| 5419/5419 [07:59<00:00, 11.30it/s]


train_loss: 0.0138
train_acc: 0.9953
train_f1: 0.9953



Evaluating: 100%|██████████| 28/28 [00:04<00:00,  6.23it/s]



final_valid_loss: 0.804893043851426
final_valid_accuracy: 0.903114186851211
final_valid_f1: 0.9027249099851472
valid's error preds count: 84/867, {7: 38, 10: 2, 3: 15, 14: 18, 11: 3, 4: 5, 12: 2, 9: 1}
Model checkpoint saved. filename: cp-densenet121.ra_in1k_sd_42_epc_6_aug_200_vl_0.8049_va_0.9031_vf1_0.9027_fold_2_folds_2.pt
5초 동안 잠시 sleep 합니다. 다음 epoch 학습을 중단 예약하고 싶으면, 빈 BREAK 파일을 생성하세요.
BREAK 파일이 있는지 확인합니다.

epoch: 7
다음 epoch 학습을 중단 예약하고 싶으면, 빈 BREAK 파일을 생성하세요.


Loss: 0.0000: 100%|██████████| 5419/5419 [07:58<00:00, 11.33it/s]


train_loss: 0.0120
train_acc: 0.9961
train_f1: 0.9961



Evaluating: 100%|██████████| 28/28 [00:04<00:00,  6.07it/s]



final_valid_loss: 0.47908840348168774
final_valid_accuracy: 0.9134948096885813
final_valid_f1: 0.9130571250284516
valid's error preds count: 75/867, {7: 27, 10: 3, 3: 23, 11: 2, 9: 1, 14: 8, 4: 4, 13: 1, 6: 1, 12: 2, 0: 3}
Model checkpoint saved. filename: cp-densenet121.ra_in1k_sd_42_epc_7_aug_200_vl_0.4791_va_0.9135_vf1_0.9131_fold_2_folds_2.pt
5초 동안 잠시 sleep 합니다. 다음 epoch 학습을 중단 예약하고 싶으면, 빈 BREAK 파일을 생성하세요.
BREAK 파일이 있는지 확인합니다.

epoch: 8
다음 epoch 학습을 중단 예약하고 싶으면, 빈 BREAK 파일을 생성하세요.


Loss: 0.0004: 100%|██████████| 5419/5419 [07:57<00:00, 11.35it/s]


train_loss: 0.0109
train_acc: 0.9962
train_f1: 0.9962



Evaluating: 100%|██████████| 28/28 [00:04<00:00,  6.17it/s]



final_valid_loss: 0.6527503879637412
final_valid_accuracy: 0.9008073817762399
final_valid_f1: 0.8995174378025501
valid's error preds count: 86/867, {7: 32, 3: 22, 14: 15, 11: 4, 10: 3, 16: 1, 4: 4, 12: 4, 0: 1}
Model checkpoint saved. filename: cp-densenet121.ra_in1k_sd_42_epc_8_aug_200_vl_0.6528_va_0.9008_vf1_0.8995_fold_2_folds_2.pt
5초 동안 잠시 sleep 합니다. 다음 epoch 학습을 중단 예약하고 싶으면, 빈 BREAK 파일을 생성하세요.
BREAK 파일이 있는지 확인합니다.

epoch: 9
다음 epoch 학습을 중단 예약하고 싶으면, 빈 BREAK 파일을 생성하세요.


Loss: 0.0000: 100%|██████████| 5419/5419 [07:56<00:00, 11.38it/s]


train_loss: 0.0097
train_acc: 0.9969
train_f1: 0.9969



Evaluating: 100%|██████████| 28/28 [00:04<00:00,  6.17it/s]



final_valid_loss: 0.808466537841168
final_valid_accuracy: 0.903114186851211
final_valid_f1: 0.904311923416731
valid's error preds count: 84/867, {7: 37, 10: 2, 4: 10, 14: 17, 11: 2, 3: 8, 9: 1, 5: 4, 12: 3}
Model checkpoint saved. filename: cp-densenet121.ra_in1k_sd_42_epc_9_aug_200_vl_0.8085_va_0.9031_vf1_0.9043_fold_2_folds_2.pt
5초 동안 잠시 sleep 합니다. 다음 epoch 학습을 중단 예약하고 싶으면, 빈 BREAK 파일을 생성하세요.
BREAK 파일이 있는지 확인합니다.

epoch: 10
다음 epoch 학습을 중단 예약하고 싶으면, 빈 BREAK 파일을 생성하세요.


Loss: 0.0008: 100%|██████████| 5419/5419 [07:59<00:00, 11.31it/s]


train_loss: 0.0089
train_acc: 0.9974
train_f1: 0.9974



Evaluating: 100%|██████████| 28/28 [00:04<00:00,  6.13it/s]



final_valid_loss: 0.5793920485301507
final_valid_accuracy: 0.9238754325259516
final_valid_f1: 0.9236565664387353
valid's error preds count: 66/867, {7: 33, 10: 2, 3: 9, 4: 3, 9: 1, 14: 11, 12: 3, 13: 2, 15: 1, 11: 1}
Model checkpoint saved. filename: cp-densenet121.ra_in1k_sd_42_epc_10_aug_200_vl_0.5794_va_0.9239_vf1_0.9237_fold_2_folds_2.pt
5초 동안 잠시 sleep 합니다. 다음 epoch 학습을 중단 예약하고 싶으면, 빈 BREAK 파일을 생성하세요.
BREAK 파일이 있는지 확인합니다.
BREAK 파일이 존재합니다. 학습을 중단합니다.


In [10]:
# wandb 실행 종료
wandb.finish()

In [9]:
import sys
sys.exit('아래 셀은 수동으로 실행하기 위해서 여기서 실행 멈춤.')

SystemExit: 아래 셀은 수동으로 실행하기 위해서 여기서 실행 멈춤.

  warn("To exit: use 'exit', 'quit', or Ctrl-D.", stacklevel=1)


# 수동으로 특정 체크포인트부터 이어서 학습하기 위한 부분


In [None]:
# checkpoint = common.load_model_checkpoint("checkpoint-resnet34_seed_42_epoch_0_isFull_False.pt", model, optimizer, device)

In [None]:
# next_epoch = checkpoint['epoch'] + 1

# common.train_with_start_end_epoch(seed = checkpoint['seed'],
#                            tst_img_size = checkpoint['tst_img_size'],
#                            batch_size = checkpoint['batch_size'],
#                            start_epoch_inclusive = next_epoch, 
#                            end_epoch_exclusive = next_epoch + 2, 
#                            augment_ratio = augment_ratio,
#                            trn_loader = trn_loader,
#                            val_loader = val_loader,
#                            model = model,
#                            model_name = model_name,
#                            optimizer = optimizer,
#                            loss_fn = loss_fn,
#                            device = device,
#                            is_save_model_checkpoint = True,
#                            is_evaluate_train_valid = True)