## Contents
- Import Library & Define Functions
- Hyper-parameters
- Load Data
- Train Model
- Inference & Save File


## Import Library & Define Functions
* 학습 및 추론에 필요한 라이브러리를 로드합니다.
* 학습 및 추론에 필요한 함수와 클래스를 정의합니다.

In [22]:
import os
import random

import timm
import torch
import albumentations as A
import pandas as pd
import numpy as np
import torch.nn as nn
from albumentations.pytorch import ToTensorV2
from torch.optim import Adam
from torchvision import transforms
from torch.utils.data import Dataset, DataLoader
from PIL import Image
from tqdm import tqdm
from sklearn.metrics import accuracy_score, f1_score
from sklearn.model_selection import train_test_split

from datetime import datetime
import time
from zoneinfo import ZoneInfo
import wandb

In [23]:
train_time = datetime.fromtimestamp(time.time(), tz=ZoneInfo("Asia/Seoul")).strftime("%Y%m%d-%H%M%S")
train_time

wandb.init(project="document-classification", name=f"run-{train_time}")

In [24]:
# 시드를 고정합니다.
SEED = 42
os.environ['PYTHONHASHSEED'] = str(SEED)
random.seed(SEED)
np.random.seed(SEED)
torch.manual_seed(SEED)
torch.cuda.manual_seed(SEED)
torch.cuda.manual_seed_all(SEED)
torch.backends.cudnn.benchmark = True

In [25]:
# 데이터셋 클래스를 정의합니다.
class ImageDataset(Dataset):
    def __init__(self, csv, path, transform=None):
        self.df = pd.read_csv(csv).values
        self.path = path
        self.transform = transform

    def __len__(self):
        return len(self.df)

    def __getitem__(self, idx):
        name, target = self.df[idx]
        img = np.array(Image.open(os.path.join(self.path, name)))
        if self.transform:
            img = self.transform(image=img)['image']
        return img, target

In [26]:
# one epoch 학습을 위한 함수입니다.
def train_one_epoch(loader, model, optimizer, loss_fn, device):
    model.train()
    train_loss = 0
    preds_list = []
    targets_list = []

    pbar = tqdm(loader)
    for image, targets in pbar:
        image = image.to(device)
        targets = targets.to(device)

        model.zero_grad(set_to_none=True)

        preds = model(image)
        loss = loss_fn(preds, targets)
        loss.backward()
        optimizer.step()

        train_loss += loss.item()
        preds_list.extend(preds.argmax(dim=1).detach().cpu().numpy())
        targets_list.extend(targets.detach().cpu().numpy())

        pbar.set_description(f"Loss: {loss.item():.4f}")

    train_loss /= len(loader)
    train_acc = accuracy_score(targets_list, preds_list)
    train_f1 = f1_score(targets_list, preds_list, average='macro')

    ret = {
        "train_loss": train_loss,
        "train_acc": train_acc,
        "train_f1": train_f1,
    }

    # wandb에 훈련 메트릭 로깅
    wandb.log(ret)
    
    return ret

## Hyper-parameters
* 학습 및 추론에 필요한 하이퍼파라미터들을 정의합니다.

In [27]:
# device
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

# data config
data_path = 'data/'

# model config
model_name = 'efficientnet_b0'

# training config
img_size = 224
LR = 1e-3
EPOCHS = 10
BATCH_SIZE = 32
num_workers = 0

retrain_full_dataset = False # 최종 예측 시 전체 train 데이터로 재학습할지 여부
reinitialize_model = False # 최종 예측 재학습 시 모델 초기화할지 여부

# 설정 로깅
wandb.config.update({
    "model": model_name,
    "img_size": img_size,
    "learning_rate": LR,
    "epochs": EPOCHS,
    "batch_size": BATCH_SIZE,
    "retrain_full_dataset": retrain_full_dataset,
    "reinitialize_model": reinitialize_model
})

## Load Data
* 학습, 테스트 데이터셋과 로더를 정의합니다.

In [28]:
# augmentation을 위한 transform 코드
train_transform = A.Compose([
    A.Resize(height=img_size, width=img_size),
    A.HorizontalFlip(p=0.5),
    A.RandomBrightnessContrast(p=0.2),
    A.Rotate(limit=15, p=0.5),
    A.GaussNoise(p=0.2),
    A.Cutout(num_holes=8, max_h_size=8, max_w_size=8, p=0.3),
    A.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]),
    ToTensorV2(),
])

# test image 변환을 위한 transform 코드
pred_transform = A.Compose([
    A.Resize(height=img_size, width=img_size),
    A.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]),
    ToTensorV2(),
])



In [29]:
def random_dataset_split(train_csv_path, img_dir, trn_transform, tst_transform, train_size=0.7, val_size=0.15, test_size=0.15, random_state=42):
    # CSV 파일 읽기
    train_df = pd.read_csv(train_csv_path)
    
    # 첫 번째 split: 훈련 세트와 나머지(검증+테스트) 세트로 분할
    train_df, temp_df = train_test_split(
        train_df, 
        train_size=train_size, 
        random_state=random_state
    )
    
    # 두 번째 split: 나머지를 검증 세트와 테스트 세트로 분할
    val_size_adjusted = val_size / (val_size + test_size)
    val_df, test_df = train_test_split(
        temp_df, 
        train_size=val_size_adjusted, 
        random_state=random_state
    )
    
    print(f"훈련 세트: {len(train_df)} 샘플")
    print(f"검증 세트: {len(val_df)} 샘플")
    print(f"테스트 세트: {len(test_df)} 샘플")
    
    # 각 데이터프레임을 임시 CSV 파일로 저장
    train_df.to_csv('temp_train.csv', index=False)
    val_df.to_csv('temp_val.csv', index=False)
    test_df.to_csv('temp_test.csv', index=False)
    
    # ImageDataset 생성
    train_dataset = ImageDataset('temp_train.csv', img_dir, transform=trn_transform)
    val_dataset = ImageDataset('temp_val.csv', img_dir, transform=tst_transform)
    test_dataset = ImageDataset('temp_test.csv', img_dir, transform=tst_transform)
    
    # 임시 파일 삭제
    os.remove('temp_train.csv')
    os.remove('temp_val.csv')
    os.remove('temp_test.csv')
    
    return train_dataset, val_dataset, test_dataset

In [30]:
# Dataset 정의
train_dataset, val_dataset, test_dataset = random_dataset_split(
    'data/train.csv',
    'data/train/',
    train_transform,
    pred_transform
)

pred_dataset = ImageDataset(
    "data/sample_submission.csv",
    "data/test/",
    transform=pred_transform
)

print(len(train_dataset), len(val_dataset), len(test_dataset), len(pred_dataset))

훈련 세트: 1099 샘플
검증 세트: 235 샘플
테스트 세트: 236 샘플
1099 235 236 3140


In [31]:
# DataLoader 정의
train_loader = DataLoader(
    train_dataset,
    batch_size=BATCH_SIZE,
    shuffle=True,
    num_workers=num_workers,
    pin_memory=True,
    drop_last=False
)

val_loader = DataLoader(
    val_dataset,
    batch_size=BATCH_SIZE,
    shuffle=False,
    num_workers=num_workers,
    pin_memory=True
)

test_loader = DataLoader(
    test_dataset,
    batch_size=BATCH_SIZE,
    shuffle=False,
    num_workers=num_workers,
    pin_memory=True
)

pred_loader = DataLoader(
    pred_dataset,
    batch_size=BATCH_SIZE,
    shuffle=False,
    num_workers=0,
    pin_memory=True
)

## Train Model
* 모델을 로드하고, 학습을 진행합니다.

In [32]:
# load model
model = timm.create_model(
    model_name,
    pretrained=True,
    num_classes=17,
    drop_rate=0.3
).to(device)
loss_fn = nn.CrossEntropyLoss()
optimizer = Adam(model.parameters(), lr=LR)

In [33]:
for epoch in range(EPOCHS):
    ret = train_one_epoch(train_loader, model, optimizer, loss_fn, device=device)
    ret['epoch'] = epoch

    # wandb에 에폭 로깅
    wandb.log({"epoch": epoch})

    log = ""
    for k, v in ret.items():
      log += f"{k}: {v:.4f}\n"
    print(log)

Loss: 0.6774: 100%|██████████| 35/35 [00:06<00:00,  5.39it/s]


train_loss: 0.9841
train_acc: 0.7043
train_f1: 0.6744
epoch: 0.0000



Loss: 0.6178: 100%|██████████| 35/35 [00:06<00:00,  5.42it/s]


train_loss: 0.3511
train_acc: 0.8954
train_f1: 0.8840
epoch: 1.0000



Loss: 0.4630: 100%|██████████| 35/35 [00:06<00:00,  5.49it/s]


train_loss: 0.2392
train_acc: 0.9318
train_f1: 0.9274
epoch: 2.0000



Loss: 0.1936: 100%|██████████| 35/35 [00:06<00:00,  5.42it/s]


train_loss: 0.2140
train_acc: 0.9254
train_f1: 0.9171
epoch: 3.0000



Loss: 1.5089: 100%|██████████| 35/35 [00:06<00:00,  5.27it/s]


train_loss: 0.1690
train_acc: 0.9500
train_f1: 0.9471
epoch: 4.0000



Loss: 0.0564: 100%|██████████| 35/35 [00:06<00:00,  5.46it/s]


train_loss: 0.1248
train_acc: 0.9536
train_f1: 0.9530
epoch: 5.0000



Loss: 0.3440: 100%|██████████| 35/35 [00:06<00:00,  5.44it/s]


train_loss: 0.1499
train_acc: 0.9591
train_f1: 0.9570
epoch: 6.0000



Loss: 0.0138: 100%|██████████| 35/35 [00:06<00:00,  5.43it/s]


train_loss: 0.0810
train_acc: 0.9700
train_f1: 0.9689
epoch: 7.0000



Loss: 0.0390: 100%|██████████| 35/35 [00:06<00:00,  5.46it/s]


train_loss: 0.0577
train_acc: 0.9800
train_f1: 0.9785
epoch: 8.0000



Loss: 0.0117: 100%|██████████| 35/35 [00:06<00:00,  5.37it/s]

train_loss: 0.0522
train_acc: 0.9763
train_f1: 0.9734
epoch: 9.0000






## 평가

In [34]:
import torch
from tqdm import tqdm
from sklearn.metrics import accuracy_score, f1_score

def evaluate(loader, model, loss_fn, device):
    model.eval()
    total_loss = 0
    all_preds = []
    all_targets = []

    with torch.no_grad():
        for image, targets in tqdm(loader, desc="Evaluating"):
            image = image.to(device)
            targets = targets.to(device)

            preds = model(image)
            loss = loss_fn(preds, targets)

            total_loss += loss.item()
            all_preds.extend(preds.argmax(dim=1).cpu().numpy())
            all_targets.extend(targets.cpu().numpy())

    avg_loss = total_loss / len(loader)
    accuracy = accuracy_score(all_targets, all_preds)
    f1 = f1_score(all_targets, all_preds, average='macro')

    # wandb에 평가 메트릭 로깅
    results = {
        "loss": avg_loss,
        "accuracy": accuracy,
        "f1": f1
    }
    wandb.log(results)

    return avg_loss, accuracy, f1

# 학습 후 각 데이터셋에 대한 평가
model.to(device)
train_results = evaluate(train_loader, model, loss_fn, device)
valid_results = evaluate(val_loader, model, loss_fn, device)
test_results = evaluate(test_loader, model, loss_fn, device)

# 평가 결과 로깅
wandb.log({
    "final_train_loss": train_results[0],
    "final_train_accuracy": train_results[1],
    "final_train_f1": train_results[2],
    "final_valid_loss": valid_results[0],
    "final_valid_accuracy": valid_results[1],
    "final_valid_f1": valid_results[2],
    "final_test_loss": test_results[0],
    "final_test_accuracy": test_results[1],
    "final_test_f1": test_results[2]
})

Evaluating: 100%|██████████| 35/35 [00:05<00:00,  6.52it/s]
Evaluating: 100%|██████████| 8/8 [00:00<00:00,  8.43it/s]
Evaluating: 100%|██████████| 8/8 [00:00<00:00,  8.44it/s]


In [35]:
def interpret_results(train_results, valid_results, test_results):
    """
    훈련, 검증, 테스트 결과를 해석하는 함수
    
    :param train_results: (train_loss, train_acc, train_f1)
    :param valid_results: (valid_loss, valid_acc, valid_f1)
    :param test_results: (test_loss, test_acc, test_f1)
    :return: 해석 문자열
    """
    train_loss, train_acc, train_f1 = train_results
    valid_loss, valid_acc, valid_f1 = valid_results
    test_loss, test_acc, test_f1 = test_results
    
    interpretation = "모델 성능 해석:\n\n"
    
    # 각 세트의 성능 출력
    interpretation += f"훈련 세트 - Loss: {train_loss:.4f}, Accuracy: {train_acc:.4f}, F1: {train_f1:.4f}\n"
    interpretation += f"검증 세트 - Loss: {valid_loss:.4f}, Accuracy: {valid_acc:.4f}, F1: {valid_f1:.4f}\n"
    interpretation += f"테스트 세트 - Loss: {test_loss:.4f}, Accuracy: {test_acc:.4f}, F1: {test_f1:.4f}\n\n"
    
    # 과적합 여부 확인
    if train_acc - valid_acc > 0.05 and train_acc - test_acc > 0.05:
        interpretation += "과적합 징후가 있습니다. 훈련 세트의 성능이 검증 및 테스트 세트보다 현저히 높습니다.\n"
    elif valid_acc - test_acc > 0.05:
        interpretation += "검증 세트에 과적합되었을 가능성이 있습니다. 테스트 세트의 성능이 상대적으로 낮습니다.\n"
    else:
        interpretation += "과적합의 징후가 크지 않습니다. 세 세트의 성능이 비교적 일관적입니다.\n"
    
    # 전반적인 성능 평가
    avg_acc = (train_acc + valid_acc + test_acc) / 3
    if avg_acc < 0.3:
        interpretation += "전반적인 성능이 낮습니다. 모델 개선이 필요합니다.\n"
    elif avg_acc < 0.6:
        interpretation += "모델이 어느 정도의 학습을 보이지만, 상당한 개선의 여지가 있습니다.\n"
    else:
        interpretation += "모델이 비교적 좋은 성능을 보이고 있습니다. 미세 조정을 통해 더 개선할 수 있습니다.\n"
    
    # F1 점수 해석
    if min(train_f1, valid_f1, test_f1) < 0.3:
        interpretation += "F1 점수가 낮습니다. 클래스 불균형 문제를 고려해야 할 수 있습니다.\n"
    
    # 개선 제안
    interpretation += "\n개선을 위한 제안:\n"
    if train_acc - valid_acc > 0.05:
        interpretation += "- 정규화 기법 (예: dropout, L2 정규화)을 적용해 보세요.\n"
        interpretation += "- 데이터 증강 기법을 강화해 보세요.\n"
    if avg_acc < 0.5:
        interpretation += "- 더 복잡한 모델 아키텍처를 시도해 보세요.\n"
        interpretation += "- 학습률과 배치 크기를 조정해 보세요.\n"
        interpretation += "- 전이 학습을 고려해 보세요.\n"
    if min(train_f1, valid_f1, test_f1) < 0.3:
        interpretation += "- 클래스 가중치 조정을 통해 불균형 문제를 해결해 보세요.\n"
        interpretation += "- 앙상블 기법을 시도해 보세요.\n"
    
    return interpretation

interpret = interpret_results(train_results, valid_results, test_results)
print(interpret)
wandb.log({"interpretation": interpret})

모델 성능 해석:

훈련 세트 - Loss: 0.0192, Accuracy: 0.9927, F1: 0.9925
검증 세트 - Loss: 0.5436, Accuracy: 0.8894, F1: 0.8820
테스트 세트 - Loss: 0.5691, Accuracy: 0.9068, F1: 0.9139

과적합 징후가 있습니다. 훈련 세트의 성능이 검증 및 테스트 세트보다 현저히 높습니다.
모델이 비교적 좋은 성능을 보이고 있습니다. 미세 조정을 통해 더 개선할 수 있습니다.

개선을 위한 제안:
- 정규화 기법 (예: dropout, L2 정규화)을 적용해 보세요.
- 데이터 증강 기법을 강화해 보세요.



# Inference & Save File
* 테스트 이미지에 대한 추론을 진행하고, 결과 파일을 저장합니다.

In [36]:
if retrain_full_dataset:
    print("Starting final training on entire dataset for submission...")

    # 전체 데이터셋 생성
    full_dataset = ImageDataset(
        "data/train.csv",
        "data/train/",
        transform=train_transform
    )

    full_loader = DataLoader(
        full_dataset,
        batch_size=BATCH_SIZE,
        shuffle=True,
        num_workers=num_workers,
        pin_memory=True,
        drop_last=False
    )

    # 모델 재초기화
    if reinitialize_model:
        model = timm.create_model(model_name, pretrained=True, num_classes=17, drop_rate=0.3).to(device)
        optimizer = Adam(model.parameters(), lr=LR)

    # 전체 데이터셋으로 재학습
    for epoch in range(EPOCHS):
        ret = train_one_epoch(full_loader, model, optimizer, loss_fn, device=device)
        print(f"Epoch {epoch+1}/{EPOCHS}")
        print(f"Loss: {ret['train_loss']:.4f}, Accuracy: {ret['train_acc']:.4f}, F1: {ret['train_f1']:.4f}")

    print("Final training completed.")

In [37]:
print("Generating predictions for submission...")
preds_list = []

model.eval()
for image, _ in tqdm(pred_loader):
    image = image.to(device)

    with torch.no_grad():
        preds = model(image)
    preds_list.extend(preds.argmax(dim=1).detach().cpu().numpy())

Generating predictions for submission...


100%|██████████| 99/99 [00:12<00:00,  7.82it/s]


In [38]:
pred_df = pd.DataFrame(pred_dataset.df, columns=['ID', 'target'])
pred_df['target'] = preds_list

In [39]:
sample_submission_df = pd.read_csv("data/sample_submission.csv")
assert (sample_submission_df['ID'] == pred_df['ID']).all()

In [40]:
submission_file_path = os.path.join('output', f'{train_time}.csv')
pred_df.to_csv(submission_file_path, index=False)

In [41]:
pred_df.head()

Unnamed: 0,ID,target
0,0008fdb22ddce0ce.jpg,2
1,00091bffdffd83de.jpg,6
2,00396fbc1f6cc21d.jpg,5
3,00471f8038d9c4b6.jpg,0
4,00901f504008d884.jpg,2


In [42]:
wandb.finish()

VBox(children=(Label(value='0.006 MB of 0.006 MB uploaded\r'), FloatProgress(value=1.0, max=1.0)))

0,1
accuracy,█▁▂
epoch,▁▂▃▃▄▅▆▆▇█
f1,█▁▃
final_test_accuracy,▁
final_test_f1,▁
final_test_loss,▁
final_train_accuracy,▁
final_train_f1,▁
final_train_loss,▁
final_valid_accuracy,▁

0,1
accuracy,0.90678
epoch,9
f1,0.91392
final_test_accuracy,0.90678
final_test_f1,0.91392
final_test_loss,0.56909
final_train_accuracy,0.99272
final_train_f1,0.99247
final_train_loss,0.01925
final_valid_accuracy,0.88936
