# **📄 Document type classification baseline code**
> 문서 타입 분류 대회에 오신 여러분 환영합니다! 🎉     
> 아래 baseline에서는 ResNet 모델을 로드하여, 모델을 학습 및 예측 파일 생성하는 프로세스에 대해 알아보겠습니다.

## Contents
- Prepare Environments
- Import Library & Define Functions
- Hyper-parameters
- Load Data
- Train Model
- Inference & Save File


## 1. Prepare Environments

* 데이터 로드를 위한 구글 드라이브를 마운트합니다.
* 필요한 라이브러리를 설치합니다.

## 2. Import Library & Define Functions
* 학습 및 추론에 필요한 라이브러리를 로드합니다.
* 학습 및 추론에 필요한 함수와 클래스를 정의합니다.

In [2]:
import os
import time
import random

import timm
import torch
import albumentations as A
import pandas as pd
import numpy as np
import torch.nn as nn
from albumentations.pytorch import ToTensorV2
from torch.optim import Adam
from torchvision import transforms
from torch.utils.data import Dataset, DataLoader
from PIL import Image
from tqdm import tqdm
from sklearn.metrics import accuracy_score, f1_score

In [3]:
import json
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay # sklearn 내 confusion matrix 계산 함수
import matplotlib.pyplot as plt # 시각화를 위한 라이브러리
import torchvision.transforms as T # 이미지 변환을 위한 모듈

In [4]:
# 시드를 고정합니다.
SEED = 42
os.environ['PYTHONHASHSEED'] = str(SEED)
random.seed(SEED)
np.random.seed(SEED)
torch.manual_seed(SEED)
torch.cuda.manual_seed(SEED)
torch.cuda.manual_seed_all(SEED)
torch.backends.cudnn.benchmark = True

In [5]:
# 데이터셋 클래스를 정의합니다.
class ImageDataset(Dataset):
    def __init__(self, csv, path, transform=None):
        self.df = pd.read_csv(csv).values
        self.path = path
        self.transform = transform

    def __len__(self):
        return len(self.df)

    def __getitem__(self, idx):
        name, target = self.df[idx]
        img = np.array(Image.open(os.path.join(self.path, name)))
        if self.transform:
            img = self.transform(image=img)['image']
        return img, target

In [6]:
# one epoch 학습을 위한 함수입니다.
def train_one_epoch(loader, model, optimizer, loss_fn, device):
    model.train()
    train_loss = 0
    preds_list = []
    targets_list = []

    pbar = tqdm(loader)
    for image, targets in pbar:
        image = image.to(device)
        targets = targets.to(device)

        model.zero_grad(set_to_none=True)

        preds = model(image)
        loss = loss_fn(preds, targets)
        loss.backward()
        optimizer.step()

        train_loss += loss.item()
        preds_list.extend(preds.argmax(dim=1).detach().cpu().numpy())
        targets_list.extend(targets.detach().cpu().numpy())

        pbar.set_description(f"Loss: {loss.item():.4f}")

    train_loss /= len(loader)
    train_acc = accuracy_score(targets_list, preds_list)
    train_f1 = f1_score(targets_list, preds_list, average='macro')

    ret = {
        "train_loss": train_loss,
        "train_acc": train_acc,
        "train_f1": train_f1,
    }

    return ret

## 3. Hyper-parameters
* 학습 및 추론에 필요한 하이퍼파라미터들을 정의합니다.

In [7]:
# device
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

# data config
data_path = '/data/ephemeral/home/datasets_fin/'

# model config
model_name = 'efficientnet_b3.ra2_in1k'#'densenet121.ra_in1k'# #'resnet101' #'resnet34' # 'resnet50' 'efficientnet-b0', ...

# training config
img_size = 256
LR = 1e-3
EPOCHS = 1
BATCH_SIZE = 32
num_workers = 0

## 4. Load Data
* 학습, 테스트 데이터셋과 로더를 정의합니다.

In [49]:
# https://lcyking.tistory.com/entry/Albumentations%EC%9D%98-%EB%8D%B0%EC%9D%B4%ED%84%B0-%EC%A6%9D%EA%B0%95-%EC%9D%B4%ED%95%B4
from PIL import Image
import numpy as np
import torch
from albumentations import Compose, Resize, RandomCrop, HorizontalFlip, Rotate, VerticalFlip, RandomRotate90, ShiftScaleRotate, GaussNoise, Cutout, CLAHE, Blur

def create_augmentations():
    return Compose([
        #Resize(height=224, width=224),
        #RandomCrop(height=200, width=200), 사용불가
        #Rotate(limit=90, p=1), #1
        #HorizontalFlip(p=0.5), #2
        #VerticalFlip(p=0.5), #3
        #RandomRotate90(p=1), #4
        #ShiftScaleRotate(shift_limit=0, scale_limit=(0.9, 1), rotate_limit=20, p=1), 사용불가
        #ShiftScaleRotate(shift_limit=0, scale_limit=(0.5, 0.9), rotate_limit=0, p=1), # Only_Scale
        #ShiftScaleRotate(shift_limit=(0.4, 0.5), scale_limit=0, rotate_limit=0, p=1), # Only_Shift
        GaussNoise(p=1, var_limit=(600, 800)), #5
        #Cutout(p=1, num_holes=8, max_h_size=24, max_w_size=24),
        #Blur(p=1, blur_limit=(3, 5)) #6
        #CLAHE(clip_limit=4.0, tile_grid_size=(8, 8), p=1) 사용안함
    ])

def to_tensor(image_np):
    return torch.tensor(image_np).permute(2, 0, 1).float() / 255.0

def augment_and_save_image(image_path, save_dir, num_copies=1):
    image = Image.open(image_path).convert('RGB')  # RGBA를 RGB로 명시적 변환
    image_np = np.array(image)

    if image_np.dtype != np.uint8:
        print(f"Data type mismatch in image {image_path}, found {image_np.dtype}, expected uint8.")
        return
    
    augmentation = create_augmentations()
    augmented_images = [augmentation(image=image_np) for _ in range(num_copies)]

    for i, aug in enumerate(augmented_images):
        tensor_image = to_tensor(aug['image'])
        image_np = tensor_image.permute(1, 2, 0).numpy()  # CHW -> HWC
        image_np = (image_np * 255).astype(np.uint8)  # 데이터 스케일 복구
        augmented_image = Image.fromarray(image_np)  # numpy 배열을 PIL 이미지로 변환
        save_path = os.path.join(save_dir, f"{os.path.splitext(os.path.basename(image_path))[0]}_9.jpg")
        augmented_image.save(save_path)  # 이미지 저장

# 사용 예시
import os

image_dir = '/data/ephemeral/home/datasets_fin/HorizontalFlip'
save_dir = '/data/ephemeral/home/datasets_fin/HorizontalFlip_GaussNoise'
if not os.path.exists(save_dir):
     os.makedirs(save_dir)

for filename in os.listdir(image_dir):
    if filename.endswith('.jpg'):
        augment_and_save_image(os.path.join(image_dir, filename), save_dir)


In [None]:
import os
import pandas as pd

# 기존 CSV 파일 경로 및 이미지 경로 설정
original_csv_file = "/data/ephemeral/home/datasets_fin/train.csv"
augmented_image_dir = "/data/ephemeral/home/datasets_fin/Blur"

# 원본 CSV 파일을 읽어옵니다.
df = pd.read_csv(original_csv_file)

# 새로운 데이터를 저장할 리스트
new_data = []

# 원본 데이터프레임을 순회하면서 새로운 파일 이름과 타겟 값을 기록합니다.
for index, row in df.iterrows():
    original_filename = row['ID']
    target = row['target']
    
    # 원본 파일 이름에 추가 번호가 붙은 파일들을 찾습니다.
    base_name, ext = os.path.splitext(original_filename)
    
    # 증강된 파일 이름을 찾기 위해 해당 디렉토리의 파일 목록을 가져옵니다.
    for filename in os.listdir(augmented_image_dir):
        if filename.startswith(base_name) and filename.endswith(ext):
            new_data.append((filename, target))

# 새로운 CSV 파일로 저장합니다.
new_df = pd.DataFrame(new_data, columns=['ID', 'target'])
new_df.to_csv('/data/ephemeral/home/datasets_fin/train_Blur.csv', index=False)


In [None]:
import os
import pandas as pd
import glob

# CSV 파일들이 위치한 디렉토리 설정
csv_dir = "/data/ephemeral/home/datasets_fin/"
output_csv_file = "/data/ephemeral/home/datasets_fin/combined_train.csv"

# train으로 시작하는 모든 CSV 파일을 찾습니다.
csv_files = glob.glob(os.path.join(csv_dir, "train*.csv"))

# 데이터프레임 리스트를 초기화합니다.
df_list = []

# 각 CSV 파일을 읽어 데이터프레임 리스트에 추가합니다.
for file in csv_files:
    df = pd.read_csv(file)
    df_list.append(df)

# 모든 데이터프레임을 수직으로 결합합니다.
combined_df = pd.concat(df_list, axis=0, ignore_index=True)

# 결합된 데이터프레임을 새로운 CSV 파일로 저장합니다.
combined_df.to_csv(output_csv_file, index=False)

print(f"Combined {len(csv_files)} CSV files into {output_csv_file}")
