In [None]:
# PyTorch and torchvision
import torch
import torchvision

# Helper libraries
import numpy as np
import matplotlib.pyplot as plt

# GPU 확인
device = "cuda:0" if torch.cuda.is_available() else "cpu"
print(f"Using device: {device}")

#!wget "http://vision.stanford.edu/aditya86/ImageNetDogs/images.tar" -P ./data
#!tar -xf ./data/images.tar -C ./data/


import random
# 1) 시드 고정
seed = 42
torch.manual_seed(seed)
random.seed(seed)
np.random.seed(seed)

In [None]:
from torchvision.datasets import ImageFolder
from torch.utils.data import DataLoader, random_split
import torchvision.transforms as transforms

dataset_dir = "./data/Images/"

transform = transforms.Compose([
    transforms.Resize((224, 224)),  # 크기 통일
    transforms.ToTensor(),  # Tensor 변환
    transforms.Normalize(mean=[0.5, 0.5, 0.5], std=[0.5, 0.5, 0.5])  # 정규화 추가
])
full_dataset = ImageFolder(root=dataset_dir, transform=transform)

total_size = len(full_dataset)
train_size = int(0.583 * total_size)  # 약 12,000개
test_size = total_size - train_size   # 약 8,580개
ds_train, ds_test = random_split(full_dataset, [train_size, test_size])

## CUTMIX

In [None]:
import torch
import torch.nn.functional as F
import numpy as np

def cutmix(images, labels, p=0.5, num_classes=120, alpha=1.0):
    """
    images: (B, C, H, W)  # CPU 텐서 (DataLoader에서 나온 그대로)
    labels: (B,)          # 정수 클래스 인덱스 텐서
    p: CutMix 적용 확률
    num_classes: 클래스 수
    alpha: Beta 분포 파라미터 (lam 샘플링용)

    반환:
      mixed_images: (B, C, H, W)
      mixed_labels: (B, num_classes)  # 항상 soft label(one-hot 혼합)
    """
    device = images.device
    B, C, H, W = images.shape

    # 정수 라벨 보장
    labels = labels.to(torch.long)

    # 기본 one-hot 라벨
    labels_onehot = F.one_hot(labels, num_classes=num_classes).float()

    # 기본값: 아무것도 안 섞은 상태
    mixed_images = images.clone()
    mixed_labels = labels_onehot.clone()

    # CutMix 적용할 샘플 마스크
    mask = torch.rand(B, device=device) < p
    if mask.sum() == 0:
        # 이번 배치에서는 CutMix 안 함
        return mixed_images, mixed_labels

    # 섞을 대상 인덱스
    idx = torch.nonzero(mask).squeeze(1)      # (K,)
    perm = torch.randperm(B, device=device)   # 전체 배치에서 섞을 대상

    # lam 샘플링 (하나로 공유해도 되고, 필요하면 per-sample로 바꿀 수도 있음)
    lam = np.random.beta(alpha, alpha)

    # 랜덤 박스 좌표 계산
    cut_rat = np.sqrt(1. - lam)
    cut_w = int(W * cut_rat)
    cut_h = int(H * cut_rat)

    cx = np.random.randint(W)
    cy = np.random.randint(H)

    x1 = np.clip(cx - cut_w // 2, 0, W)
    x2 = np.clip(cx + cut_w // 2, 0, W)
    y1 = np.clip(cy - cut_h // 2, 0, H)
    y2 = np.clip(cy + cut_h // 2, 0, H)

    # 이미지 섞기 (mask가 True인 샘플에만 적용)
    mixed_images[idx, :, y1:y2, x1:x2] = images[perm[idx], :, y1:y2, x1:x2]

    # 실제 영역 비율로 lam 보정
    lam_area = 1.0 - ((x2 - x1) * (y2 - y1) / (W * H))

    # 라벨 섞기
    mixed_labels[idx] = (
        lam_area * labels_onehot[idx]
        + (1.0 - lam_area) * labels_onehot[perm[idx]]
    )

    return mixed_images, mixed_labels


## MIXUP

In [None]:
import torch
import torch.nn.functional as F
import numpy as np

def mixup(images, labels, p=0.5, num_classes=120, alpha=1.0):
    """
    images: (B, C, H, W)  # DataLoader에서 나온 배치 (CPU)
    labels: (B,)          # 정수 클래스 인덱스 (0 ~ num_classes-1)
    p: Mixup 적용 확률
    num_classes: 클래스 개수
    alpha: Beta 분포 파라미터 (lam 샘플링용)

    반환:
      mixed_images: (B, C, H, W)
      mixed_labels: (B, num_classes)  # 항상 soft label(one-hot 혼합)
    """
    device = images.device
    B = images.size(0)

    # 정수 라벨 보장
    labels = labels.to(torch.long)

    # 기본 one-hot 라벨
    labels_onehot = F.one_hot(labels, num_classes=num_classes).float()

    # 기본값: Mixup 안 한 상태
    mixed_images = images.clone()
    mixed_labels = labels_onehot.clone()

    # Mixup 적용 여부
    if np.random.rand() >= p:
        # 이번 배치에서는 Mixup 생략
        return mixed_images, mixed_labels

    # lam 샘플링
    lam = np.random.beta(alpha, alpha)

    # 섞을 인덱스
    index = torch.randperm(B, device=device)

    # 이미지 섞기
    mixed_images = lam * images + (1.0 - lam) * images[index]

    # 라벨 섞기
    mixed_labels = lam * labels_onehot + (1.0 - lam) * labels_onehot[index]

    return mixed_images, mixed_labels


## Dataloader

In [None]:
import torch
import torchvision.transforms as transforms
from torch.utils.data import DataLoader

def augment(image, label):
    transform = transforms.RandomApply([
        transforms.RandomHorizontalFlip(p=0.5),
        transforms.ColorJitter(brightness=0.2),
        transforms.Lambda(lambda img: torch.clamp(img, 0, 1))  # 값 클리핑
    ],p=0.5)
    return transform(image), label

# 원-핫 인코딩
def onehot(labels, num_classes=120):
    # labels: 스칼라 int / 리스트 / (B,) 텐서 모두 지원
    if isinstance(labels, torch.Tensor):
        labels = labels.to(torch.long)
    else:
        labels = torch.tensor(labels, dtype=torch.long)
    return F.one_hot(labels, num_classes=num_classes).float()

from torch.utils.data import Dataset, DataLoader

class WrappedDataset(Dataset):
    def __init__(self, base_dataset, is_test=False, with_aug=False):
        self.base_dataset = base_dataset
        self.is_test = is_test
        self.with_aug = with_aug

    def __len__(self):
        return len(self.base_dataset)

    def __getitem__(self, idx):
        img, lbl = self.base_dataset[idx]

        # 기존에 쓰던 함수 재사용 (크기조정 + 정규화용)
        #img, lbl = normalize_and_resize_img(img, lbl)

        # train이고, with_aug=True일 때만 증강
        if (not self.is_test) and self.with_aug:
            # augment가 (img, lbl) -> (img, lbl) 이라고 가정
            img, lbl = augment(img, lbl)

        return img, lbl

class OneHotCollator:
    def __init__(self, num_classes=120):
        self.num_classes = num_classes

    def __call__(self, batch):
        # batch: [(img, lbl), (img, lbl), ...]
        imgs, labels = zip(*batch)  # 튜플 목록 분리
        imgs = torch.stack(imgs)    # (B, C, H, W)
        labels = torch.tensor(labels, dtype=torch.long)  # (B,)

        labels = onehot(labels, num_classes=self.num_classes)  # (B, num_classes)
        return imgs, labels
    
class CutMixCollator:
    def __init__(self, num_classes=120, p=0.5):
        self.num_classes = num_classes
        self.p = p

    def __call__(self, batch):
        imgs, labels = zip(*batch)
        imgs = torch.stack(imgs)                         # (B, C, H, W)
        labels = torch.tensor(labels, dtype=torch.long)  # (B,)

        imgs, labels = cutmix(
            imgs,
            labels,
            p=self.p,
            num_classes=self.num_classes,
        )
        # labels: (B, num_classes) soft label
        return imgs, labels

    
class MixupCollator:
    def __init__(self, num_classes=120, p=0.5):
        self.num_classes = num_classes
        self.p = p

    def __call__(self, batch):
        imgs, labels = zip(*batch)
        imgs = torch.stack(imgs)
        labels = torch.tensor(labels, dtype=torch.long)
        #labels = onehot(labels, num_classes=self.num_classes)

        imgs, labels = mixup(imgs, labels, p=self.p)
        return imgs, labels
    
# 데이터셋 적용
def apply_normalize_on_dataset(
    dataset,
    is_test=False,
    batch_size=16,
    with_aug=False,
    with_cutmix=False,
    with_mixup=False,
    num_classes=120,
):
    # 1) Dataset 래핑 (normalize + aug 포함)
    wrapped_ds = WrappedDataset(dataset, is_test=is_test, with_aug=with_aug)

    # 2) collate_fn 선택
    if is_test:
        # test에서는 기본 collate 사용 (그냥 int 라벨 유지)
        collate_fn = None
        shuffle = False
    else:
        shuffle = True
        if with_cutmix:
            collate_fn = CutMixCollator(num_classes=num_classes, p=0.5)
        elif with_mixup:
            collate_fn = MixupCollator(num_classes=num_classes, p=0.5)
        else:
            collate_fn = OneHotCollator(num_classes=num_classes)

    # 3) DataLoader 생성
    dataloader = DataLoader(
        wrapped_ds,
        batch_size=batch_size,
        shuffle=shuffle,
        num_workers=0,
        pin_memory=True,
        collate_fn=collate_fn,
    )

    return dataloader


## Model

In [None]:
import torch.optim as optim

def train(model, train_loader, test_loader, _criterion , _optimizer ,epochs):
    model.to(device)
    history = {'train_losses':[],
               'train_accuracy':[],
               'val_losses':[],
               'val_accuracy':[]
               }
    criterion = _criterion
    optimizer = _optimizer

    for epoch in range(epochs):
        model.train()
        correct = 0
        total = 0

        running_loss=0.0

        for images, labels in train_loader:
            images, labels = images.to(device), labels.to(device)

            optimizer.zero_grad()
            outputs = model(images)

            is_soft = (labels.ndim == 2) and labels.dtype.is_floating_point
            if is_soft:
                # labels: (B, num_classes) 소프트 레이블
                loss = criterion(outputs, labels.float())
            else:
                # labels: (B,) 정수 레이블
                loss = criterion(outputs, labels.long())

            running_loss += loss.item()

            loss.backward()
            optimizer.step()

            _, predicted = outputs.max(1)  # (B,)
            if is_soft:
                # soft label일 때는 가장 확률 높은 클래스를 타겟으로 봄
                target_for_acc = labels.argmax(dim=1)  # (B,)
            else:
                target_for_acc = labels  # 이미 (B,)

            total += labels.size(0)
            #correct += predicted.eq(labels).sum().item()
            correct += predicted.eq(target_for_acc).sum().item()

        train_loss = running_loss / len(train_loader)

        train_acc = 100. * correct / total
        #print(f"Epoch [{epoch+1}/{epochs}], Accuracy: {train_acc:.2f}%")

        model.eval()
        correct = 0
        total = 0
        running_loss=0.0
        with torch.no_grad():
            for images, labels in test_loader:
                images, labels = images.to(device), labels.to(device)
                outputs = model(images)
                loss = criterion(outputs, labels)

                running_loss += loss.item()
                
                _, predicted = outputs.max(1)
                total += labels.size(0)
                correct += predicted.eq(labels).sum().item()
        val_loss = running_loss / len(test_loader)
        val_acc = 100. * correct / total

        history['train_losses'].append(train_loss)
        history['train_accuracy'].append(train_acc)
        history['val_losses'].append(val_loss)
        history['val_accuracy'].append(val_acc)

        print(f"[Epoch {epoch + 1:3}/{epochs}] \
Train Loss: {train_loss:.5f} | Train Acc.: {train_acc:3.2f}% | \
Valid Loss: {val_loss  :.5f} | Valid Acc.: {val_acc  :3.2f}%")
        
        #print(f"Validation Accuracy: {val_acc:.2f}%")

    return history

## TrainLoader 생성

In [None]:
trainloader1 =apply_normalize_on_dataset(ds_train, is_test=False, batch_size=16, with_aug=False, with_cutmix=False, with_mixup=False)
trainloader2 =apply_normalize_on_dataset(ds_train, is_test=False, batch_size=16, with_aug=True,  with_cutmix=False, with_mixup=False)
trainloader3 =apply_normalize_on_dataset(ds_train, is_test=False, batch_size=16, with_aug=False, with_cutmix=True,  with_mixup=False)
trainloader4 =apply_normalize_on_dataset(ds_train, is_test=False, batch_size=16, with_aug=False, with_cutmix=False, with_mixup=True)

testloader   =apply_normalize_on_dataset(ds_test , is_test=True , batch_size=16, with_aug=False, with_cutmix=False, with_mixup=False)

## 학습

In [None]:
import torch.nn as nn
import torchvision.models as models
import gc

num_classes = 120
resnet50 = models.resnet50(weights=models.ResNet50_Weights.IMAGENET1K_V1)
resnet50.fc = nn.Linear(resnet50.fc.in_features, num_classes)

EPOCH = 20
trainloader1 =apply_normalize_on_dataset(ds_train, is_test=False, batch_size=16, with_aug=False, with_cutmix=False, with_mixup=False)
testloader   =apply_normalize_on_dataset(ds_test , is_test=True , batch_size=16, with_aug=False, with_cutmix=False, with_mixup=False)

criterion = nn.CrossEntropyLoss()
optimizer = optim.SGD(resnet50.parameters(), lr=0.001)
history_resnet50_tl1 = train(resnet50, trainloader1, testloader,criterion,optimizer, EPOCH)

del resnet50, trainloader1, testloader
gc.collect()
if torch.cuda.is_available():
    torch.cuda.empty_cache()    # 3) PyTorch CUDA 캐시 비우기
    torch.cuda.reset_peak_memory_stats()    # (선택) 통계 리셋

In [None]:
import torch.nn as nn
import torchvision.models as models
import gc

num_classes = 120
resnet50 = models.resnet50(weights=models.ResNet50_Weights.IMAGENET1K_V1)
resnet50.fc = nn.Linear(resnet50.fc.in_features, num_classes)

EPOCH = 20
trainloader2 =apply_normalize_on_dataset(ds_train, is_test=False, batch_size=16, with_aug=True,  with_cutmix=False, with_mixup=False)
testloader   =apply_normalize_on_dataset(ds_test , is_test=True , batch_size=16, with_aug=False, with_cutmix=False, with_mixup=False)

criterion = nn.CrossEntropyLoss()
optimizer = optim.SGD(resnet50.parameters(), lr=0.001)
history_resnet50_tl2 = train(resnet50, trainloader2, testloader,criterion,optimizer, EPOCH)

del resnet50, trainloader2, testloader
gc.collect()
if torch.cuda.is_available():
    torch.cuda.empty_cache()    # 3) PyTorch CUDA 캐시 비우기
    torch.cuda.reset_peak_memory_stats()    # (선택) 통계 리셋

In [None]:
import torch.nn as nn
import torchvision.models as models
import gc

num_classes = 120
resnet50 = models.resnet50(weights=models.ResNet50_Weights.IMAGENET1K_V1)
resnet50.fc = nn.Linear(resnet50.fc.in_features, num_classes)

EPOCH = 20
trainloader3 =apply_normalize_on_dataset(ds_train, is_test=False, batch_size=16, with_aug=False, with_cutmix=True,  with_mixup=False)
testloader   =apply_normalize_on_dataset(ds_test , is_test=True , batch_size=16, with_aug=False, with_cutmix=False, with_mixup=False)

criterion = nn.CrossEntropyLoss()
optimizer = optim.SGD(resnet50.parameters(), lr=0.001)
history_resnet50_tl3 = train(resnet50, trainloader3, testloader,criterion,optimizer, EPOCH)

del resnet50, trainloader3, testloader
gc.collect()
if torch.cuda.is_available():
    torch.cuda.empty_cache()    # 3) PyTorch CUDA 캐시 비우기
    torch.cuda.reset_peak_memory_stats()    # (선택) 통계 리셋

In [None]:
import torch.nn as nn
import torchvision.models as models
import gc

num_classes = 120
resnet50 = models.resnet50(weights=models.ResNet50_Weights.IMAGENET1K_V1)
resnet50.fc = nn.Linear(resnet50.fc.in_features, num_classes)

EPOCH = 20
trainloader4 =apply_normalize_on_dataset(ds_train, is_test=False, batch_size=16, with_aug=False, with_cutmix=False, with_mixup=True)
testloader   =apply_normalize_on_dataset(ds_test , is_test=True , batch_size=16, with_aug=False, with_cutmix=False, with_mixup=False)

criterion = nn.CrossEntropyLoss()
optimizer = optim.SGD(resnet50.parameters(), lr=0.001)
history_resnet50_tl4 = train(resnet50, trainloader4, testloader,criterion,optimizer, EPOCH)

del resnet50, trainloader4, testloader
gc.collect()
if torch.cuda.is_available():
    torch.cuda.empty_cache()    # 3) PyTorch CUDA 캐시 비우기
    torch.cuda.reset_peak_memory_stats()    # (선택) 통계 리셋

## 분석

In [None]:
# learning curve- 훈련 손실(training loss) 비교
import matplotlib.pyplot as plt
import matplotlib.ticker as ticker

plot_name = ['No aug', '50% basic aug',
               '50% CutMIX', '50% MIXUP']

history=[]
history.append(history_resnet50_tl1)
history.append(history_resnet50_tl2)
history.append(history_resnet50_tl3)
history.append(history_resnet50_tl4)

color=['red','blue','green','black']

fig,axs = plt.subplots(2,2,figsize=(12, 8))

for i in range(len(plot_name)):

    axs[0,0].plot(history[i]['train_losses'], color=color[i], label=plot_name[i])
    axs[0,0].set_title('Training Loss')
    axs[0,0].set_ylabel('Loss')
    axs[0,0].set_xlabel('Epoch')
    axs[0,0].grid(which='both', axis='both', linestyle='--')
    axs[0,0].legend(loc='upper right')

    axs[0,1].plot(history[i]['val_losses'], color=color[i], label=plot_name[i])
    axs[0,1].set_title('Validation Loss')
    axs[0,1].set_ylabel('Loss')
    axs[0,1].set_xlabel('Epoch')
    axs[0,1].grid(which='both', axis='both', linestyle='--')
    axs[0,1].set_ylim(0.5,0.8)

    axs[1,0].plot(history[i]['train_accuracy'], color=color[i], label=plot_name[i])
    axs[1,0].set_title('Train Accuracy')
    axs[1,0].set_ylabel('Accuracy (%)')
    axs[1,0].set_xlabel('Epoch')
    axs[1,0].grid(which='both', axis='both', linestyle='--')

    axs[1,1].plot(history[i]['val_accuracy'], color=color[i], label=plot_name[i])
    axs[1,1].set_title('Validation Accuracy')
    axs[1,1].set_ylabel('Accuracy (%)')
    axs[1,1].set_xlabel('Epoch')
    axs[1,1].grid(which='both', axis='both', linestyle='--')
    axs[1,1].set_ylim(80,85)

fig.tight_layout()
plt.show()

## 결론 및 고찰

<img src='rubric.png' width='500'><br>

<img src='output.png' width='700'>

**1. < basic augmentation >**
     - RandomHorizontalFlip(p=0.5)
     - ColorJitter(brightness=0.2)

**2. 각 augmentation은 모두 50%의 확률로 적용하여 실험 진행**

**3. < 20 epoch Validation 결과 >**
|Augmentation|Loss|Accuracy(%)|
|:--|:--:|:--:|
|No Aug|0.54534|84.00|
|50% basic Aug|0.57538|83.45|
|50% CutMix|0.56502|84.16|
|50% MixUp|0.60617|84.09|

**4. Validation Loss 기준 분석**
- (20 Epoch)성능 순서: No Aug >> CutMix > basic Aug. > MixUp
- Augmentation을 50% 씩 적용해서 아직 학습이 덜 된것으로 보인다. Epoch을 늘여서 볼 필요 있음.
     - Augmentation을 적용하면 그만큼 다양한 분포를 학습하므로 상대적으로 학습이 더디다.
     - train loss를 보더라도 아직 학습 할 수 있는 여건이 충분이 남은 것으로 보인다.
- CrossEntropyLoss를 사용했는데, log로 인해 정답은 맞추었지만 loss는 매우 크게 차이가 날 수 있다.
     - 소수의 강하게 틀린 샘플이 loss에 크게 반영 될 수도 있다.
     - 따라서, Loss만으로 성능을 확신하는건 맞지 않다.
     - 특히, CutMix나 MixUp은 soft label을 사용하여 CrossEntropyLoss가 조금 더 크게 나오는 특성이 있는 것으로 보인다.

**5. Validation Accuracy 기준 분석**
- (20 Epoch)성능 순서: 50% CutMix ≈ 50% MixUp ≈ No Aug. >> 50% basic Aug.
- 마찬가지로, Augmentation을 50% 씩 적용해서 아직 학습이 덜 된것으로 보인다. Epoch을 늘여서 볼 필요 있음.
     - train accuracy를 보더라도 아직 학습 할 수 있는 여건이 충분이 남은 것으로 보인다.
- Validation Loss에서 언급했듯이 Loss성능은 좋지 않게 나왔더라도 Validation Accuracy는 좋게 나올 수 있음을 확인 할 수 있다.
- basic augmentation 만을 50% 적용한 것이 성능이 가장 좋지 않게 나오고 있다. Epoch을 늘려봐야 확신 할 수 있겠지만, 이런 경향이 이어진다면, horizontalFlip과 Brightness 만으로는 주어진 데이터에 적합하지 않다고 생각할 수도 있겠다.

**6. Train Loss/Accuracy 기준 분석**
- basic arg.를 적용한 것에 비해 CutMix와 MixUp을 적용한 것이 loss가 천천히 떨어짐을 확인할 수 있다.
     - CutMix와 MixUp이 보다 많은 변화와 노이즈를 포함하며, soft label을 사용하기 때문으로 보인다.
- 하지만, Accuracy는 basic aug를 포함 비슷하게 올라가고 있는 것으로 보아 Epoch이 길어지면 basic augs는 상대적으로 빨리 수렴하고 CutMix와 MixUp은 더 나은 accuracy에서 수렴할 것으로 기대된다.
- 상대적으로 No aug는 모델이 빠르게 학습 데이터의 패턴을 익혀서, 빠르게 수렴하고 있는 것으로 보인다. Epoch를 늘이면 Validation에서 일반화 성능이 상대적으로 떨어지는 것을 볼 수 있을 것 같다.

**7. 종합 분석**
- 아직 학습할 수 있는 여지가 많이 남아있다. 하지만, 20Epoch까지의 경향과 augmentation들의 특성으로 미루어 보아, Epoch를 늘려서 보았을 때, CutMix ≈ MixUp > basic Aug > No Aug 순서로 Validation accuracy가 나타날 것 같다.
     - augmentation 이 적용되면 학습은 길어지지만 성능은 올라간다.
     - CutMix와 MixUp은 상대적으로 많은 변화를 포함하는 편이며, soft label을 사용하여 CE loss는 높게 나오지만 Accuracy는 좋게(높게) 나오는 경향이 있음
     - MixUp은 결정 경계가 완만하게 바뀌는 효과로 accuracy는 높이지만, output의 확률 분포가 완만해져서 CrossEntropyLoss는 크게 보일 수 있다.
     - CutMix는 일부 영역을 잘라서 붙이므로 MixUp 보다는 결정 경계가 덜 완만할 것으로 생각됨. 하지만, MixUp과 마찬가지로 accuracy는 높이지만, output의 확률 분포가 완만해져서 CrossEntropyLoss는 크게 보일 수 있다.
     - CutMix는 일부 영역을 잘라서 붙이므로 좀 더 확실히 구분될 수 있는 특징을 기억할 것으로 생각됨.(MixUp보다 결정 경계가 덜 완만할 것으로 생각되는 이유.)
     - CutMix는 정답과 상관없는 영역을 잘라서 붙일 수도 있으므로 노이즈가 더 많이 섞일 것으로 예상됨.

**8. 아쉬운 점**
- 생각보다 학습 시간이 오래걸려서 Epoch를 더 길게 보지 못한점이 아쉽다. Epoch를 더 길게 보면 예상했던 결과를 볼 수 있을것 같다.