# 문제 3: Fashion MNIST 분류

- **데이터셋**: PyTorch FashionMNIST (28x28 grayscale, 10 클래스)
- **검증**: 반복 홀드아웃 10회, 훈련:검증:테스트 = 2:49:49
- **평가**: Accuracy, F1 Score (Micro), F1 Score (Macro)

## 모델 구조
1. **LeNet-5** (베이스라인) - 수업시간에 배운 고전적 CNN
2. **VGGNet-style** - 작은 3×3 커널을 깊게 쌓은 구조
3. **ResNetCNN** - Residual Connection으로 깊은 학습
4. **SEResNet** (최고 성능 예상) - SE attention + Residual

## 평가 척도 설명
- **Accuracy**: 전체 정확도
- **F1 (Micro)**: 전체 TP/FP/FN 합산 후 계산 (= Accuracy, 균형 데이터에서)
- **F1 (Macro)**: 클래스별 F1의 평균 (10개 클래스 각각의 성능 반영)

## 1. 라이브러리

In [None]:
# -------------------------------
# 공용 라이브러리 및 유틸 불러오기
# - torch/torchvision: 모델 정의, 데이터셋 로드, 변환
# - sklearn: 데이터 분할 및 지표 계산
# - matplotlib: 시각화 및 한글 폰트 설정
# -------------------------------
import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import DataLoader, Subset, ConcatDataset
from torch.amp import autocast, GradScaler  # Mixed Precision (새 API)
from torchvision import datasets, transforms
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, f1_score
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.font_manager as fm

# 한글 폰트 설정 (Linux 서버 환경) - 라벨 깨짐 방지
def set_korean_font():
    """시스템에서 사용 가능한 한글 폰트를 자동 설정"""
    font_candidates = [
        'NanumGothic', 'NanumBarunGothic', 'Malgun Gothic',
        'AppleGothic', 'DejaVu Sans', 'Noto Sans CJK KR'
    ]
    available_fonts = [f.name for f in fm.fontManager.ttflist]
    
    for font in font_candidates:
        if font in available_fonts:
            plt.rcParams['font.family'] = font
            plt.rcParams['axes.unicode_minus'] = False
            print(f"한글 폰트 설정: {font}")
            return
    
    print("한글 폰트를 찾지 못했습니다. 영문 라벨을 사용합니다.")

set_korean_font()

# GPU 우선, Mac이면 MPS, 그 외 CPU 선택
device = torch.device('cuda' if torch.cuda.is_available() else 'mps' if torch.backends.mps.is_available() else 'cpu')
print(f"Device: {device}")

# GPU 정보 출력 (리포트용)
if torch.cuda.is_available():
    print(f"GPU: {torch.cuda.get_device_name(0)}")
    print(f"Memory: {torch.cuda.get_device_properties(0).total_memory / 1e9:.1f} GB")



In [None]:
# --------------------------------------------
# H100 GPU 최적화 기본 설정 + 시드 고정 헬퍼
# --------------------------------------------
BATCH_SIZE = 256          # H100: 작은 이미지이므로 배치 확장
NUM_WORKERS = 8           # 데이터 로딩 병렬화
PIN_MEMORY = True         # GPU 메모리 전송 최적화
USE_AMP = True            # Mixed Precision (BF16/FP16)

def set_seed(seed):
    """torch/np 시드를 모두 고정하여 반복 홀드아웃 일관성 유지"""
    torch.manual_seed(seed)
    np.random.seed(seed)
    if torch.cuda.is_available():
        torch.cuda.manual_seed(seed)
        torch.cuda.manual_seed_all(seed)

# 고정 입력 크기에서 성능 향상
torch.backends.cudnn.benchmark = True

print("H100 최적화 설정:")
print(f"  - Batch Size: {BATCH_SIZE}")
print(f"  - Num Workers: {NUM_WORKERS}")
print(f"  - Pin Memory: {PIN_MEMORY}")
print(f"  - Mixed Precision (AMP): {USE_AMP}")
print(f"  - cuDNN Benchmark: {torch.backends.cudnn.benchmark}")



## 2. 데이터셋 다운로드

In [None]:
# --------------------------------------------
# Fashion MNIST 다운로드 및 기본 변환
# - 흑백 이미지이므로 1채널 정규화 사용
# --------------------------------------------
transform = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize((0.2860,), (0.3530,))
])

train_dataset = datasets.FashionMNIST(root='./data', train=True, download=True, transform=transform)
test_dataset = datasets.FashionMNIST(root='./data', train=False, download=True, transform=transform)



## 3. 데이터 준비

In [None]:
# --------------------------------------------
# 주어진 train/test를 합쳐서 다시 분할 (2:49:49)
# --------------------------------------------
full_dataset = ConcatDataset([train_dataset, test_dataset])
print(f"전체 데이터: {len(full_dataset)}")

# 레이블 추출 (ConcatDataset 내부 순회)
all_labels = []
for ds in full_dataset.datasets:
    all_labels.extend(ds.targets.numpy())
all_labels = np.array(all_labels)
all_indices = np.arange(len(full_dataset))



In [None]:
# --------------------------------------------
# 샘플 시각화 - 클래스 라벨 확인
# --------------------------------------------
class_names = ['T-shirt', 'Trouser', 'Pullover', 'Dress', 'Coat',
               'Sandal', 'Shirt', 'Sneaker', 'Bag', 'Ankle boot']

fig, axes = plt.subplots(2, 5, figsize=(12, 5))
for i, ax in enumerate(axes.flat):
    img, label = train_dataset[i]
    ax.imshow(img.squeeze(), cmap='gray')
    ax.set_title(class_names[label])
    ax.axis('off')
plt.tight_layout()
plt.show()



## 4. 모델 정의

### 망 구조 표기법
- **C**: Convolution (합성곱) - 공간적 특징 추출
- **BN**: Batch Normalization - 학습 안정화, 수렴 가속
- **R**: ReLU / **T**: Tanh - 활성화 함수
- **AvgP** / **MaxP**: Average/Max Pooling - 다운샘플링
- **GAP**: Global Average Pooling - 파라미터 감소
- **D**: Dropout - 정규화, 과적합 방지
- **FC**: Fully Connected - 분류를 위한 선형 변환
- **Flat**: Flatten - 2D→1D 변환
- **Res**: Residual Connection - skip connection
- **SE**: Squeeze-and-Excitation - 채널별 attention

---

### 4.1 LeNet-5 (베이스라인, LeCun et al., 1998)

**구조**: `C(1,6,5×5) → T → AvgP(2×2) → C(6,16,5×5) → T → AvgP(2×2) → Flat → FC(256,120) → T → FC(120,84) → T → FC(84,10)`

**특징**:
- 최초의 성공적인 CNN 구조 (수업시간에 배운 모델)
- 5×5 큰 커널로 특징 추출
- Average Pooling으로 다운샘플링
- Tanh 활성화 함수 사용 (원본 논문)

**효과/한계**:
- ✅ CNN의 기본 원리 (합성곱 + 풀링) 적용
- ✅ 공간적 특징 추출 가능
- ❌ 얕은 구조로 복잡한 패턴 학습 제한
- ❌ 현대적 기법(BN, ReLU, Dropout) 미적용

In [None]:
class LeNet5(nn.Module):
    """
    LeNet-5 (LeCun et al., 1998)
    구조: C(1,6,5x5) → T → AvgP → C(6,16,5x5) → T → AvgP → Flat → FC → T → FC → T → FC
    """
    def __init__(self, num_classes=10):
        super().__init__()
        self.layers = nn.ModuleList([
            nn.Conv2d(1, 6, 5, 1, 2),         # C(1,6,5x5): 28x28 → 28x28
            nn.Tanh(),                         # T: 활성화 (원본)
            nn.AvgPool2d(2, 2),                # AvgP: 28x28 → 14x14
            nn.Conv2d(6, 16, 5),               # C(6,16,5x5): 14x14 → 10x10
            nn.Tanh(),                         # T: 활성화
            nn.AvgPool2d(2, 2),                # AvgP: 10x10 → 5x5
            nn.Flatten(),                      # Flat: (B,16,5,5) → (B,400)
            nn.Linear(16 * 5 * 5, 120),        # FC(400,120)
            nn.Tanh(),                         # T: 활성화
            nn.Linear(120, 84),                # FC(120,84)
            nn.Tanh(),                         # T: 활성화
            nn.Linear(84, num_classes)         # FC(84,10): 출력층
        ])
    
    def forward(self, x):
        for layer in self.layers:
            x = layer(x)
        return x

print("LeNet-5: C(5x5) → T → AvgP → C(5x5) → T → AvgP → Flat → FC → T → FC → T → FC")
print(LeNet5())
print(f"파라미터: {sum(p.numel() for p in LeNet5().parameters()):,}")



### 4.2 VGGNet-style (Simonyan & Zisserman, 2014)

**구조**: `[C(3×3) → BN → R]×2 → MaxP → [C(3×3) → BN → R]×2 → MaxP → [C(3×3) → BN → R]×2 → GAP → D → FC`

**특징**:
- 작은 3×3 커널을 깊게 쌓음 (VGG의 핵심 아이디어)
- 3×3 두 번 = 5×5 수용 영역, 파라미터는 더 적음
- Batch Normalization + ReLU로 현대화
- MaxPooling으로 다운샘플링

**효과**:
- ✅ 작은 커널로 파라미터 효율성 증가
- ✅ 더 깊은 네트워크로 복잡한 패턴 학습
- ✅ BN으로 학습 안정화
- ⚠️ 깊은 구조로 gradient vanishing 가능성

In [None]:
class VGGBlock(nn.Module):
    """
    VGG Block: 3x3 Conv를 여러 번 쌓은 블록
    구조: [C(3x3) → BN → R] × n_convs
    """
    def __init__(self, in_ch, out_ch, n_convs=2):
        super().__init__()
        layers = []
        for i in range(n_convs):
            layers.extend([
                nn.Conv2d(in_ch if i == 0 else out_ch, out_ch, 3, 1, 1),
                nn.BatchNorm2d(out_ch),
                nn.ReLU()
            ])
        self.layers = nn.ModuleList(layers)
    
    def forward(self, x):
        for layer in self.layers:
            x = layer(x)
        return x


class VGGNet(nn.Module):
    """
    VGGNet-style (Simonyan & Zisserman, 2014)
    구조: VGGBlock×3 + MaxPool×2 + GAP + FC
    """
    def __init__(self, num_classes=10):
        super().__init__()
        self.layers = nn.ModuleList([
            VGGBlock(1, 32, n_convs=2),            # Block1: 28x28 → 28x28
            nn.MaxPool2d(2, 2),                     # MaxP: 28 → 14
            VGGBlock(32, 64, n_convs=2),           # Block2: 14x14 → 14x14
            nn.MaxPool2d(2, 2),                     # MaxP: 14 → 7
            VGGBlock(64, 128, n_convs=2),          # Block3: 7x7 → 7x7
            nn.AdaptiveAvgPool2d(1),               # GAP: 7x7 → 1x1
            nn.Dropout(0.5)
        ])
        self.fc = nn.Linear(128, num_classes)
    
    def forward(self, x):
        for layer in self.layers:
            x = layer(x)
        x = x.view(x.size(0), -1)
        return self.fc(x)

print("VGGNet: [C(3x3)→BN→R]×2 → MaxP → [C(3x3)→BN→R]×2 → MaxP → [C(3x3)→BN→R]×2 → GAP → D → FC")
print(VGGNet())
print(f"파라미터: {sum(p.numel() for p in VGGNet().parameters()):,}")



### 4.3 ResNetCNN (He et al., 2015)

**구조**: `C(1,32) → BN → R → [ResBlock(32,32)]×1 → [ResBlock(32,64)]×1 → [ResBlock(64,128)]×1 → GAP → D(0.5) → FC(128,10)`

**ResBlock 내부**: `C(3×3) → BN → R → C(3×3) → BN → (+shortcut) → R`

**특징**:
- Residual Connection (skip connection) 도입
- 입력을 출력에 더함: H(x) = F(x) + x
- 잔차 F(x)를 학습하여 최적화 용이

**효과**:
- ✅ Skip connection으로 gradient flow 개선
- ✅ Gradient vanishing 문제 해결
- ✅ 매우 깊은 네트워크도 학습 가능
- ✅ VGGNet보다 적은 파라미터로 더 좋은 성능

In [None]:
class ResidualBlock(nn.Module):
    """
    Residual Block (He et al., 2015)
    구조: C → BN → R → C → BN → (+shortcut) → R
    """
    def __init__(self, in_ch, out_ch, stride=1):
        super().__init__()
        self.layers = nn.ModuleList([
            nn.Conv2d(in_ch, out_ch, 3, stride, 1, bias=False),
            nn.BatchNorm2d(out_ch),
            nn.ReLU(),
            nn.Conv2d(out_ch, out_ch, 3, 1, 1, bias=False),
            nn.BatchNorm2d(out_ch)
        ])
        self.shortcut = nn.Sequential()
        if stride != 1 or in_ch != out_ch:
            self.shortcut = nn.Sequential(
                nn.Conv2d(in_ch, out_ch, 1, stride, bias=False),
                nn.BatchNorm2d(out_ch)
            )
    
    def forward(self, x):
        out = x
        for layer in self.layers:
            out = layer(out)
        out += self.shortcut(x)
        return nn.ReLU()(out)


class ResNetCNN(nn.Module):
    """
    ResNetCNN
    구조: C(1,32) → BN → R → Res(32,32) → Res(32,64) → Res(64,128) → GAP → D → FC
    """
    def __init__(self, num_classes=10):
        super().__init__()
        self.layers = nn.ModuleList([
            nn.Conv2d(1, 32, 3, 1, 1, bias=False),
            nn.BatchNorm2d(32),
            nn.ReLU(),
            ResidualBlock(32, 32, 1),
            ResidualBlock(32, 64, 2),
            ResidualBlock(64, 128, 2),
            nn.AdaptiveAvgPool2d(1),
            nn.Dropout(0.5)
        ])
        self.fc = nn.Linear(128, num_classes)
    
    def forward(self, x):
        for layer in self.layers:
            x = layer(x)
        x = x.view(x.size(0), -1)
        return self.fc(x)

print("ResNetCNN: C → BN → R → Res → Res → Res → GAP → D → FC")
print(ResNetCNN())
print(f"파라미터: {sum(p.numel() for p in ResNetCNN().parameters()):,}")



### 4.4 SEResNet (Hu et al., 2017) - 최고 성능 예상

**구조**: `C(1,32) → BN → R → [SEResBlock]×3 → GAP → D(0.5) → FC(128,10)`

**SEResBlock 내부**: `C → BN → R → C → BN → SE → (+shortcut) → R`

**SE Block**: `GAP → FC(C,C/16) → R → FC(C/16,C) → Sigmoid → Scale`
- Squeeze: GAP로 채널별 전역 정보 압축
- Excitation: FC로 채널 간 관계 학습 후 중요도 계산

**특징**:
- Squeeze-and-Excitation 메커니즘
- 채널별 attention으로 중요한 특징 강조
- 수업에서 다루지 않은 최신 구조

**효과**:
- ✅ 채널별 중요도를 동적으로 조절
- ✅ 중요한 특징 채널 강조, 불필요한 채널 억제
- ✅ 적은 파라미터 추가로 큰 성능 향상
- ✅ Residual + Attention 시너지

In [None]:
class SEBlock(nn.Module):
    """
    Squeeze-and-Excitation Block (Hu et al., 2017)
    구조: GAP → FC(C, C/r) → R → FC(C/r, C) → Sigmoid → Scale
    """
    def __init__(self, channels, reduction=16):
        super().__init__()
        self.layers = nn.ModuleList([
            nn.AdaptiveAvgPool2d(1),
            nn.Flatten(),
            nn.Linear(channels, channels // reduction),
            nn.ReLU(),
            nn.Linear(channels // reduction, channels),
            nn.Sigmoid()
        ])
    
    def forward(self, x):
        b, c, _, _ = x.size()
        scale = x
        for layer in self.layers:
            scale = layer(scale)
        scale = scale.view(b, c, 1, 1)
        return x * scale


class SEResidualBlock(nn.Module):
    """
    SE-Residual Block
    구조: C → BN → R → C → BN → SE → (+shortcut) → R
    """
    def __init__(self, in_ch, out_ch, stride=1):
        super().__init__()
        self.layers = nn.ModuleList([
            nn.Conv2d(in_ch, out_ch, 3, stride, 1, bias=False),
            nn.BatchNorm2d(out_ch),
            nn.ReLU(),
            nn.Conv2d(out_ch, out_ch, 3, 1, 1, bias=False),
            nn.BatchNorm2d(out_ch),
            SEBlock(out_ch)
        ])
        self.shortcut = nn.Sequential()
        if stride != 1 or in_ch != out_ch:
            self.shortcut = nn.Sequential(
                nn.Conv2d(in_ch, out_ch, 1, stride, bias=False),
                nn.BatchNorm2d(out_ch)
            )
    
    def forward(self, x):
        out = x
        for layer in self.layers:
            out = layer(out)
        out += self.shortcut(x)
        return nn.ReLU()(out)


class SEResNet(nn.Module):
    """
    SE-ResNet (Squeeze-and-Excitation ResNet)
    구조: C(1,32) → BN → R → SERes(32,32) → SERes(32,64) → SERes(64,128) → GAP → D → FC
    """
    def __init__(self, num_classes=10):
        super().__init__()
        self.layers = nn.ModuleList([
            nn.Conv2d(1, 32, 3, 1, 1, bias=False),
            nn.BatchNorm2d(32),
            nn.ReLU(),
            SEResidualBlock(32, 32, 1),
            SEResidualBlock(32, 64, 2),
            SEResidualBlock(64, 128, 2),
            nn.AdaptiveAvgPool2d(1),
            nn.Dropout(0.5)
        ])
        self.fc = nn.Linear(128, num_classes)
    
    def forward(self, x):
        for layer in self.layers:
            x = layer(x)
        x = x.view(x.size(0), -1)
        return self.fc(x)

print("SEResNet: C → BN → R → SERes → SERes → SERes → GAP → D → FC")
print(SEResNet())
print(f"파라미터: {sum(p.numel() for p in SEResNet().parameters()):,}")



In [None]:
# --------------------------------------------
# ConvNeXt-Small (Fashion MNIST, 28x28 Gray)
# - Depthwise 7x7 → LayerNorm → Pointwise 확장/축소 (GELU)
# - 3-stage 경량 ConvNeXt: {2,2,6} 블록, 해상도 단계별 절반
# --------------------------------------------
class LayerNorm2d(nn.Module):
    """채널 기준 LayerNorm (ConvNeXt 스타일)"""
    def __init__(self, num_channels, eps=1e-6):
        super().__init__()
        self.weight = nn.Parameter(torch.ones(num_channels))
        self.bias = nn.Parameter(torch.zeros(num_channels))
        self.eps = eps

    def forward(self, x):
        mean = x.mean(dim=1, keepdim=True)
        var = x.var(dim=1, keepdim=True, unbiased=False)
        x = (x - mean) / torch.sqrt(var + self.eps)
        return self.weight.view(1, -1, 1, 1) * x + self.bias.view(1, -1, 1, 1)


class ConvNeXtBlock(nn.Module):
    """ConvNeXt Block: DWConv(7x7) → LN → PWConv×2 + GELU → LayerScale → Residual"""
    def __init__(self, dim, layer_scale_init_value=1e-6):
        super().__init__()
        self.dwconv = nn.Conv2d(dim, dim, kernel_size=7, padding=3, groups=dim)
        self.norm = LayerNorm2d(dim)
        self.pwconv1 = nn.Conv2d(dim, 4 * dim, kernel_size=1)
        self.act = nn.GELU()
        self.pwconv2 = nn.Conv2d(4 * dim, dim, kernel_size=1)
        self.gamma = nn.Parameter(layer_scale_init_value * torch.ones(dim)) if layer_scale_init_value > 0 else None

    def forward(self, x):
        shortcut = x
        x = self.dwconv(x)
        x = self.norm(x)
        x = self.pwconv1(x)
        x = self.act(x)
        x = self.pwconv2(x)
        if self.gamma is not None:
            x = self.gamma.view(1, -1, 1, 1) * x
        return shortcut + x


class ConvNeXtSmallFashion(nn.Module):
    """
    ConvNeXt-Small 변형 (28x28, 1채널)
    구조: Stem(4x4,s4) → [Block×{2,2,6} + Downsample] → GAP → Dropout → FC
    """
    def __init__(self, num_classes=10):
        super().__init__()
        depths = [2, 2, 6]
        dims = [64, 128, 256]

        self.downsample_layers = nn.ModuleList([
            nn.Sequential(
                nn.Conv2d(1, dims[0], kernel_size=4, stride=4),  # 28 → 7
                LayerNorm2d(dims[0])
            )
        ])
        for i in range(2):
            self.downsample_layers.append(
                nn.Sequential(
                    LayerNorm2d(dims[i]),
                    nn.Conv2d(dims[i], dims[i+1], kernel_size=2, stride=2)  # 7→4→2
                )
            )

        self.stages = nn.ModuleList()
        for i in range(3):
            blocks = [ConvNeXtBlock(dims[i]) for _ in range(depths[i])]
            self.stages.append(nn.ModuleList(blocks))

        self.norm = LayerNorm2d(dims[-1])
        self.head = nn.Linear(dims[-1], num_classes)
        self.dropout = nn.Dropout(0.1)

    def forward(self, x):
        x = self.downsample_layers[0](x)
        for i in range(3):
            for block in self.stages[i]:
                x = block(x)
            if i < 2:
                x = self.downsample_layers[i+1](x)
        x = self.norm(x)
        x = x.mean([-2, -1])
        x = self.dropout(x)
        return self.head(x)

print("ConvNeXt-Small (Fashion): Stem(4x4,s4) → Blocks×{2,2,6} → GAP → D → FC")
print(ConvNeXtSmallFashion())
print(f"파라미터: {sum(p.numel() for p in ConvNeXtSmallFashion().parameters()):,}")



## 5. 학습 함수

In [None]:
# --------------------------------------------
# 학습/평가 유틸리티 함수 (H100 최적화)
# --------------------------------------------
scaler = GradScaler('cuda', enabled=USE_AMP)

def train_epoch(model, loader, criterion, optimizer):
    """Mixed Precision 학습 (H100 최적화)"""
    model.train()
    total_loss = 0
    for images, labels in loader:
        images, labels = images.to(device, non_blocking=True), labels.to(device, non_blocking=True)
        
        optimizer.zero_grad(set_to_none=True)
        
        with autocast('cuda', enabled=USE_AMP):
            outputs = model(images)
            loss = criterion(outputs, labels)
        
        scaler.scale(loss).backward()
        scaler.step(optimizer)
        scaler.update()
        total_loss += loss.item()
    return total_loss / len(loader)

def evaluate(model, loader):
    """평가 함수 - Accuracy, F1 (Micro), F1 (Macro) 반환"""
    model.eval()
    preds, labels_list = [], []
    with torch.no_grad():
        for images, labels in loader:
            images = images.to(device, non_blocking=True)
            with autocast('cuda', enabled=USE_AMP):
                outputs = model(images)
            preds.extend(outputs.argmax(1).cpu().numpy())
            labels_list.extend(labels.numpy())
    
    acc = accuracy_score(labels_list, preds)
    f1_micro = f1_score(labels_list, preds, average='micro')
    f1_macro = f1_score(labels_list, preds, average='macro')
    return acc, f1_micro, f1_macro

def train_model(model, train_loader, val_loader, epochs=20, lr=0.001):
    """H100 최적화 학습 함수"""
    criterion = nn.CrossEntropyLoss()
    optimizer = optim.AdamW(model.parameters(), lr=lr, weight_decay=0.01)
    scheduler = optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max=epochs)
    
    best_acc = 0
    best_state = None
    patience = 0
    
    for epoch in range(epochs):
        train_epoch(model, train_loader, criterion, optimizer)
        val_acc, _, _ = evaluate(model, val_loader)
        scheduler.step()
        
        if val_acc > best_acc:
            best_acc = val_acc
            best_state = {k: v.cpu().clone() for k, v in model.state_dict().items()}
            patience = 0
        else:
            patience += 1
            if patience >= 7:
                break
    
    if best_state:
        model.load_state_dict(best_state)
    return model

print("H100 최적화 학습 함수 정의 완료")
print("  - F1 Score: Micro (=Accuracy) + Macro (10개 클래스별 평균)")



## 6. 반복 홀드아웃 검증 (10회)

In [None]:
# --------------------------------------------
# 반복 홀드아웃 실행 함수 (2:49:49 분할을 10회 반복)
# --------------------------------------------
def run_holdout(model_class, model_name, n_repeats=10):
    """H100 최적화 반복 홀드아웃"""
    results = {'accuracy': [], 'f1_micro': [], 'f1_macro': []}
    
    print()
    print('='*60)
    print(model_name)
    print('='*60)
    
    for i in range(n_repeats):
        set_seed(42 + i)
        
        # 2:49:49 분할
        train_idx, temp_idx = train_test_split(all_indices, test_size=0.98, stratify=all_labels, random_state=42+i)
        val_idx, test_idx = train_test_split(temp_idx, test_size=0.5, stratify=all_labels[temp_idx], random_state=42+i)
        
        train_loader = DataLoader(
            Subset(full_dataset, train_idx), 
            batch_size=BATCH_SIZE, 
            shuffle=True,
            num_workers=NUM_WORKERS,
            pin_memory=PIN_MEMORY,
            drop_last=True
        )
        val_loader = DataLoader(
            Subset(full_dataset, val_idx), 
            batch_size=BATCH_SIZE,
            num_workers=NUM_WORKERS,
            pin_memory=PIN_MEMORY
        )
        test_loader = DataLoader(
            Subset(full_dataset, test_idx), 
            batch_size=BATCH_SIZE,
            num_workers=NUM_WORKERS,
            pin_memory=PIN_MEMORY
        )
        
        model = model_class().to(device)
        
        if hasattr(torch, 'compile'):
            try:
                model = torch.compile(model, mode='reduce-overhead')
            except:
                pass
        
        model = train_model(model, train_loader, val_loader, epochs=30)
        
        acc, f1_micro, f1_macro = evaluate(model, test_loader)
        results['accuracy'].append(acc)
        results['f1_micro'].append(f1_micro)
        results['f1_macro'].append(f1_macro)
        print(f"[{i+1}/{n_repeats}] Acc: {acc:.4f}, F1(Micro): {f1_micro:.4f}, F1(Macro): {f1_macro:.4f}")
        
        del model
        torch.cuda.empty_cache() if torch.cuda.is_available() else None
    
    return results



In [None]:
lenet_results = run_holdout(LeNet5, "LeNet-5 (베이스라인)")

In [None]:
vgg_results = run_holdout(VGGNet, "VGGNet-style")

In [None]:
resnet_results = run_holdout(ResNetCNN, "ResNetCNN")

In [None]:
senet_results = run_holdout(SEResNet, "SEResNet (최고 성능)")

In [None]:
convnext_results = run_holdout(ConvNeXtSmallFashion, "ConvNeXt-Small (고성능)")


## 7. 결과 분석

In [None]:
def print_summary(results, name):
    # 평균/표준편차를 빠르게 확인하기 위한 헬퍼
    acc_mean, acc_std = np.mean(results['accuracy']), np.std(results['accuracy'])
    f1_micro_mean, f1_micro_std = np.mean(results['f1_micro']), np.std(results['f1_micro'])
    f1_macro_mean, f1_macro_std = np.mean(results['f1_macro']), np.std(results['f1_macro'])
    print(name)
    print(f"  Accuracy:    {acc_mean:.4f} ± {acc_std:.4f}")
    print(f"  F1 (Micro):  {f1_micro_mean:.4f} ± {f1_micro_std:.4f}")
    print(f"  F1 (Macro):  {f1_macro_mean:.4f} ± {f1_macro_std:.4f}")
    return acc_mean, acc_std, f1_micro_mean, f1_micro_std, f1_macro_mean, f1_macro_std

print("="*60)
print("Final Results")
print("="*60)
lenet_stats = print_summary(lenet_results, "LeNet-5")
vgg_stats = print_summary(vgg_results, "VGGNet")
resnet_stats = print_summary(resnet_results, "ResNetCNN")
senet_stats = print_summary(senet_results, "SEResNet")
convnext_stats = print_summary(convnext_results, "ConvNeXt-Small")



In [None]:
# --------------------------------------------
# 시각화 - Accuracy/F1 평균과 반복별 F1(Macro) 비교
# --------------------------------------------
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

models = ['LeNet-5', 'VGGNet', 'ResNetCNN', 'SEResNet', 'ConvNeXt']
all_results = [lenet_results, vgg_results, resnet_results, senet_results, convnext_results]
colors = ['#ff9999', '#66b3ff', '#99ff99', '#ffcc99', '#c2a3ff']

# Accuracy
acc_means = [np.mean(r['accuracy']) for r in all_results]
acc_stds = [np.std(r['accuracy']) for r in all_results]
axes[0].bar(models, acc_means, yerr=acc_stds, capsize=5, color=colors)
axes[0].set_title('Test Accuracy')
axes[0].set_ylim([0.7, 1.0])
axes[0].set_ylabel('Score')

# F1 (Macro)
f1_macro_means = [np.mean(r['f1_macro']) for r in all_results]
f1_macro_stds = [np.std(r['f1_macro']) for r in all_results]
axes[1].bar(models, f1_macro_means, yerr=f1_macro_stds, capsize=5, color=colors)
axes[1].set_title('Test F1 Score (Macro)')
axes[1].set_ylim([0.7, 1.0])
axes[1].set_ylabel('Score')

plt.suptitle('Fashion MNIST - Model Performance Comparison', fontsize=14)
plt.tight_layout()
plt.show()

# 반복별 성능 비교
fig, ax = plt.subplots(figsize=(14, 5))
x = np.arange(10)
width = 0.16

ax.bar(x - 2*width, lenet_results['f1_macro'], width, label='LeNet-5', color='#ff9999')
ax.bar(x - width, vgg_results['f1_macro'], width, label='VGGNet', color='#66b3ff')
ax.bar(x, resnet_results['f1_macro'], width, label='ResNetCNN', color='#99ff99')
ax.bar(x + width, senet_results['f1_macro'], width, label='SEResNet', color='#ffcc99')
ax.bar(x + 2*width, convnext_results['f1_macro'], width, label='ConvNeXt', color='#c2a3ff')

ax.set_xlabel('Iteration')
ax.set_ylabel('F1 Score (Macro)')
ax.set_title('Fashion MNIST - F1 (Macro) by Iteration')
ax.set_xticks(x)
ax.set_xticklabels([f'{i+1}' for i in x])
ax.legend()
ax.set_ylim([0.7, 1.0])
plt.tight_layout()
plt.show()



## 8. 결론

| 모델 | 구조 특징 | Accuracy | F1 (Micro) | F1 (Macro) |
|------|----------|----------|------------|------------|
| LeNet-5 | C(5×5)-AvgP-C(5×5)-AvgP-FC | - | - | - |
| VGGNet | [C(3×3)]×2-MaxP 반복 | - | - | - |
| ResNetCNN | Residual Connection | - | - | - |
| SEResNet | SE Attention + Residual | - | - | - |

### 평가 척도 해석
- **F1 (Micro)**: 전체 샘플에 대해 TP/FP/FN을 합산하여 계산. 균형 데이터셋에서는 Accuracy와 동일.
- **F1 (Macro)**: 각 클래스별 F1을 계산 후 평균. 10개 클래스 각각의 성능을 균등하게 반영.

### 모델별 분석

- **LeNet-5 (베이스라인)**: 1998년 고전적 구조. 5×5 큰 커널과 Tanh 활성화. 얕은 구조로 복잡한 패턴 학습에 한계.

- **VGGNet-style**: 3×3 작은 커널을 깊게 쌓아 수용 영역 확보. BN과 ReLU로 현대화했으나 skip connection 없이 깊은 네트워크는 학습 어려움.

- **ResNetCNN**: Residual Connection으로 gradient vanishing 해결. 입력을 출력에 더해 잔차 학습. 깊은 네트워크도 안정적 학습.

- **SEResNet**: SE Block으로 채널별 중요도 동적 조절. 의류 분류에서 색상, 패턴, 질감 등 중요한 특징 채널에 집중. Residual + Attention 시너지로 최고 성능 예상.