In [1]:
# 필요한 라이브러리 import
import os
import time
import random
import copy
import pandas as pd
import numpy as np
import torch
import torch.nn as nn
import torch.nn.functional as F
from torch.optim import Adam
from torch.utils.data import Dataset, DataLoader
from torch.optim.lr_scheduler import CosineAnnealingLR
from torch.cuda.amp import autocast, GradScaler
from PIL import Image
from tqdm import tqdm
from sklearn.metrics import accuracy_score, f1_score, confusion_matrix, classification_report
from sklearn.model_selection import StratifiedKFold
import torchvision.transforms as transforms
import timm
import albumentations as A
from albumentations.pytorch import ToTensorV2
import warnings
warnings.filterwarnings('ignore')


# 시드 고정
SEED = 42
random.seed(SEED)
np.random.seed(SEED)
torch.manual_seed(SEED)
torch.cuda.manual_seed(SEED)
torch.cuda.manual_seed_all(SEED)

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
print(f"Using device: {device}")


Using device: cuda


In [2]:
import torch, gc

def free_cuda():
    gc.collect()
    torch.cuda.empty_cache()
    torch.cuda.ipc_collect()

In [3]:
free_cuda()

In [4]:
# 하이퍼파라미터 설정
model_name = 'convnext_base_384_in22ft1k'  # 기존과 동일한 모델
img_size = 512
LR = 2e-4
EPOCHS = 100
BATCH_SIZE = 10
num_workers = 8

# 취약 클래스 설정
vulnerable_classes = [3, 4, 7, 14]
print(f"Target vulnerable classes: {vulnerable_classes}")


Target vulnerable classes: [3, 4, 7, 14]


In [5]:
# 데이터셋 클래스 정의 (기존과 동일, __init__만 수정)
class ImageDataset(Dataset):
    def __init__(self, data, path, epoch=0, total_epochs=10, is_train=True):
        if isinstance(data, str):
            df_temp = pd.read_csv(data)
        else:
            df_temp = data
        
        # 수정: 항상 ['ID', 'target'] 컬럼만 선택하여 self.df 초기화
        self.df = df_temp[['ID', 'target']].values
        self.path = path
        self.epoch = epoch
        self.total_epochs = total_epochs
        self.is_train = is_train
        
        # Hard augmentation 확률 계산
        self.p_hard = 0.2 + 0.3 * (epoch / total_epochs) if is_train else 0
        
        # Normal augmentation
        self.normal_aug = A.Compose([
            A.LongestMaxSize(max_size=img_size),
            A.PadIfNeeded(min_height=img_size, min_width=img_size, border_mode=0, value=0),
            A.OneOf([
                A.Rotate(limit=[90, 90], p=1.0),
                A.Rotate(limit=[180, 180], p=1.0),
                A.Rotate(limit=[270, 270], p=1.0),
            ], p=0.6),
            A.RandomBrightnessContrast(brightness_limit=0.3, contrast_limit=0.3, p=0.8),
            A.GaussNoise(var_limit=(30.0, 100.0), p=0.7),
            A.HorizontalFlip(p=0.5),
            A.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]),
            ToTensorV2(),
        ])
        
        # Hard augmentation
        self.hard_aug = A.Compose([
            A.LongestMaxSize(max_size=img_size),
            A.PadIfNeeded(min_height=img_size, min_width=img_size, border_mode=0, value=0),
            A.OneOf([
                A.Rotate(limit=[90, 90], p=1.0),
                A.Rotate(limit=[180, 180], p=1.0),
                A.Rotate(limit=[270, 270], p=1.0),
                A.Rotate(limit=[-15, 15], p=1.0),
            ], p=0.8),
            A.OneOf([
                A.MotionBlur(blur_limit=15, p=1.0),
                A.GaussianBlur(blur_limit=15, p=1.0),
            ], p=0.95),
            A.RandomBrightnessContrast(brightness_limit=0.5, contrast_limit=0.5, p=0.9),
            A.GaussNoise(var_limit=(50.0, 150.0), p=0.8),
            A.JpegCompression(quality_lower=70, quality_upper=100, p=0.5),
            A.HorizontalFlip(p=0.5),
            A.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]),
            ToTensorV2(),
        ])

    def __len__(self):
        return len(self.df)

    def __getitem__(self, idx):
        name, target = self.df[idx]
        img = np.array(Image.open(os.path.join(self.path, name)).convert('RGB'))
        
        # 배치별 증강 선택
        if self.is_train and random.random() < self.p_hard:
            img = self.hard_aug(image=img)['image']
        else:
            img = self.normal_aug(image=img)['image']
        
        return img, target

In [6]:
# Mixup 함수 정의
def mixup_data(x, y, alpha=1.0):
    if alpha > 0:
        lam = np.random.beta(alpha, alpha)
    else:
        lam = 1
    batch_size = x.size()[0]
    index = torch.randperm(batch_size).cuda()
    mixed_x = lam * x + (1 - lam) * x[index, :]
    y_a, y_b = y, y[index]
    return mixed_x, y_a, y_b, lam

# 학습 함수
def train_one_epoch(loader, model, optimizer, loss_fn, device):
    scaler = GradScaler()
    model.train()
    train_loss = 0
    preds_list = []
    targets_list = []

    pbar = tqdm(loader)
    for image, targets in pbar:
        image = image.to(device)
        targets = targets.to(device)
        
        # Cutmix/Mixup 적용 (30% 확률)
        if random.random() < 0.3:
            mixed_x, y_a, y_b, lam = mixup_data(image, targets, alpha=1.0)
            with autocast(): 
                preds = model(mixed_x)
            loss = lam * loss_fn(preds, y_a) + (1 - lam) * loss_fn(preds, y_b)
        else:
            with autocast(): 
                preds = model(image)
            loss = loss_fn(preds, targets)

        model.zero_grad(set_to_none=True)
        scaler.scale(loss).backward()
        torch.nn.utils.clip_grad_norm_(model.parameters(), 1.0)
        scaler.step(optimizer)
        scaler.update()

        train_loss += loss.item()
        preds_list.extend(preds.argmax(dim=1).detach().cpu().numpy())
        targets_list.extend(targets.detach().cpu().numpy())

        pbar.set_description(f"Loss: {loss.item():.4f}")

    train_loss /= len(loader)
    train_acc = accuracy_score(targets_list, preds_list)
    train_f1 = f1_score(targets_list, preds_list, average='macro')

    return {
        "train_loss": train_loss,
        "train_acc": train_acc,
        "train_f1": train_f1,
    }

# 검증 함수
def validate_one_epoch(loader, model, loss_fn, device):
    model.eval()
    val_loss = 0
    preds_list = []
    targets_list = []
    
    with torch.no_grad():
        pbar = tqdm(loader, desc="Validating")
        for image, targets in pbar:
            image = image.to(device)
            targets = targets.to(device)
            
            preds = model(image)
            loss = loss_fn(preds, targets)
            
            val_loss += loss.item()
            preds_list.extend(preds.argmax(dim=1).detach().cpu().numpy())
            targets_list.extend(targets.detach().cpu().numpy())
            
            pbar.set_description(f"Val Loss: {loss.item():.4f}")
    
    val_loss /= len(loader)
    val_acc = accuracy_score(targets_list, preds_list)
    val_f1 = f1_score(targets_list, preds_list, average='macro')
    
    return {
        "val_loss": val_loss,
        "val_acc": val_acc,
        "val_f1": val_f1,
    }


In [7]:
# ========================================
# 1. 취약 클래스 데이터 준비
# ========================================

# 원본 데이터 로드
train_df = pd.read_csv("../data/train.csv")
print(f"Original dataset size: {len(train_df)}")

# 취약 클래스만 필터링
filtered_df = train_df[train_df['target'].isin(vulnerable_classes)].copy()
print(f"Filtered dataset size: {len(filtered_df)}")

# 클래스별 샘플 수 확인
print("\nClass distribution:")
for cls in vulnerable_classes:
    count = len(filtered_df[filtered_df['target'] == cls])
    print(f"Class {cls}: {count} samples")

# 라벨 재매핑 (3->0, 4->1, 7->2, 14->3)
label_mapping = {3: 0, 4: 1, 7: 2, 14: 3}
filtered_df['original_target'] = filtered_df['target']  # 원본 라벨 보존
filtered_df['target'] = filtered_df['target'].map(label_mapping)

print("\nLabel mapping:")
for orig, new in label_mapping.items():
    print(f"Original class {orig} -> New class {new}")

# 클래스 불균형 확인
print("\nNew class distribution:")
for new_cls in range(4):
    count = len(filtered_df[filtered_df['target'] == new_cls])
    print(f"New class {new_cls}: {count} samples")


Original dataset size: 1570
Filtered dataset size: 350

Class distribution:
Class 3: 100 samples
Class 4: 100 samples
Class 7: 100 samples
Class 14: 50 samples

Label mapping:
Original class 3 -> New class 0
Original class 4 -> New class 1
Original class 7 -> New class 2
Original class 14 -> New class 3

New class distribution:
New class 0: 100 samples
New class 1: 100 samples
New class 2: 100 samples
New class 3: 50 samples


In [None]:
# ========================================
# 2. 3-Fold Cross Validation으로 서브셋 모델 학습
# ========================================

# 3-Fold 설정
N_FOLDS = 5
skf = StratifiedKFold(n_splits=N_FOLDS, shuffle=True, random_state=42)

# 결과 저장용 리스트
fold_results = []
fold_models = []

print(f"Starting {N_FOLDS}-Fold Cross Validation for Subset Model...")

for fold, (train_idx, val_idx) in enumerate(skf.split(filtered_df, filtered_df['target'])):
    print(f"\n{'='*50}")
    print(f"SUBSET FOLD {fold + 1}/{N_FOLDS}")
    print(f"{'='*50}")
    
    # 현재 fold의 train/validation 데이터 분할
    train_fold_df = filtered_df.iloc[train_idx].reset_index(drop=True)
    val_fold_df = filtered_df.iloc[val_idx].reset_index(drop=True)
    
    # 현재 fold의 Dataset 생성
    trn_dataset = ImageDataset(
        train_fold_df,
        "../data/train/",
        epoch=0,
        total_epochs=EPOCHS,
        is_train=True
    )
    
    val_dataset = ImageDataset(
        val_fold_df,
        "../data/train/",
        epoch=0,
        total_epochs=EPOCHS,
        is_train=False
    )
    
    # 현재 fold의 DataLoader 생성
    trn_loader = DataLoader(
        trn_dataset,
        batch_size=BATCH_SIZE,
        shuffle=True,
        num_workers=num_workers,
        pin_memory=True,
        drop_last=False
    )
    
    val_loader = DataLoader(
        val_dataset,
        batch_size=BATCH_SIZE,
        shuffle=False,
        num_workers=num_workers,
        pin_memory=True
    )
    
    print(f"Train samples: {len(trn_dataset)}, Validation samples: {len(val_dataset)}")
    
    # 모델 초기화 (4개 클래스)
    model = timm.create_model(
        model_name,
        pretrained=True,
        num_classes=4  # 취약 클래스 4개
    ).to(device)
    
    loss_fn = nn.CrossEntropyLoss(label_smoothing=0.05)
    optimizer = Adam(model.parameters(), lr=LR)
    scheduler = CosineAnnealingLR(optimizer, T_max=EPOCHS)
    
    # 현재 fold의 최고 성능 추적
    best_val_f1 = 0.0
    best_model = None
    
    # 현재 fold 학습
    for epoch in range(EPOCHS):
        # Training
        train_ret = train_one_epoch(trn_loader, model, optimizer, loss_fn, device)
        
        # Validation
        val_ret = validate_one_epoch(val_loader, model, loss_fn, device)
        
        # Scheduler step
        scheduler.step()
        
        print(f"Epoch {epoch+1:2d} | "
              f"Train Loss: {train_ret['train_loss']:.4f} | "
              f"Train F1: {train_ret['train_f1']:.4f} | "
              f"Val Loss: {val_ret['val_loss']:.4f} | "
              f"Val F1: {val_ret['val_f1']:.4f}")
        
        # 최고 성능 모델 저장
        if val_ret['val_f1'] > best_val_f1:
            best_val_f1 = val_ret['val_f1']
            best_model = copy.deepcopy(model.state_dict())
    
    # 현재 fold 결과 저장
    fold_results.append({
        'fold': fold + 1,
        'best_val_f1': best_val_f1,
        'train_samples': len(trn_dataset),
        'val_samples': len(val_dataset)
    })
    
    fold_models.append(best_model)
    
    print(f"Subset Fold {fold + 1} Best Validation F1: {best_val_f1:.4f}")

# 결과 요약
print(f"\n{'='*60}")
print("SUBSET MODEL CROSS VALIDATION RESULTS")
print(f"{'='*60}")

val_f1_scores = [result['best_val_f1'] for result in fold_results]
mean_f1 = np.mean(val_f1_scores)
std_f1 = np.std(val_f1_scores)

for result in fold_results:
    print(f"Fold {result['fold']}: {result['best_val_f1']:.4f}")

print(f"\nMean CV F1: {mean_f1:.4f} ± {std_f1:.4f}")
print(f"Best single fold: {max(val_f1_scores):.4f}")


In [None]:
# ========================================
# 3. 서브셋 모델 저장
# ========================================

# 서브셋 모델들 저장
save_dir = "subset_models"
os.makedirs(save_dir, exist_ok=True)

print(f"\nSaving subset models to {save_dir}/")
for fold, state_dict in enumerate(fold_models):
    model_path = f"{save_dir}/subset_fold_{fold}_model.pth"
    torch.save({
        'model_state_dict': state_dict,
        'fold': fold,
        'classes': vulnerable_classes,
        'label_mapping': label_mapping,
        'model_name': model_name,
        'img_size': img_size,
        'num_classes': 4,
        'best_f1': fold_results[fold]['best_val_f1']
    }, model_path)
    print(f"✅ Fold {fold} model saved: {model_path}")

print("\n🎉 4-Class subset training completed!")
print(f"📊 Final Results Summary:")
print(f"   - Target classes: {vulnerable_classes}")
print(f"   - Training samples: {len(filtered_df)}")
print(f"   - Mean CV F1: {mean_f1:.4f} ± {std_f1:.4f}")
print(f"   - Models saved in: {save_dir}/")


In [8]:
# ========================================
# 노트북 셀 4 수정: 기존 CascadeClassifier에 TTA만 추가
# ========================================


class CascadeClassifier:
    """
    TTA가 추가된 2단계 캐스케이드 분류 시스템
    
    1단계: 분류기 A (17개 클래스 전체 분류) → TTA + K-fold 앙상블
    2단계: 분류기 B (취약 클래스 3,4,7,14만 분류) → TTA + K-fold 앙상블
    """
    
    def __init__(self, main_models, subset_models, vulnerable_classes=[3,4,7,14], 
                 confidence_threshold=0.7):
        """
        Args:
            main_models: 분류기 A의 앙상블 모델들 (17개 클래스)
            subset_models: 분류기 B의 앙상블 모델들 (4개 클래스)
            vulnerable_classes: 취약 클래스 리스트
            confidence_threshold: 2단계 분류기로 넘어갈 신뢰도 임계값
        """
        self.main_models = main_models
        self.subset_models = subset_models
        self.vulnerable_classes = vulnerable_classes
        self.confidence_threshold = confidence_threshold
        
        # 취약 클래스 매핑 (원본 클래스 -> 서브셋 클래스)
        self.class_mapping = {cls: idx for idx, cls in enumerate(vulnerable_classes)}
        
        # 기존 사용자의 TTA 변환들 설정
        self.essential_tta_transforms = self._setup_tta_transforms()
        
        print(f"TTA 캐스케이드 분류기 초기화 완료")
        print(f"- 취약 클래스: {vulnerable_classes}")
        print(f"- 신뢰도 임계값: {confidence_threshold}")
        print(f"- 메인 모델 수: {len(main_models)}")
        print(f"- 서브셋 모델 수: {len(subset_models)}")
        print(f"- TTA 변환 수: {len(self.essential_tta_transforms)}")
    
    def _setup_tta_transforms(self):
        """사용자의 기존 TTA 변환들 설정"""
        img_size = 384  # 노트북의 img_size 변수 사용
        
        return [
            # 원본
            A.Compose([
                A.LongestMaxSize(max_size=img_size),
                A.PadIfNeeded(min_height=img_size, min_width=img_size, border_mode=0, value=0),
                A.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]),
                ToTensorV2(),
            ]),
            # 90도 회전
            A.Compose([
                A.LongestMaxSize(max_size=img_size),
                A.PadIfNeeded(min_height=img_size, min_width=img_size, border_mode=0, value=0),
                A.Rotate(limit=[90, 90], p=1.0),
                A.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]),
                ToTensorV2(),
            ]),
            # 180도 회전
            A.Compose([
                A.LongestMaxSize(max_size=img_size),
                A.PadIfNeeded(min_height=img_size, min_width=img_size, border_mode=0, value=0),
                A.Rotate(limit=[180, 180], p=1.0),
                A.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]),
                ToTensorV2(),
            ]),
            # -90도 회전 (270도)
            A.Compose([
                A.LongestMaxSize(max_size=img_size),
                A.PadIfNeeded(min_height=img_size, min_width=img_size, border_mode=0, value=0),
                A.Rotate(limit=[-90, -90], p=1.0),
                A.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]),
                ToTensorV2(),
            ]),
            # 밝기 개선
            A.Compose([
                A.LongestMaxSize(max_size=img_size),
                A.PadIfNeeded(min_height=img_size, min_width=img_size, border_mode=0, value=0),
                A.RandomBrightnessContrast(brightness_limit=[0.3, 0.3], contrast_limit=[0.3, 0.3], p=1.0),
                A.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]),
                ToTensorV2(),
            ]),
        ]
    
    def _apply_tta_to_image(self, image_array):
        """numpy 이미지 배열에 모든 TTA 변환 적용"""
        tta_tensors = []
        for transform in self.essential_tta_transforms:
            transformed = transform(image=image_array)['image']
            tta_tensors.append(transformed)
        return tta_tensors
    
    def predict_single(self, image, device):
        """
        단일 이미지에 대한 캐스케이드 예측
        
        Args:
            image: 전처리된 이미지 텐서 [C, H, W] 또는 numpy 배열
            device: GPU/CPU 디바이스
            
        Returns:
            final_prediction: 최종 예측 클래스
            confidence: 예측 신뢰도
            used_cascade: 사용된 분류기 ('main' 또는 'cascade')
        """
        # 입력이 텐서인 경우 numpy로 변환 (TTA를 위해)
        if isinstance(image, torch.Tensor):
            # 텐서를 다시 PIL -> numpy로 변환해야 함 (비효율적이지만 TTA 적용을 위해)
            # 실제로는 원본 이미지 파일에서 직접 로드하는 것이 좋음
            # 여기서는 기존 인터페이스 유지를 위한 임시 처리
            image_np = image.permute(1, 2, 0).cpu().numpy()
            # 정규화 역변환 (대략적)
            image_np = image_np * np.array([0.229, 0.224, 0.225]) + np.array([0.485, 0.456, 0.406])
            image_np = (image_np * 255).astype(np.uint8)
        else:
            image_np = image
        
        # 1단계: 메인 분류기로 TTA + K-fold 앙상블 예측
        main_probs = self._predict_main_ensemble(image_np, device)
        main_pred = torch.argmax(main_probs).item()
        main_confidence = torch.max(main_probs).item()
        
        # 1단계 예측이 취약 클래스이고 신뢰도가 낮으면 2단계로
        if (main_pred in self.vulnerable_classes and 
            main_confidence < self.confidence_threshold):
            
            # 2단계: 서브셋 분류기로 TTA + K-fold 앙상블 예측
            subset_probs = self._predict_subset_ensemble(image_np, device)
            subset_pred_idx = torch.argmax(subset_probs).item()
            subset_confidence = torch.max(subset_probs).item()
            
            # 서브셋 예측을 원본 클래스로 변환
            final_prediction = self.vulnerable_classes[subset_pred_idx]
            final_confidence = subset_confidence
            used_cascade = 'cascade'
            
            print(f"캐스케이드 사용: {main_pred}({main_confidence:.3f}) -> {final_prediction}({subset_confidence:.3f})")
            
        else:
            # 1단계 예측 그대로 사용
            final_prediction = main_pred
            final_confidence = main_confidence
            used_cascade = 'main'
        
        return final_prediction, final_confidence, used_cascade
    
    def _predict_main_ensemble(self, image_array, device):
        """메인 분류기 TTA + K-fold 앙상블 예측"""
        # TTA 적용
        tta_tensors = self._apply_tta_to_image(image_array)
        all_predictions = []
        
        # 각 TTA 변환에 대해 K-fold 앙상블
        for tta_tensor in tta_tensors:
            tta_tensor = tta_tensor.unsqueeze(0).to(device)  # 배치 차원 추가
            
            # K-fold 앙상블
            fold_predictions = []
            with torch.no_grad():
                for model in self.main_models:
                    model.eval()
                    preds = model(tta_tensor)
                    probs = torch.softmax(preds, dim=1)
                    fold_predictions.append(probs)
            
            # K-fold 평균
            fold_ensemble = torch.mean(torch.stack(fold_predictions), dim=0)
            all_predictions.append(fold_ensemble)
        
        # TTA 평균
        final_prediction = torch.mean(torch.stack(all_predictions), dim=0).squeeze()
        return final_prediction
    
    def _predict_subset_ensemble(self, image_array, device):
        """서브셋 분류기 TTA + K-fold 앙상블 예측"""
        # TTA 적용
        tta_tensors = self._apply_tta_to_image(image_array)
        all_predictions = []
        
        # 각 TTA 변환에 대해 K-fold 앙상블
        for tta_tensor in tta_tensors:
            tta_tensor = tta_tensor.unsqueeze(0).to(device)  # 배치 차원 추가
            
            # K-fold 앙상블
            fold_predictions = []
            with torch.no_grad():
                for model in self.subset_models:
                    model.eval()
                    preds = model(tta_tensor)
                    probs = torch.softmax(preds, dim=1)
                    fold_predictions.append(probs)
            
            # K-fold 평균
            fold_ensemble = torch.mean(torch.stack(fold_predictions), dim=0)
            all_predictions.append(fold_ensemble)
        
        # TTA 평균
        final_prediction = torch.mean(torch.stack(all_predictions), dim=0).squeeze()
        return final_prediction
    
    def predict_batch(self, dataloader, device):
        """
        배치 데이터에 대한 캐스케이드 예측
        
        Args:
            dataloader: 테스트 데이터로더
            device: GPU/CPU 디바이스
            
        Returns:
            predictions: 최종 예측 리스트
            confidences: 예측 신뢰도 리스트
            cascade_usage: 캐스케이드 사용 통계
        """
        all_predictions = []
        all_confidences = []
        cascade_usage = {'main': 0, 'cascade': 0}
        
        for images, _ in tqdm(dataloader, desc="TTA Cascade Prediction"):
            batch_predictions = []
            batch_confidences = []
            
            for i in range(images.size(0)):
                single_image = images[i]
                pred, conf, used = self.predict_single(single_image, device)
                
                batch_predictions.append(pred)
                batch_confidences.append(conf)
                cascade_usage[used] += 1
            
            all_predictions.extend(batch_predictions)
            all_confidences.extend(batch_confidences)
        
        return all_predictions, all_confidences, cascade_usage



In [10]:
# ========================================
# 5. 메인 모델과 서브셋 모델 로드
# ========================================

# 메인 모델들 로드 (17개 클래스)
print("메인 모델들 로드 중...")
main_models = []
for fold in range(5):

    #model_path = f"best_model_fold_{fold+1}.pth"
    model_path = f"fold_{fold+1}_best.pth"
    
    if os.path.exists(model_path):
        # 메인 모델 생성 (17개 클래스)
        main_model = timm.create_model(model_name, pretrained=True, num_classes=17).to(device)
        main_model.load_state_dict(torch.load(model_path, map_location=device))
        main_model.eval()
        
        main_models.append(main_model)
        print(f"✅ 메인 모델 {fold+1} 로드 완료")
    else:
        print(f"❌ 메인 모델 {fold+1} 파일을 찾을 수 없습니다: {model_path}")

print(f"총 {len(main_models)}개의 메인 모델 로드 완료")

save_dir = 'subset_models'

# 서브셋 모델들 로드 (4개 클래스)
print("\n서브셋 모델들 로드 중...")
subset_models = []
for fold in range(5):
    model_path = f"{save_dir}/subset_fold_{fold}_model.pth"
    
    if os.path.exists(model_path):
        # 서브셋 모델 생성 (4개 클래스)
        subset_model = timm.create_model(model_name, pretrained=True, num_classes=4).to(device)
        checkpoint = torch.load(model_path, map_location=device)
        subset_model.load_state_dict(checkpoint['model_state_dict'])
        subset_model.eval()
        
        subset_models.append(subset_model)
        print(f"✅ 서브셋 모델 {fold} 로드 완료 (F1: {checkpoint['best_f1']:.4f})")
    else:
        print(f"❌ 서브셋 모델 {fold} 파일을 찾을 수 없습니다: {model_path}")

print(f"총 {len(subset_models)}개의 서브셋 모델 로드 완료")


메인 모델들 로드 중...
✅ 메인 모델 1 로드 완료
✅ 메인 모델 2 로드 완료
✅ 메인 모델 3 로드 완료
✅ 메인 모델 4 로드 완료
✅ 메인 모델 5 로드 완료
총 5개의 메인 모델 로드 완료

서브셋 모델들 로드 중...
✅ 서브셋 모델 0 로드 완료 (F1: 0.8820)
✅ 서브셋 모델 1 로드 완료 (F1: 0.9059)
✅ 서브셋 모델 2 로드 완료 (F1: 0.8886)
✅ 서브셋 모델 3 로드 완료 (F1: 0.9750)
✅ 서브셋 모델 4 로드 완료 (F1: 0.8390)
총 5개의 서브셋 모델 로드 완료


In [12]:
# ========================================
# 6. 캐스케이드 분류기 초기화 및 테스트 데이터 예측
# ========================================

# 캐스케이드 분류기 인스턴스 생성
cascade_classifier = CascadeClassifier(
    main_models=main_models,      # 분류기 A (17개 클래스)
    subset_models=subset_models,  # 분류기 B (4개 클래스)
    vulnerable_classes=vulnerable_classes, # [3, 4, 7, 14]
    confidence_threshold=0.7      # 신뢰도 임계값
)

# 테스트 데이터 로드
test_df = pd.read_csv("../data/sample_submission.csv")
print(f"테스트 데이터 크기: {len(test_df)}")

# 테스트 데이터셋 생성
test_dataset = ImageDataset(
    test_df,
    "../data/test/",
    epoch=0,
    total_epochs=EPOCHS,
    is_train=False  # 테스트이므로 증강 없음
)

test_loader = DataLoader(
    test_dataset,
    batch_size=32,  # 배치 크기 줄임
    shuffle=False,
    num_workers=num_workers,
    pin_memory=True
)

print("캐스케이드 시스템으로 테스트 데이터 예측 시작...")

# 올바른 코드 - 인스턴스에서 메서드 호출
test_predictions, test_confidences, cascade_usage = cascade_classifier.predict_batch(
    test_loader, device
)

print(f"\n캐스케이드 사용 통계:")
print(f"- 메인 분류기만 사용: {cascade_usage['main']}개 ({cascade_usage['main']/len(test_predictions)*100:.1f}%)")
print(f"- 캐스케이드 사용: {cascade_usage['cascade']}개 ({cascade_usage['cascade']/len(test_predictions)*100:.1f}%)")

TTA 캐스케이드 분류기 초기화 완료
- 취약 클래스: [3, 4, 7, 14]
- 신뢰도 임계값: 0.7
- 메인 모델 수: 5
- 서브셋 모델 수: 5
- TTA 변환 수: 5
테스트 데이터 크기: 3140
캐스케이드 시스템으로 테스트 데이터 예측 시작...


TTA Cascade Prediction:   0%|          | 0/99 [00:00<?, ?it/s]

캐스케이드 사용: 3(0.611) -> 3(0.631)
캐스케이드 사용: 4(0.358) -> 4(0.476)
캐스케이드 사용: 7(0.541) -> 7(0.438)


TTA Cascade Prediction:   1%|          | 1/99 [00:11<18:16, 11.19s/it]

캐스케이드 사용: 14(0.428) -> 7(0.579)
캐스케이드 사용: 3(0.616) -> 3(0.822)
캐스케이드 사용: 3(0.396) -> 3(0.484)


TTA Cascade Prediction:   2%|▏         | 2/99 [00:19<15:34,  9.64s/it]

캐스케이드 사용: 7(0.544) -> 7(0.579)
캐스케이드 사용: 14(0.554) -> 14(0.452)
캐스케이드 사용: 4(0.413) -> 4(0.544)
캐스케이드 사용: 7(0.510) -> 7(0.666)


TTA Cascade Prediction:   4%|▍         | 4/99 [00:36<13:43,  8.67s/it]

캐스케이드 사용: 3(0.397) -> 3(0.430)
캐스케이드 사용: 4(0.646) -> 4(0.621)
캐스케이드 사용: 3(0.614) -> 3(0.670)


TTA Cascade Prediction:   5%|▌         | 5/99 [00:44<13:30,  8.62s/it]

캐스케이드 사용: 7(0.520) -> 3(0.575)
캐스케이드 사용: 7(0.417) -> 4(0.449)


TTA Cascade Prediction:   6%|▌         | 6/99 [00:53<13:11,  8.51s/it]

캐스케이드 사용: 4(0.379) -> 7(0.350)
캐스케이드 사용: 14(0.430) -> 14(0.475)
캐스케이드 사용: 3(0.564) -> 3(0.627)
캐스케이드 사용: 7(0.679) -> 7(0.550)


TTA Cascade Prediction:   7%|▋         | 7/99 [01:02<13:20,  8.70s/it]

캐스케이드 사용: 3(0.600) -> 3(0.461)
캐스케이드 사용: 7(0.658) -> 7(0.343)
캐스케이드 사용: 7(0.590) -> 7(0.522)
캐스케이드 사용: 7(0.440) -> 3(0.559)
캐스케이드 사용: 14(0.646) -> 14(0.729)


TTA Cascade Prediction:   8%|▊         | 8/99 [01:11<13:16,  8.76s/it]

캐스케이드 사용: 4(0.692) -> 4(0.518)
캐스케이드 사용: 7(0.467) -> 4(0.350)
캐스케이드 사용: 7(0.596) -> 4(0.487)


TTA Cascade Prediction:   9%|▉         | 9/99 [01:19<13:06,  8.74s/it]

캐스케이드 사용: 3(0.406) -> 7(0.487)
캐스케이드 사용: 7(0.400) -> 7(0.488)
캐스케이드 사용: 3(0.313) -> 3(0.452)


TTA Cascade Prediction:  10%|█         | 10/99 [01:28<12:54,  8.70s/it]

캐스케이드 사용: 3(0.322) -> 3(0.349)


TTA Cascade Prediction:  11%|█         | 11/99 [01:36<12:31,  8.54s/it]

캐스케이드 사용: 3(0.540) -> 3(0.521)
캐스케이드 사용: 3(0.509) -> 3(0.756)
캐스케이드 사용: 4(0.693) -> 4(0.475)
캐스케이드 사용: 7(0.565) -> 3(0.440)


TTA Cascade Prediction:  12%|█▏        | 12/99 [01:45<12:39,  8.73s/it]

캐스케이드 사용: 7(0.494) -> 4(0.367)
캐스케이드 사용: 7(0.269) -> 4(0.420)


TTA Cascade Prediction:  13%|█▎        | 13/99 [01:53<12:16,  8.57s/it]

캐스케이드 사용: 3(0.281) -> 3(0.447)
캐스케이드 사용: 7(0.595) -> 7(0.709)
캐스케이드 사용: 4(0.639) -> 4(0.569)
캐스케이드 사용: 3(0.597) -> 7(0.476)


TTA Cascade Prediction:  14%|█▍        | 14/99 [02:02<12:17,  8.68s/it]

캐스케이드 사용: 4(0.653) -> 4(0.550)
캐스케이드 사용: 7(0.681) -> 7(0.577)
캐스케이드 사용: 7(0.680) -> 3(0.512)
캐스케이드 사용: 4(0.531) -> 4(0.695)


TTA Cascade Prediction:  15%|█▌        | 15/99 [02:11<12:17,  8.78s/it]

캐스케이드 사용: 3(0.572) -> 3(0.598)
캐스케이드 사용: 7(0.537) -> 3(0.499)


TTA Cascade Prediction:  16%|█▌        | 16/99 [02:20<12:00,  8.69s/it]

캐스케이드 사용: 4(0.543) -> 4(0.517)
캐스케이드 사용: 4(0.437) -> 4(0.498)
캐스케이드 사용: 4(0.693) -> 4(0.626)
캐스케이드 사용: 3(0.574) -> 3(0.667)


TTA Cascade Prediction:  17%|█▋        | 17/99 [02:29<12:00,  8.78s/it]

캐스케이드 사용: 7(0.639) -> 7(0.385)
캐스케이드 사용: 14(0.359) -> 7(0.273)


TTA Cascade Prediction:  18%|█▊        | 18/99 [02:37<11:44,  8.70s/it]

캐스케이드 사용: 3(0.613) -> 3(0.821)
캐스케이드 사용: 7(0.494) -> 7(0.511)
캐스케이드 사용: 14(0.271) -> 4(0.295)


TTA Cascade Prediction:  19%|█▉        | 19/99 [02:46<11:35,  8.70s/it]

캐스케이드 사용: 3(0.428) -> 3(0.682)
캐스케이드 사용: 7(0.515) -> 7(0.477)
캐스케이드 사용: 3(0.353) -> 3(0.570)
캐스케이드 사용: 4(0.552) -> 4(0.424)


TTA Cascade Prediction:  20%|██        | 20/99 [02:55<11:33,  8.78s/it]

캐스케이드 사용: 4(0.491) -> 4(0.469)
캐스케이드 사용: 4(0.571) -> 4(0.462)


TTA Cascade Prediction:  21%|██        | 21/99 [03:04<11:18,  8.69s/it]

캐스케이드 사용: 3(0.581) -> 3(0.577)
캐스케이드 사용: 4(0.310) -> 3(0.496)
캐스케이드 사용: 3(0.504) -> 3(0.501)
캐스케이드 사용: 3(0.401) -> 3(0.585)
캐스케이드 사용: 7(0.431) -> 3(0.655)


TTA Cascade Prediction:  22%|██▏       | 22/99 [03:13<11:21,  8.85s/it]

캐스케이드 사용: 4(0.639) -> 4(0.445)
캐스케이드 사용: 14(0.513) -> 14(0.446)
캐스케이드 사용: 7(0.529) -> 7(0.400)


TTA Cascade Prediction:  23%|██▎       | 23/99 [03:22<11:10,  8.82s/it]

캐스케이드 사용: 3(0.360) -> 7(0.379)
캐스케이드 사용: 7(0.672) -> 7(0.417)
캐스케이드 사용: 7(0.570) -> 7(0.462)
캐스케이드 사용: 3(0.502) -> 3(0.441)


TTA Cascade Prediction:  24%|██▍       | 24/99 [03:31<11:06,  8.89s/it]

캐스케이드 사용: 4(0.622) -> 4(0.617)
캐스케이드 사용: 7(0.445) -> 3(0.450)
캐스케이드 사용: 7(0.303) -> 7(0.503)
캐스케이드 사용: 14(0.457) -> 7(0.431)


TTA Cascade Prediction:  25%|██▌       | 25/99 [03:40<10:59,  8.92s/it]

캐스케이드 사용: 4(0.639) -> 4(0.758)
캐스케이드 사용: 7(0.679) -> 7(0.413)
캐스케이드 사용: 3(0.512) -> 3(0.485)


TTA Cascade Prediction:  26%|██▋       | 26/99 [03:48<10:47,  8.86s/it]

캐스케이드 사용: 7(0.427) -> 3(0.402)
캐스케이드 사용: 7(0.525) -> 3(0.515)
캐스케이드 사용: 14(0.562) -> 14(0.634)


TTA Cascade Prediction:  27%|██▋       | 27/99 [03:57<10:36,  8.84s/it]

캐스케이드 사용: 7(0.445) -> 3(0.664)


TTA Cascade Prediction:  28%|██▊       | 28/99 [04:06<10:20,  8.74s/it]

캐스케이드 사용: 7(0.476) -> 7(0.464)


TTA Cascade Prediction:  29%|██▉       | 29/99 [04:14<09:56,  8.52s/it]

캐스케이드 사용: 4(0.613) -> 7(0.433)
캐스케이드 사용: 3(0.613) -> 3(0.661)
캐스케이드 사용: 3(0.618) -> 3(0.600)
캐스케이드 사용: 14(0.587) -> 4(0.486)


TTA Cascade Prediction:  30%|███       | 30/99 [04:23<09:59,  8.69s/it]

캐스케이드 사용: 14(0.563) -> 14(0.397)


TTA Cascade Prediction:  31%|███▏      | 31/99 [04:31<09:43,  8.58s/it]

캐스케이드 사용: 4(0.301) -> 4(0.391)
캐스케이드 사용: 4(0.583) -> 4(0.491)
캐스케이드 사용: 7(0.673) -> 7(0.719)


TTA Cascade Prediction:  32%|███▏      | 32/99 [04:40<09:40,  8.66s/it]

캐스케이드 사용: 7(0.639) -> 7(0.411)
캐스케이드 사용: 7(0.675) -> 7(0.515)
캐스케이드 사용: 7(0.549) -> 7(0.501)
캐스케이드 사용: 14(0.675) -> 14(0.701)


TTA Cascade Prediction:  33%|███▎      | 33/99 [04:49<09:41,  8.80s/it]

캐스케이드 사용: 7(0.469) -> 3(0.485)
캐스케이드 사용: 7(0.593) -> 7(0.482)
캐스케이드 사용: 4(0.384) -> 3(0.311)


TTA Cascade Prediction:  34%|███▍      | 34/99 [04:58<09:35,  8.86s/it]

캐스케이드 사용: 7(0.688) -> 7(0.782)
캐스케이드 사용: 7(0.434) -> 3(0.457)


TTA Cascade Prediction:  35%|███▌      | 35/99 [05:07<09:23,  8.80s/it]

캐스케이드 사용: 7(0.671) -> 3(0.651)
캐스케이드 사용: 3(0.476) -> 3(0.609)
캐스케이드 사용: 7(0.658) -> 7(0.481)


TTA Cascade Prediction:  37%|███▋      | 37/99 [05:24<08:57,  8.67s/it]

캐스케이드 사용: 7(0.472) -> 3(0.564)


TTA Cascade Prediction:  38%|███▊      | 38/99 [05:32<08:45,  8.61s/it]

캐스케이드 사용: 3(0.654) -> 3(0.585)
캐스케이드 사용: 14(0.389) -> 14(0.401)


TTA Cascade Prediction:  39%|███▉      | 39/99 [05:41<08:40,  8.68s/it]

캐스케이드 사용: 7(0.594) -> 7(0.646)
캐스케이드 사용: 4(0.475) -> 14(0.481)
캐스케이드 사용: 14(0.352) -> 3(0.354)


TTA Cascade Prediction:  40%|████      | 40/99 [05:50<08:37,  8.77s/it]

캐스케이드 사용: 7(0.550) -> 3(0.462)


TTA Cascade Prediction:  41%|████▏     | 41/99 [05:59<08:23,  8.69s/it]

캐스케이드 사용: 7(0.593) -> 3(0.539)
캐스케이드 사용: 3(0.428) -> 3(0.473)
캐스케이드 사용: 14(0.597) -> 14(0.626)
캐스케이드 사용: 3(0.643) -> 3(0.705)


TTA Cascade Prediction:  42%|████▏     | 42/99 [06:08<08:24,  8.86s/it]

캐스케이드 사용: 7(0.597) -> 7(0.551)
캐스케이드 사용: 7(0.692) -> 3(0.462)
캐스케이드 사용: 3(0.454) -> 3(0.525)
캐스케이드 사용: 3(0.607) -> 3(0.513)


TTA Cascade Prediction:  43%|████▎     | 43/99 [06:17<08:25,  9.03s/it]

캐스케이드 사용: 7(0.481) -> 7(0.407)
캐스케이드 사용: 14(0.677) -> 14(0.615)


TTA Cascade Prediction:  44%|████▍     | 44/99 [06:26<08:12,  8.95s/it]

캐스케이드 사용: 3(0.455) -> 3(0.619)
캐스케이드 사용: 3(0.450) -> 3(0.372)
캐스케이드 사용: 3(0.450) -> 3(0.361)
캐스케이드 사용: 14(0.326) -> 7(0.574)


TTA Cascade Prediction:  46%|████▋     | 46/99 [06:44<07:45,  8.79s/it]

캐스케이드 사용: 7(0.581) -> 7(0.583)


TTA Cascade Prediction:  47%|████▋     | 47/99 [06:52<07:31,  8.69s/it]

캐스케이드 사용: 4(0.429) -> 3(0.400)


TTA Cascade Prediction:  48%|████▊     | 48/99 [07:01<07:21,  8.66s/it]

캐스케이드 사용: 14(0.475) -> 4(0.445)
캐스케이드 사용: 7(0.566) -> 4(0.462)
캐스케이드 사용: 7(0.489) -> 3(0.566)


TTA Cascade Prediction:  49%|████▉     | 49/99 [07:10<07:17,  8.75s/it]

캐스케이드 사용: 3(0.509) -> 3(0.576)
캐스케이드 사용: 3(0.338) -> 3(0.412)
캐스케이드 사용: 3(0.553) -> 3(0.758)
캐스케이드 사용: 14(0.514) -> 7(0.465)


TTA Cascade Prediction:  51%|█████     | 50/99 [07:19<07:16,  8.90s/it]

캐스케이드 사용: 4(0.457) -> 4(0.419)
캐스케이드 사용: 7(0.659) -> 7(0.534)
캐스케이드 사용: 7(0.511) -> 7(0.627)
캐스케이드 사용: 14(0.504) -> 4(0.372)
캐스케이드 사용: 3(0.512) -> 3(0.480)


TTA Cascade Prediction:  52%|█████▏    | 51/99 [07:28<07:16,  9.09s/it]

캐스케이드 사용: 7(0.389) -> 3(0.327)
캐스케이드 사용: 4(0.395) -> 7(0.485)
캐스케이드 사용: 3(0.527) -> 3(0.591)
캐스케이드 사용: 4(0.488) -> 4(0.548)


TTA Cascade Prediction:  53%|█████▎    | 52/99 [07:38<07:11,  9.19s/it]

캐스케이드 사용: 7(0.686) -> 7(0.524)
캐스케이드 사용: 3(0.699) -> 3(0.801)
캐스케이드 사용: 4(0.435) -> 4(0.469)
캐스케이드 사용: 7(0.384) -> 7(0.349)
캐스케이드 사용: 3(0.359) -> 3(0.538)
캐스케이드 사용: 14(0.662) -> 14(0.640)


TTA Cascade Prediction:  54%|█████▎    | 53/99 [07:48<07:10,  9.36s/it]

캐스케이드 사용: 4(0.513) -> 4(0.405)
캐스케이드 사용: 14(0.509) -> 14(0.295)
캐스케이드 사용: 14(0.343) -> 3(0.361)


TTA Cascade Prediction:  55%|█████▍    | 54/99 [07:57<06:57,  9.27s/it]

캐스케이드 사용: 7(0.645) -> 3(0.672)


TTA Cascade Prediction:  56%|█████▌    | 55/99 [08:05<06:37,  9.03s/it]

캐스케이드 사용: 7(0.563) -> 7(0.527)
캐스케이드 사용: 7(0.597) -> 7(0.664)
캐스케이드 사용: 3(0.666) -> 3(0.731)
캐스케이드 사용: 14(0.321) -> 3(0.399)


TTA Cascade Prediction:  57%|█████▋    | 56/99 [08:14<06:31,  9.11s/it]

캐스케이드 사용: 7(0.553) -> 7(0.634)
캐스케이드 사용: 7(0.690) -> 7(0.711)


TTA Cascade Prediction:  58%|█████▊    | 57/99 [08:23<06:18,  9.00s/it]

캐스케이드 사용: 7(0.620) -> 3(0.379)
캐스케이드 사용: 4(0.646) -> 4(0.497)


TTA Cascade Prediction:  59%|█████▊    | 58/99 [08:32<06:06,  8.93s/it]

캐스케이드 사용: 4(0.352) -> 7(0.394)
캐스케이드 사용: 14(0.653) -> 14(0.693)
캐스케이드 사용: 3(0.412) -> 7(0.503)


TTA Cascade Prediction:  60%|█████▉    | 59/99 [08:41<06:02,  9.05s/it]

캐스케이드 사용: 3(0.404) -> 3(0.435)
캐스케이드 사용: 3(0.445) -> 7(0.526)
캐스케이드 사용: 7(0.513) -> 3(0.427)
캐스케이드 사용: 7(0.463) -> 7(0.394)


TTA Cascade Prediction:  61%|██████    | 60/99 [08:50<05:52,  9.05s/it]

캐스케이드 사용: 7(0.696) -> 7(0.738)
캐스케이드 사용: 4(0.333) -> 4(0.332)
캐스케이드 사용: 7(0.363) -> 7(0.469)


TTA Cascade Prediction:  62%|██████▏   | 61/99 [09:00<05:46,  9.12s/it]

캐스케이드 사용: 4(0.660) -> 4(0.385)
캐스케이드 사용: 14(0.291) -> 7(0.386)
캐스케이드 사용: 14(0.585) -> 14(0.496)
캐스케이드 사용: 7(0.538) -> 3(0.594)
캐스케이드 사용: 3(0.505) -> 3(0.522)


TTA Cascade Prediction:  63%|██████▎   | 62/99 [09:09<05:39,  9.16s/it]

캐스케이드 사용: 14(0.651) -> 14(0.570)
캐스케이드 사용: 7(0.643) -> 7(0.441)


TTA Cascade Prediction:  64%|██████▎   | 63/99 [09:18<05:25,  9.03s/it]

캐스케이드 사용: 3(0.625) -> 3(0.567)
캐스케이드 사용: 4(0.660) -> 4(0.502)
캐스케이드 사용: 4(0.554) -> 4(0.482)


TTA Cascade Prediction:  66%|██████▌   | 65/99 [09:35<04:58,  8.78s/it]

캐스케이드 사용: 3(0.489) -> 7(0.506)
캐스케이드 사용: 7(0.656) -> 7(0.509)


TTA Cascade Prediction:  67%|██████▋   | 66/99 [09:44<04:51,  8.83s/it]

캐스케이드 사용: 7(0.390) -> 3(0.435)
캐스케이드 사용: 3(0.467) -> 3(0.649)
캐스케이드 사용: 4(0.465) -> 4(0.365)
캐스케이드 사용: 3(0.585) -> 3(0.705)


TTA Cascade Prediction:  69%|██████▊   | 68/99 [10:01<04:29,  8.70s/it]

캐스케이드 사용: 7(0.678) -> 7(0.631)
캐스케이드 사용: 4(0.428) -> 4(0.435)


TTA Cascade Prediction:  70%|██████▉   | 69/99 [10:10<04:20,  8.69s/it]

캐스케이드 사용: 7(0.529) -> 7(0.658)
캐스케이드 사용: 3(0.515) -> 3(0.561)
캐스케이드 사용: 7(0.246) -> 7(0.367)


TTA Cascade Prediction:  71%|███████   | 70/99 [10:19<04:14,  8.77s/it]

캐스케이드 사용: 3(0.393) -> 7(0.400)
캐스케이드 사용: 4(0.541) -> 7(0.607)


TTA Cascade Prediction:  72%|███████▏  | 71/99 [10:27<04:05,  8.75s/it]

캐스케이드 사용: 14(0.404) -> 7(0.455)


TTA Cascade Prediction:  73%|███████▎  | 72/99 [10:36<03:53,  8.66s/it]

캐스케이드 사용: 7(0.568) -> 7(0.516)
캐스케이드 사용: 7(0.601) -> 3(0.498)
캐스케이드 사용: 3(0.434) -> 3(0.632)
캐스케이드 사용: 14(0.514) -> 14(0.497)
캐스케이드 사용: 4(0.626) -> 4(0.592)


TTA Cascade Prediction:  74%|███████▎  | 73/99 [10:45<03:53,  8.99s/it]

캐스케이드 사용: 7(0.506) -> 7(0.596)
캐스케이드 사용: 4(0.625) -> 14(0.590)


TTA Cascade Prediction:  75%|███████▍  | 74/99 [10:54<03:40,  8.83s/it]

캐스케이드 사용: 7(0.692) -> 7(0.678)
캐스케이드 사용: 3(0.506) -> 3(0.545)
캐스케이드 사용: 14(0.630) -> 14(0.427)


TTA Cascade Prediction:  76%|███████▌  | 75/99 [11:03<03:33,  8.90s/it]

캐스케이드 사용: 7(0.325) -> 7(0.515)
캐스케이드 사용: 7(0.384) -> 3(0.394)


TTA Cascade Prediction:  77%|███████▋  | 76/99 [11:12<03:23,  8.85s/it]

캐스케이드 사용: 4(0.265) -> 3(0.369)
캐스케이드 사용: 3(0.431) -> 3(0.642)
캐스케이드 사용: 14(0.614) -> 14(0.442)


TTA Cascade Prediction:  78%|███████▊  | 77/99 [11:21<03:15,  8.89s/it]

캐스케이드 사용: 7(0.493) -> 3(0.500)
캐스케이드 사용: 4(0.657) -> 4(0.526)
캐스케이드 사용: 7(0.204) -> 7(0.406)
캐스케이드 사용: 3(0.448) -> 3(0.619)
캐스케이드 사용: 3(0.672) -> 3(0.779)


TTA Cascade Prediction:  79%|███████▉  | 78/99 [11:30<03:10,  9.06s/it]

캐스케이드 사용: 7(0.425) -> 7(0.321)
캐스케이드 사용: 3(0.642) -> 3(0.710)
캐스케이드 사용: 7(0.661) -> 7(0.758)
캐스케이드 사용: 4(0.260) -> 4(0.370)
캐스케이드 사용: 7(0.515) -> 3(0.547)


TTA Cascade Prediction:  80%|███████▉  | 79/99 [11:40<03:03,  9.19s/it]

캐스케이드 사용: 3(0.557) -> 3(0.446)
캐스케이드 사용: 4(0.457) -> 7(0.415)


TTA Cascade Prediction:  81%|████████  | 80/99 [11:48<02:51,  9.04s/it]

캐스케이드 사용: 4(0.549) -> 4(0.398)
캐스케이드 사용: 7(0.520) -> 3(0.546)
캐스케이드 사용: 7(0.498) -> 7(0.496)
캐스케이드 사용: 3(0.495) -> 3(0.680)


TTA Cascade Prediction:  82%|████████▏ | 81/99 [11:58<02:43,  9.10s/it]

캐스케이드 사용: 4(0.585) -> 4(0.408)


TTA Cascade Prediction:  83%|████████▎ | 82/99 [12:06<02:31,  8.91s/it]

캐스케이드 사용: 7(0.296) -> 7(0.413)


TTA Cascade Prediction:  84%|████████▍ | 83/99 [12:14<02:20,  8.77s/it]

캐스케이드 사용: 7(0.317) -> 3(0.433)
캐스케이드 사용: 3(0.432) -> 7(0.462)


TTA Cascade Prediction:  85%|████████▍ | 84/99 [12:23<02:11,  8.74s/it]

캐스케이드 사용: 4(0.367) -> 3(0.565)
캐스케이드 사용: 14(0.698) -> 14(0.798)


TTA Cascade Prediction:  87%|████████▋ | 86/99 [12:40<01:51,  8.57s/it]

캐스케이드 사용: 3(0.433) -> 3(0.429)
캐스케이드 사용: 3(0.627) -> 3(0.523)
캐스케이드 사용: 7(0.489) -> 3(0.418)
캐스케이드 사용: 7(0.445) -> 7(0.407)
캐스케이드 사용: 7(0.258) -> 7(0.442)


TTA Cascade Prediction:  88%|████████▊ | 87/99 [12:50<01:46,  8.84s/it]

캐스케이드 사용: 4(0.430) -> 4(0.402)
캐스케이드 사용: 4(0.520) -> 14(0.435)
캐스케이드 사용: 4(0.424) -> 4(0.347)


TTA Cascade Prediction:  89%|████████▉ | 88/99 [12:59<01:37,  8.88s/it]

캐스케이드 사용: 4(0.349) -> 4(0.317)
캐스케이드 사용: 4(0.682) -> 4(0.414)
캐스케이드 사용: 14(0.356) -> 3(0.363)
캐스케이드 사용: 3(0.647) -> 3(0.787)


TTA Cascade Prediction:  90%|████████▉ | 89/99 [13:08<01:30,  9.02s/it]

캐스케이드 사용: 4(0.510) -> 4(0.455)
캐스케이드 사용: 14(0.686) -> 14(0.690)
캐스케이드 사용: 7(0.309) -> 4(0.410)


TTA Cascade Prediction:  91%|█████████ | 90/99 [13:17<01:21,  9.01s/it]

캐스케이드 사용: 3(0.538) -> 7(0.481)
캐스케이드 사용: 7(0.643) -> 7(0.432)
캐스케이드 사용: 4(0.696) -> 14(0.477)


TTA Cascade Prediction:  92%|█████████▏| 91/99 [13:26<01:11,  9.00s/it]

캐스케이드 사용: 14(0.205) -> 3(0.306)


TTA Cascade Prediction:  93%|█████████▎| 92/99 [13:34<01:01,  8.83s/it]

캐스케이드 사용: 3(0.693) -> 3(0.608)
캐스케이드 사용: 3(0.510) -> 3(0.560)
캐스케이드 사용: 14(0.543) -> 7(0.664)
캐스케이드 사용: 3(0.503) -> 3(0.529)
캐스케이드 사용: 14(0.525) -> 4(0.383)


TTA Cascade Prediction:  94%|█████████▍| 93/99 [13:44<00:54,  9.02s/it]

캐스케이드 사용: 3(0.355) -> 3(0.405)
캐스케이드 사용: 3(0.571) -> 3(0.467)


TTA Cascade Prediction:  95%|█████████▍| 94/99 [13:52<00:44,  8.93s/it]

캐스케이드 사용: 7(0.426) -> 4(0.360)


TTA Cascade Prediction:  97%|█████████▋| 96/99 [14:09<00:25,  8.62s/it]

캐스케이드 사용: 3(0.363) -> 3(0.436)
캐스케이드 사용: 7(0.644) -> 7(0.790)
캐스케이드 사용: 7(0.450) -> 4(0.397)
캐스케이드 사용: 7(0.611) -> 7(0.459)
캐스케이드 사용: 3(0.663) -> 3(0.622)
캐스케이드 사용: 7(0.307) -> 3(0.422)
캐스케이드 사용: 7(0.514) -> 7(0.491)
캐스케이드 사용: 3(0.591) -> 3(0.584)
캐스케이드 사용: 4(0.334) -> 3(0.441)
캐스케이드 사용: 3(0.275) -> 3(0.668)


TTA Cascade Prediction:  98%|█████████▊| 97/99 [14:20<00:18,  9.28s/it]

캐스케이드 사용: 14(0.638) -> 14(0.519)
캐스케이드 사용: 4(0.331) -> 7(0.360)
캐스케이드 사용: 7(0.406) -> 7(0.531)
캐스케이드 사용: 3(0.416) -> 7(0.456)


TTA Cascade Prediction: 100%|██████████| 99/99 [14:30<00:00,  8.80s/it]


캐스케이드 사용 통계:
- 메인 분류기만 사용: 2865개 (91.2%)
- 캐스케이드 사용: 275개 (8.8%)





In [None]:

# 결과 저장
result_df = test_df.copy()
result_df['target'] = test_predictions
result_df['confidence'] = test_confidences

# submission 파일 저장
output_path = "../data/output/cascade_submission3.csv"
print(f"📁 결과 저장: {output_path}")
result_df[['ID', 'target']].to_csv(output_path, index=False)
