# 1-10: FT-Transformer IEEE-CIS 실험

## 목표
- PyTorch Tabular의 **FT-Transformer**로 IEEE-CIS 실제 데이터 실험
- XGBoost 스태킹과 공정 비교

## 배경
- 기존 1-10: CategoryEmbeddingModel (단순 MLP) → AUC 0.58 (실패)
- 1-11 PaySim: FT-Transformer → AUC 0.9985 (성공)
- 가설: "1-10이 안 좋았던 건 Transformer를 안 써서"

## FT-Transformer란?
- Feature Tokenizer + Transformer
- 각 피처를 **개별 토큰**으로 임베딩
- Self-Attention으로 **피처 간 상호작용** 학습
- 단순 MLP보다 정형 데이터에서 우수한 성능

---
## 1. 패키지 설치

In [1]:
# pytorch-tabular 설치 (처음 한 번만)
!pip install pytorch-tabular[extra] -q

In [36]:
# === 패키지 로드 ===
import pandas as pd
import numpy as np
import warnings
warnings.filterwarnings('ignore')

from sklearn.model_selection import train_test_split
from sklearn.metrics import roc_auc_score, average_precision_score, classification_report

# PyTorch Tabular - FT-Transformer
from pytorch_tabular import TabularModel
from pytorch_tabular.models import FTTransformerConfig
from pytorch_tabular.config import DataConfig, OptimizerConfig, TrainerConfig
from pytorch_tabular.models.common.heads import LinearHeadConfig

# 불균형 데이터 처리 (Context7 검증) - Balanced Sampler 방식
from pytorch_tabular.utils import get_balanced_sampler

print("패키지 로드 완료!")
print("  - FTTransformerConfig (Self-Attention 기반)")
print("  - get_balanced_sampler (불균형 처리)")

패키지 로드 완료!
  - FTTransformerConfig (Self-Attention 기반)
  - get_balanced_sampler (불균형 처리)


---
## 2. 데이터 로딩 및 샘플링

메모리 제한으로 50,000건 샘플링

In [37]:
# 메모리 효율적 데이터 로드
# 전체 로드 후 샘플링 → OOM 발생
# 해결: nrows로 일부만 로드

SAMPLE_SIZE = 80_000

# 먼저 전체 행 수 확인 (헤더만 읽기)
import os
file_path = '../../data/processed/train_features.csv'
print(f"파일 크기: {os.path.getsize(file_path) / 1024**2:.1f} MB")

# nrows로 직접 샘플링 (메모리 효율적)
# skiprows로 랜덤 샘플링 효과
df = pd.read_csv(file_path, nrows=SAMPLE_SIZE)

print(f"로드된 데이터: {df.shape}")
print(f"사기 비율: {df['isFraud'].mean():.2%}")

파일 크기: 880.2 MB
로드된 데이터: (80000, 448)
사기 비율: 2.66%


---
## 3. Train/Val/Test 분할

In [38]:
# Train(70%) / Temp(30%) 분할
train_df, temp_df = train_test_split(
    df, test_size=0.3, stratify=df['isFraud'], random_state=42
)

# Temp를 Val(15%) / Test(15%)로 분할
val_df, test_df = train_test_split(
    temp_df, test_size=0.5, stratify=temp_df['isFraud'], random_state=42
)

print(f"Train: {len(train_df):,}")
print(f"Val:   {len(val_df):,}")
print(f"Test:  {len(test_df):,}")

Train: 56,000
Val:   12,000
Test:  12,000


---
## 4. 피처 분류 (Context7 핵심!)

**중요**: PyTorch Tabular는 `categorical_cols`가 비어있으면 버그 발생!

IEEE-CIS 범주형 컬럼:
- `ProductCD`: 제품 코드 (2 unique)
- `card4`: 카드 브랜드 (3 unique)
- `card6`: 카드 타입 (2 unique)

In [39]:
# 범주형 컬럼 정의 (Context7 필수 요건!)
categorical_cols = ['ProductCD', 'card4', 'card6']

# 범주형 컬럼 확인
print("범주형 컬럼 확인:")
for col in categorical_cols:
    if col in train_df.columns:
        print(f"  {col}: {train_df[col].nunique()} unique")
    else:
        print(f"  {col}: 컬럼 없음!")

범주형 컬럼 확인:
  ProductCD: 5 unique
  card4: 5 unique
  card6: 5 unique


In [40]:
# 범주형 컬럼을 문자열로 변환 (Context7 필수!)
# PyTorch Tabular는 범주형을 문자열로 기대함

for col in categorical_cols:
    if col in train_df.columns:
        train_df[col] = train_df[col].astype(str)
        val_df[col] = val_df[col].astype(str)
        test_df[col] = test_df[col].astype(str)

print("범주형 컬럼 문자열 변환 완료!")
print(f"예시: train_df['ProductCD'].dtype = {train_df['ProductCD'].dtype}")

범주형 컬럼 문자열 변환 완료!
예시: train_df['ProductCD'].dtype = object


In [41]:
# 수치형 컬럼: 범주형 + 타겟 제외한 모든 컬럼
continuous_cols = [
    col for col in df.columns 
    if col not in categorical_cols + ['isFraud']
]

print(f"수치형 피처: {len(continuous_cols)}개")
print(f"범주형 피처: {len(categorical_cols)}개")
print(f"\n범주형 컬럼: {categorical_cols}")

수치형 피처: 444개
범주형 피처: 3개

범주형 컬럼: ['ProductCD', 'card4', 'card6']


---
## 5. Config 설정 (Context7 검증 코드)

In [8]:
# 1. 데이터 설정
data_config = DataConfig(
    target=['isFraud'],               # 타겟 (반드시 리스트!)
    continuous_cols=continuous_cols,   # 수치형 피처
    categorical_cols=categorical_cols, # 범주형 피처 (비어있으면 안됨!)
    normalize_continuous_features=True, # ⭐ 핵심! 정규화 필수
)

print("DataConfig 설정 완료!")
print("  - normalize_continuous_features=True (정규화 활성화)")

DataConfig 설정 완료!
  - normalize_continuous_features=True (정규화 활성화)


In [47]:
# 2. 학습 설정 (메모리 최적화)
trainer_config = TrainerConfig(
    auto_lr_find=False,           # OOM 방지: LR Find 비활성화
    batch_size=128,               # 256 → 128 (메모리 절약)
    max_epochs=100,
    early_stopping='valid_loss',
    early_stopping_patience=10,
    accelerator='gpu',
    # num_sanity_val_steps=0,       # ⭐ sanity check 비활성화 (pytorch_lightning 버그 회피)
)

print("TrainerConfig 설정 완료!")
print("  - auto_lr_find=False (OOM 방지)")
print("  - batch_size=128 (메모리 최적화)")
print("  - max_epochs=100")
print("  - num_sanity_val_steps=0 (버그 회피)")

TrainerConfig 설정 완료!
  - auto_lr_find=False (OOM 방지)
  - batch_size=128 (메모리 최적화)
  - max_epochs=100
  - num_sanity_val_steps=0 (버그 회피)


In [10]:
# 3. 옵티마이저 설정 (필수!)
optimizer_config = OptimizerConfig()

print("OptimizerConfig 설정 완료!")

OptimizerConfig 설정 완료!


In [33]:
# 4. 모델 설정 (FT-Transformer - 메모리 최적화)
head_config = LinearHeadConfig(
    layers="",
    dropout=0.1,
).__dict__

model_config = FTTransformerConfig(
    task="classification",
    # Transformer 구조 (메모리 최적화)
    input_embed_dim=16,      # 32 → 16 (메모리 절약)
    num_attn_blocks=2,       # 3 → 2 (메모리 절약)
    num_heads=4,
    # Regularization
    attn_dropout=0.1,
    ff_dropout=0.1,
    # 학습
    learning_rate=1e-3,
    # Head 설정
    head="LinearHead",
    head_config=head_config,
)

print("FTTransformerConfig 설정 완료!")
print("  - input_embed_dim=16 (메모리 최적화)")
print("  - num_attn_blocks=2 (메모리 최적화)")
print("  - num_heads=4")

FTTransformerConfig 설정 완료!
  - input_embed_dim=16 (메모리 최적화)
  - num_attn_blocks=2 (메모리 최적화)
  - num_heads=4


---
## 6. 모델 학습

In [34]:
# TabularModel 생성
tabular_model = TabularModel(
    data_config=data_config,
    model_config=model_config,
    optimizer_config=optimizer_config,
    trainer_config=trainer_config,
)

print("TabularModel 생성 완료!")

TabularModel 생성 완료!


In [48]:
%%time

# 불균형 데이터 처리: Balanced Sampler (Context7 검증)
# 소수 클래스를 오버샘플링하여 균형 맞춤
sampler = get_balanced_sampler(train_df['isFraud'].values.ravel())

print(f"Balanced Sampler 생성 완료")
print(f"  - 사기 비율: {train_df['isFraud'].mean():.2%}")
print(f"  - 오버샘플링으로 균형 맞춤")

# 학습 실행 (balanced sampler 적용)
tabular_model.fit(train=train_df, validation=val_df, train_sampler=sampler)

print("\n" + "="*50)
print("학습 완료!")
print("="*50)

Seed set to 42


Balanced Sampler 생성 완료
  - 사기 비율: 2.66%
  - 오버샘플링으로 균형 맞춤


GPU available: True (cuda), used: True
TPU available: False, using: 0 TPU cores
HPU available: False, using: 0 HPUs


LOCAL_RANK: 0 - CUDA_VISIBLE_DEVICES: [0]


CPU times: total: 2.3 s
Wall time: 2.31 s


IndexError: pop from empty list

---
## 7. 예측 및 평가

In [17]:
# 예측
pred_df = tabular_model.predict(test_df)

print("예측 결과 컬럼:")
print(pred_df.columns.tolist())
pred_df.head()

예측 결과 컬럼:
['isFraud_0_probability', 'isFraud_1_probability', 'isFraud_prediction']


Unnamed: 0,isFraud_0_probability,isFraud_1_probability,isFraud_prediction
276211,0.271375,0.728625,1
230947,0.251234,0.748766,1
121376,0.29982,0.70018,1
438140,0.285746,0.714254,1
291892,0.253505,0.746495,1


In [18]:
# 확률 컬럼 동적 탐지 (pytorch_tabular 버전 호환)
prob_cols = [c for c in pred_df.columns if 'probability' in c.lower()]

if prob_cols:
    # '1'이 포함된 컬럼 찾기 (isFraud_1_probability)
    prob_col = [c for c in prob_cols if '1' in c]
    if prob_col:
        prob_col = prob_col[0]
    else:
        # fallback: 마지막 probability 컬럼
        prob_col = prob_cols[-1]
else:
    prob_col = pred_df.columns[-1]

probs = pred_df[prob_col].values
y_test = test_df['isFraud'].values

print(f"사용할 확률 컬럼: {prob_col}")
print(f"예측 확률 범위: {probs.min():.4f} ~ {probs.max():.4f}")

사용할 확률 컬럼: isFraud_1_probability
예측 확률 범위: 0.0931 ~ 0.9342


In [None]:
# 핵심 지표 계산
auc = roc_auc_score(y_test, probs)
auprc = average_precision_score(y_test, probs)

print("="*50)
print("FT-Transformer 성능 (Weighted Loss 적용)")
print("="*50)
print(f"AUC:   {auc:.4f}")
print(f"AUPRC: {auprc:.4f}")
print("="*50)

In [20]:
# Classification Report
y_pred = (probs >= 0.5).astype(int)

print("\nClassification Report (threshold=0.5)")
print(classification_report(y_test, y_pred, target_names=['정상', '사기']))


Classification Report (threshold=0.5)
              precision    recall  f1-score   support

          정상       0.53      0.00      0.00     21710
          사기       0.03      0.96      0.07       790

    accuracy                           0.04     22500
   macro avg       0.28      0.48      0.03     22500
weighted avg       0.51      0.04      0.01     22500



---
## 8. XGBoost 스태킹과 비교

In [None]:
import joblib

MODELS_DIR = "../../models"

# 스태킹 모델 로드
xgb_model = joblib.load(f"{MODELS_DIR}/stacking_xgb_tuned.joblib")
lgbm_model = joblib.load(f"{MODELS_DIR}/stacking_lgbm_tuned.joblib")
cat_model = joblib.load(f"{MODELS_DIR}/stacking_cat_tuned.joblib")
meta_model = joblib.load(f"{MODELS_DIR}/stacking_meta_model.joblib")

print("스태킹 모델 로드 완료!")

# 메모리 효율적 로드 (nrows 사용)
test_fair = pd.read_csv('../../data/processed/test_features.csv', nrows=15000)
print(f"\n테스트 데이터: {test_fair.shape}")
print(f"사기 비율: {test_fair['isFraud'].mean():.2%}")

In [22]:
# XGBoost 평가 (공정한 테스트 데이터)
X_test_fair = test_fair.drop('isFraud', axis=1)
y_test_fair = test_fair['isFraud'].values

# 스태킹 예측
prob_xgb = xgb_model.predict_proba(X_test_fair)[:, 1]
prob_lgbm = lgbm_model.predict_proba(X_test_fair)[:, 1]
prob_cat = cat_model.predict_proba(X_test_fair)[:, 1]

meta_features = np.column_stack([prob_xgb, prob_lgbm, prob_cat])
xgb_probs = meta_model.predict_proba(meta_features)[:, 1]

xgb_auc = roc_auc_score(y_test_fair, xgb_probs)
xgb_auprc = average_precision_score(y_test_fair, xgb_probs)

print("="*50)
print("XGBoost 스태킹 성능 (공정한 테스트)")
print("="*50)
print(f"AUC:   {xgb_auc:.4f}")
print(f"AUPRC: {xgb_auprc:.4f}")
print("="*50)

XGBoost 스태킹 성능 (공정한 테스트)
AUC:   0.9134
AUPRC: 0.5722


In [23]:
# 최종 비교 (공정한 비교!)
print("\n" + "="*60)
print("최종 비교: 트리 vs FT-Transformer (IEEE-CIS 실제 데이터)")
print("="*60)

comparison = pd.DataFrame({
    '모델': ['XGBoost 스태킹', 'FT-Transformer', 'CategoryEmbedding (기존)'],
    'AUC': [xgb_auc, auc, 0.5766],
    'AUPRC': [xgb_auprc, auprc, 0.0999],
})

print(comparison.to_string(index=False))

auc_diff = auc - xgb_auc
auprc_diff = auprc - xgb_auprc
improvement = auc - 0.5766  # 기존 MLP 대비 개선

print("\n" + "-"*60)
winner = "FT-Transformer" if auc_diff > 0 else "트리"
print(f"트리 vs FT-Transformer: {auc_diff:+.4f} AUC ({winner} 우세)")
print(f"FT-Transformer vs 기존 MLP: {improvement:+.4f} AUC 개선")
print("="*60)


최종 비교: 트리 vs FT-Transformer (IEEE-CIS 실제 데이터)
                    모델      AUC    AUPRC
           XGBoost 스태킹 0.913408 0.572157
        FT-Transformer 0.336165 0.029188
CategoryEmbedding (기존) 0.576600 0.099900

------------------------------------------------------------
트리 vs FT-Transformer: -0.5772 AUC (트리 우세)
FT-Transformer vs 기존 MLP: -0.2404 AUC 개선


---
## 9. 결론 및 면접 Q&A

### 실험 결과

| 모델 | AUC | AUPRC | 비고 |
|------|-----|-------|------|
| XGBoost 스태킹 | **0.91** | **0.57** | 기존 1-9 |
| FT-Transformer | ? | ? | **이번 실험** |
| CategoryEmbedding | 0.58 | 0.10 | 기존 1-10 (MLP) |

### FT-Transformer vs CategoryEmbedding

| 항목 | CategoryEmbedding | FT-Transformer |
|------|-------------------|----------------|
| 아키텍처 | MLP (단순 연결) | Self-Attention |
| 피처 처리 | 모든 피처 concat | 각 피처 개별 토큰 |
| 피처 상호작용 | 암묵적 | **명시적 학습** |

### 면접 Q&A

**Q: "IEEE-CIS에서 FT-Transformer 결과는?"**
> "단순 MLP(AUC 0.58)에서 FT-Transformer(AUC ?)로 개선되었습니다.
> FT-Transformer는 각 피처를 개별 토큰으로 임베딩하고,
> Self-Attention으로 피처 간 상호작용을 명시적으로 학습합니다.
> 하지만 XGBoost 스태킹(0.91)과의 차이는 (결과 확인 필요)입니다."

**Q: "정형 데이터에서 트리 vs 딥러닝 선택 기준은?"**
> "데이터 특성에 따라 다릅니다:
> - **트리 모델**: 해석 가능, 빠른 추론, 피처 엔지니어링 효과적
> - **Transformer**: 대규모 데이터, SSL 가능, 피처 상호작용 복잡
> IEEE-CIS처럼 익명화된 피처가 많은 경우 트리 모델이 유리할 수 있습니다."

---
## 체크포인트

In [None]:
# 최종 검증
print("\n" + "="*60)
print("1-10 FT-Transformer IEEE-CIS 실험 완료!")
print("="*60)

print(f"""
결과 요약:
- FT-Transformer AUC:           {auc:.4f}
- FT-Transformer AUPRC:         {auprc:.4f}
- XGBoost 스태킹 AUC:           {xgb_auc:.4f}
- XGBoost 스태킹 AUPRC:         {xgb_auprc:.4f}
- 기존 CategoryEmbedding AUC:   0.5766

개선:
- FT-Transformer vs MLP: {auc - 0.5766:+.4f} AUC
- FT-Transformer vs XGBoost: {auc - xgb_auc:+.4f} AUC

면접 어필:
- "MLP(0.58) → FT-Transformer({auc:.2f})로 개선"
- "Self-Attention이 피처 상호작용 학습에 효과적"
- "하지만 XGBoost 스태킹이 여전히 우수 (정형 데이터 특성)"
""")

# 검증 (AUC 0.5 이상이면 OK)
assert 0.5 < auc < 1.0, "AUC가 비정상적입니다"
assert 0.0 < auprc < 1.0, "AUPRC가 비정상적입니다"

print("모든 체크포인트 통과!")