## Model (v2)

### Feature 타입 구성

- 전체 feature 개수 (모델 입력 기준): **84**
- 수치형 feature 개수: **76**
- 범주형 feature 개수: **8**

#### 범주형 feature 목록 (고정)

- `city`
- `gender`
- `registered_via`
- `last_payment_method`
- `has_ever_paid`
- `has_ever_cancelled`
- `is_auto_renew_last`
- `is_free_user`

> 범주형 feature는 의미상 코드/상태 변수로 판단하여  
> 사전에 명시적으로 지정함 (`dtype=category`, 자동 추론 미사용)

---

### Feature Table 사용 원칙

- 본 실험에서는 **사전에 확정된 feature table (`features_v2`)**를 그대로 사용
- 컬럼 구성 및 dtype은 이미 고정된 상태이며,
  Logistic Regression 노트북에서는 **추가적인 컬럼 생성/제거를 수행하지 않음**
- 모델별 전처리(OHE, scaling 등)는 **학습 시점 파이프라인에서만 적용**

---

### 모델 전처리 파이프라인

---

# 데이터 분할 설정

- 분할 방식:
  - Stratified random split (`stratify = is_churn`)
  - `random_state = 42`

- 분할 비율:
  - Train: 70% (602,676 × 84)
  - Validation: 15% (129,145 × 84)
  - Test: 15% (129,145 × 84)

- 분할 기준:
  - user-level feature table 기준
  - 각 행은 고유 사용자(msno)를 나타냄

# Model Hyperparameters

# Score (vaild/test)

# Confusion matrix (valid/test)

In [1]:
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

def plot_confusion_matrices(
    cm: np.ndarray,
    title: str,
    labels=("Non-churn (0)", "Churn (1)"),
    save_path: str | None = None,
):
    """
    cm: shape (2,2) confusion matrix in form:
        [[TN, FP],
         [FN, TP]]
    """
    sns.set_theme(style="white", font_scale=1.1)

    cm = np.array(cm, dtype=int)
    cm_norm = cm / cm.sum(axis=1, keepdims=True)  # row-normalized

    fig, axes = plt.subplots(1, 2, figsize=(12, 4.8))

    # --- (1) Raw counts ---
    ax = axes[0]
    sns.heatmap(
        cm,
        annot=True,
        fmt="d",
        cmap="Blues",
        cbar=False,
        linewidths=0.5,
        linecolor="white",
        square=True,
        xticklabels=labels,
        yticklabels=labels,
        ax=ax,
    )
    ax.set_title(f"{title}\nCounts", weight="bold", pad=10)
    ax.set_xlabel("Predicted")
    ax.set_ylabel("True")

    # --- (2) Row-normalized (recall view) ---
    ax = axes[1]
    sns.heatmap(
        cm_norm,
        annot=True,
        fmt=".2%",
        cmap="Blues",
        cbar=True,
        linewidths=0.5,
        linecolor="white",
        square=True,
        xticklabels=labels,
        yticklabels=labels,
        vmin=0,
        vmax=1,
        ax=ax,
    )
    ax.set_title(f"{title}\nRow-normalized", weight="bold", pad=10)
    ax.set_xlabel("Predicted")
    ax.set_ylabel("True")

    plt.tight_layout()

    if save_path:
        plt.savefig(save_path, dpi=300, bbox_inches="tight")

    plt.show()


# Feature Importances (Top 20)

# Permutation Importance (Top 20)