# 데이터 전처리 및 Feature 구성 요약

#### Feature 타입 구성
- 수치형 feature 개수: 85
- 범주형 feature 개수: 1
- 범주형 feature 목록:
  - `gender`: 3개 클래스 (male, female, unknown)

---

#### 전처리 단계 (컬럼 정리 및 파생)

- 중복 컬럼 제거:
  - `bd`와 `bd_clean`이 동시에 존재할 경우
    - `bd` 컬럼 제거

- 시간 관련 컬럼 처리:
  - `registration_init_time`로부터 파생:
    - `reg_year` (연도, Int64)

- 원본 컬럼 제거:
  - `registration_init_time`
  - `registration_month`
  - 목적: Datetime / Period 타입으로 인한 후속 처리 오류 방지

---

#### 전처리 파이프라인 구성

- Feature 타입 분리 기준:
  - 수치형(`num_cols`): `is_numeric_dtype == True`
  - 범주형(`cat_cols`): 수치형이 아닌 feature

- 수치형 feature 전처리:
  - 결측치 처리: `SimpleImputer(strategy="median")`
  - 스케일링: 미적용

- 범주형 feature 전처리:
  - 결측치 처리: `SimpleImputer(strategy="most_frequent")`
  - 인코딩:
    - `OneHotEncoder`
    - `handle_unknown="ignore"`
    - `sparse_output=True`

- 전처리 통합 방식:
  - `ColumnTransformer`
    - 수치형: 중앙값 대체
    - 범주형: 최빈값 대체 → One-Hot Encoding
  - `remainder="drop"`

- 적용 범위:
  - train / validation / test 데이터에만 적용
  - inference 단계는 본 실험 범위에 포함되지 않음

---

#### 전처리 결과 Feature 차원 확인
 > - Split-based feature_importance는 OHE 이후 변환 feature 기준(85 + 3개)<br>
 > - Permutation importance는 원본 입력 컬럼 기준(86개)

- 전처리 후 validation feature matrix 차원:
  - `Xv.shape[1] = 86`

- Permutation importance 대상 feature 개수:
  - `len(perm.importances_mean) = 86`

- 전처리 파이프라인 출력 feature 개수:
  - `len(prep.get_feature_names_out()) = 88`

# 데이터 분할 설정

- 분할 방식:
  - Stratified random split (`stratify = is_churn`)
  - `random_state = 719`

- 분할 비율:
  - Train: 70% (602,676 × 86)
  - Validation: 15% (129,145 × 86)
  - Test: 15% (129,145 × 86)

- 분할 기준:
  - user-level feature table 기준
  - 각 행은 고유 사용자(msno)를 나타냄

# Model Hyperparameters

# Score (vaild/test)

# Confusion matrix (valid/test)

# Feature Importances (Top 20)

# Permutation Importance (Top 20)