## 주제

난임 환자 대상 임신 성공 예측

## 데이터

### 데이터 설명

- train.csv
    - ID: 샘플별 고유 ID (256,351 rows)
    - 난임 환자 시술 데이터 (67개 칼럼)
    - 임신 성공 여부
        - 1: 임신 성공
        - 0: 임신 실패
- test.csv
    - ID: 샘플별 고유 ID (90,067 rows)
    - 난임 환자 시술 데이터 (67개의 칼럼)
- sample_submission.csv
    - ID: 샘플별 고유 ID
    - probability: 예측한 임신 성공 확률
- 데이터 명세.xlsx
    - 난임 환자 시술 데이터에 대한 상세 설명

### EDA

- 불균형한 학습 데이터 분포
    - 임신 성공 여부에 따른 학습 데이터 수가 약 3:1 불균형
- 특정 Feature들의 경우, 약 90%이상의 데이터가 결측치로 존재
- 연결 및 포함 관계를 이루는 feature
    - 총 출산 횟수는 총 임신 횟수에 포함
    - 미세주입 배우 이식 수는 이식된 배아 수에 포함
- 도메인 지식을 통한 분석
    - 시술 당시 나이의 중요성
    - 배아 배양일의 중요성
    - 환자별 시술 여정에 대한 이해의 중요성

## 코드 흐름

**Pre-mice process**

- 시술 유형 ‘DI’관련 처리
- 기타 결측치 채우기 전 전처리

**Mice Model**

특정 칼럼들의 결측치를 채우는 Model

**Feature engineering**

- 포함 관계롤 비율 계산
- 시술 시기 코드를 활용한 feature 병합

**ML**

- CatBoostModel 활용
- Hyperparameter: Optuna 활용
- OOF(Out of fold) 평가

### 전처리

- Multivariate Imputation of Chained Equations(MICE)를 통한 결측치 처리: 변수 간의 dependency를 활용해 결측값을 반복적으로 채우는 기법
- 칼럼 간 관계도를 통한 파생변수 생성
- 도메인 지식을 통한 파생변수 생성

### 모델링

- 모델: CatBoost(Gradient boosting with categorical features support)
    - 범주형 데이터 처리 시 Overfitting을 방지하며, Feature 간의 Cobination(greedy) 등을 통해 효과적으로 학습하는 모델
- Hyperparameter tuning: Optuna
    - Optuna: Hyperparameter optimization framework로 hyperparameter searching
- OOF (Out-Of-Fold) Predictions
    - K-Fold 교차 검증을 사용하여 각 검증 데이터셋에서 나온 예측값을 저장한 결과물
    - OOF Predictions는 K-Fold 검증에서 나온 예측값을 모아 Stacking이나 앙상블에 활용하는 기법
    - 각 fold 별로 학습을 한 뒤 예측한 값들을 앙상블 하므로 모델 검증을 동시에 진행할 수 있음
    - 단순 CV 보다 더 좋은 성능을 발휘할 수 있으며 과적합을 방지할 수 있음

### 평가

- OOF를 통항 결과 분석

## 차별점 및 배울점

EDA 부분에서 데이터를 관찰하는 것에서 그치지 않고 도메인 지식을 이용하여 새로운 인사이트를 도출하고 이후 전처리 방향에 대해서 고민한 부분이 인상적이었다. 이후 전처리에서 도메인 지식을 이용하여 파생변수를 생성한 것이 좋았다.