# Import + CSV

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import prince

from sklearn.ensemble import ExtraTreesClassifier
from sklearn.preprocessing import OrdinalEncoder, OneHotEncoder

import lightgbm as lgb
from sklearn.model_selection import train_test_split
from sklearn.metrics import roc_auc_score

train = pd.read_csv('./train.csv').drop(columns=['ID'])
test = pd.read_csv('./test.csv').drop(columns=['ID'])

# EDA

### 단순 drop (수정: 그냥 결측치 많은 거 전부 제거 + 난자 채취 경과일 살리기)

In [None]:
train.drop(columns=['임신 시도 또는 마지막 임신 경과 연수'], inplace=True)
test.drop(columns=['임신 시도 또는 마지막 임신 경과 연수'], inplace=True)

train.drop(columns=['착상 전 유전 검사 사용 여부'], inplace=True)
test.drop(columns=['착상 전 유전 검사 사용 여부'], inplace=True)

train.drop(columns=['난자 해동 경과일'], inplace=True)
test.drop(columns=['난자 해동 경과일'], inplace=True)

train.drop(columns=['배아 해동 경과일'], inplace=True)
test.drop(columns=['배아 해동 경과일'], inplace=True)

train.drop(columns=['PGS 시술 여부'], inplace=True)
test.drop(columns=['PGS 시술 여부'], inplace=True)

train.drop(columns=['PGD 시술 여부'], inplace=True)
test.drop(columns=['PGD 시술 여부'], inplace=True)

train.drop(columns=['동결 배아 사용 여부'], inplace=True)
test.drop(columns=['동결 배아 사용 여부'], inplace=True)

train.drop(columns=['난자 채취 경과일'], inplace=True)
test.drop(columns=['난자 채취 경과일'], inplace=True)

### DI 시술 여부일 때 결측치 -1 처리

In [None]:
features = ['미세주입된 난자 수', '미세주입에서 생성된 배아 수', '미세주입 배아 이식 수', '미세주입 후 저장된 배아 수',
           '해동된 배아 수', "총 생성 배아 수", '해동 난자 수',  '수집된 신선 난자 수', '저장된 신선 난자 수',
           '혼합된 난자 수', '파트너 정자와 혼합된 난자 수', '기증자 정자와 혼합된 난자 수',
           '이식된 배아 수', '저장된 배아 수']

train[features] = train[features].fillna(-1)
test[features] = test[features].fillna(-1)

### DI 시술 여부일 때 결측치 -1 처리 후 원 핫 인코딩 (추가됨)

In [None]:
# 결측치를 -1로 채우기
cols_to_fill = ['신선 배아 사용 여부', '기증 배아 사용 여부', '대리모 여부', 
                '단일 배아 이식 여부', '착상 전 유전 진단 사용 여부']

train[cols_to_fill] = train[cols_to_fill].fillna(-1)

# 원핫인코딩 적용
train_encoded = pd.get_dummies(train, columns=cols_to_fill)

# 기존 열을 삭제한 train 데이터프레임
train = train_encoded

# 결측치를 -1로 채우기
cols_to_fill = ['신선 배아 사용 여부', '기증 배아 사용 여부', '대리모 여부', 
                '단일 배아 이식 여부', '착상 전 유전 진단 사용 여부']

test[cols_to_fill] = test[cols_to_fill].fillna(-1)

# 원핫인코딩 적용
test_encoded = pd.get_dummies(test, columns=cols_to_fill)

# 기존 열을 삭제한 test 데이터프레임
test = test_encoded


### 주/부 count feature 추가

In [None]:
train["주 불임 원인 개수"] = (
    train["남성 주 불임 원인"] + train["여성 주 불임 원인"] + train["부부 주 불임 원인"]
)
test["주 불임 원인 개수"] = (
    test["남성 주 불임 원인"] + test["여성 주 불임 원인"] + test["부부 주 불임 원인"]
)

train["부 불임 원인 개수"] = (
    train["남성 부 불임 원인"] + train["여성 부 불임 원인"] + train["부부 부 불임 원인"]
)
test["부 불임 원인 개수"] = (
    test["남성 부 불임 원인"] + test["여성 부 불임 원인"] + test["부부 부 불임 원인"]
)

### 여성 요인 합체

In [None]:
train["불임 원인 - 여성 요인"] = (
    train["불임 원인 - 자궁내막증"] + train["불임 원인 - 자궁경부 문제"] + train["불임 원인 - 난관 질환"] + train["불임 원인 - 배란 장애"]
)
test["불임 원인 - 여성 요인"] = (
    test["불임 원인 - 자궁내막증"] + test["불임 원인 - 자궁경부 문제"] + test["불임 원인 - 배란 장애"]
)

### 남성 요인 개수 feature 추가

In [None]:
train["불임 원인 - 남성 요인 개수"] = (
    train["불임 원인 - 정자 형태"] + 
    train["불임 원인 - 정자 운동성"] + 
    train["불임 원인 - 정자 면역학적 요인"] + 
    train["불임 원인 - 정자 농도"]
)

test["불임 원인 - 남성 요인 개수"] = (
    test["불임 원인 - 정자 형태"] + 
    test["불임 원인 - 정자 운동성"] + 
    test["불임 원인 - 정자 면역학적 요인"] + 
    test["불임 원인 - 정자 농도"]
)

### 배아 생성 주요 이유 (원핫)

In [None]:
# 1. '연구용' 포함 행 삭제 (결측치가 있으면 빈 문자열이므로 함께 처리)
train = train[~train['배아 생성 주요 이유'].fillna('').str.contains('연구용')]
test = test[~test['배아 생성 주요 이유'].fillna('').str.contains('연구용')]

# 결측치 문자열 'Nan'으로 처리
train['배아 생성 주요 이유'] = train['배아 생성 주요 이유'].fillna('Nan')
test['배아 생성 주요 이유'] = test['배아 생성 주요 이유'].fillna('Nan')

# 3. One-hot encoding: 지정된 4가지 항목에 대해 dummy 변수 생성
reasons = ['Nan','기증용', '난자 저장용', '배아 저장용', '현재 시술용']

for reason in reasons:
    col_name = f'reason_{reason}'
    train[col_name] = train['배아 생성 주요 이유'].apply(lambda x: 1 if isinstance(x, str) and reason in x else 0)
    test[col_name] = test['배아 생성 주요 이유'].apply(lambda x: 1 if isinstance(x, str) and reason in x else 0)

# 4. 원래 있던 '배아 생성 주요 이유' 컬럼 삭제
train = train.drop(columns=['배아 생성 주요 이유'])
test = test.drop(columns=['배아 생성 주요 이유'])

### 시술 횟수 관련

In [None]:
valid_values = ['0회', '1회', '2회', '3회', '4회', '5회', '6회 이상']

## train ##
train = train[
    (train['총 시술 횟수'].isin(valid_values)) &
    (train['클리닉 내 총 시술 횟수'].isin(valid_values)) &
    (train['IVF 시술 횟수'].isin(valid_values)) &
    (train['DI 시술 횟수'].isin(valid_values)) &
    (train['총 출산 횟수'].isin(valid_values)) &
    (train['IVF 출산 횟수'].isin(valid_values)) &
    (train['DI 출산 횟수'].isin(valid_values)) &
    (train['총 임신 횟수'].isin(valid_values)) &
    (train['IVF 임신 횟수'].isin(valid_values)) &
    (train['DI 임신 횟수'].isin(valid_values))
]

for col in ['총 시술 횟수', '클리닉 내 총 시술 횟수', 'IVF 시술 횟수', 'DI 시술 횟수', '총 임신 횟수', 'IVF 임신 횟수', 'DI 임신 횟수', '총 출산 횟수', 'IVF 출산 횟수', 'DI 출산 횟수']:
    train[col] = train[col].replace('6회 이상', '6')
    train[col] = train[col].str.replace('회', '', regex=True).astype(int)

train['총 시술 횟수'] = train['IVF 시술 횟수'] + train['DI 시술 횟수']

## test ##
test = test[
    (test['총 시술 횟수'].isin(valid_values)) &
    (test['클리닉 내 총 시술 횟수'].isin(valid_values)) &
    (test['IVF 시술 횟수'].isin(valid_values)) &
    (test['DI 시술 횟수'].isin(valid_values)) &
    (test['총 출산 횟수'].isin(valid_values)) &
    (test['IVF 출산 횟수'].isin(valid_values)) &
    (test['DI 출산 횟수'].isin(valid_values)) &
    (test['총 임신 횟수'].isin(valid_values)) &
    (test['IVF 임신 횟수'].isin(valid_values)) &
    (test['DI 임신 횟수'].isin(valid_values))
]

for col in ['총 시술 횟수', '클리닉 내 총 시술 횟수', 'IVF 시술 횟수', 'DI 시술 횟수', '총 임신 횟수', 'IVF 임신 횟수', 'DI 임신 횟수', '총 출산 횟수', 'IVF 출산 횟수', 'DI 출산 횟수']:
    test[col] = test[col].replace('6회 이상', '6')
    test[col] = test[col].str.replace('회', '', regex=True).astype(int)

test['총 시술 횟수'] = test['IVF 시술 횟수'] + test['DI 시술 횟수']

### 특정 시술 유형 그룹화 + 원핫

In [None]:
# 특정 시술 유형 그룹화 함수
def categorize_treatment(treatment):
    if pd.isna(treatment) or "Unknown" in treatment:
        return "Unknown"
    elif "IVF" in treatment:
        return "IVF 기반"
    elif "ICSI" in treatment:
        return "ICSI 기반"
    elif "Generic DI" in treatment or "IUI" in treatment or "ICI" in treatment or "IVI" in treatment:
        return "DI 기반"
    else:
        return "Unknown"

# 특정 시술 유형 컬럼을 그룹화
train["특정 시술 유형"] = train["특정 시술 유형"].apply(categorize_treatment)
test["특정 시술 유형"] = test["특정 시술 유형"].apply(categorize_treatment)


# One-Hot Encoding 수행
train_encoded = pd.get_dummies(train["특정 시술 유형"], prefix="시술유형")
test_encoded = pd.get_dummies(test["특정 시술 유형"], prefix="시술유형")

# 기존 데이터프레임에 One-Hot Encoding된 컬럼 추가
train = pd.concat([train, train_encoded], axis=1)
test = pd.concat([test, test_encoded], axis=1)

# 원본 "특정 시술 유형" 컬럼 제거 (필요 시)
train.drop(columns=["특정 시술 유형"], inplace=True)
test.drop(columns=["특정 시술 유형"], inplace=True)

### 배란 유도 유형 정상화

In [None]:
train["배란 유도 유형"].replace(["세트로타이드 (억제제)", "생식선 자극 호르몬"], "알 수 없음", inplace=True)
test["배란 유도 유형"].replace(["세트로타이드 (억제제)", "생식선 자극 호르몬"], "알 수 없음", inplace=True)

### 난자출처/정자출처 원핫인코딩

In [None]:
# 원-핫 인코딩 수행
train = pd.get_dummies(train, columns=["난자 출처", "정자 출처"], dtype=int)
test = pd.get_dummies(test, columns=["난자 출처", "정자 출처"], dtype=int)

### 난자/정자 기증자 나이 라벨 인코딩 (수정: 오타 해결 + 결측치 -1 처리)

In [None]:
from sklearn.preprocessing import LabelEncoder

# 결측치를 -1로 처리 (난자 기증자 나이, 정자 기증자 나이)
train["난자 기증자 나이"].fillna("-1", inplace=True)
test["난자 기증자 나이"].fillna("-1", inplace=True)

train["정자 기증자 나이"].fillna("-1", inplace=True)
test["정자 기증자 나이"].fillna("-1", inplace=True)

# 라벨 인코딩 매핑 딕셔너리
age_mapping_nanja = {
    "만20세 이하": 0,
    "만21-25세": 1,
    "만26-30세": 2,
    "만31-35세": 3,
    "알 수 없음": -1
}

age_mapping_jungja = {
    "알 수 없음": -1, 
    "만21-25세": 1,
    "만26-30세": 2,
    "만31-35세": 3,
    "만36-40세": 4,
    "만41-45세": 5,
    "만20세 이하": 0,
}
    
# 라벨 인코딩 적용(난자)
train["난자 기증자 나이 (라벨 인코딩)"] = train["난자 기증자 나이"].map(age_mapping_nanja)
test["난자 기증자 나이 (라벨 인코딩)"] = test["난자 기증자 나이"].map(age_mapping_nanja)

# 원본 "난자 기증자 나이" 컬럼 제거(난자)
train.drop(columns=["난자 기증자 나이"], inplace=True)
test.drop(columns=["난자 기증자 나이"], inplace=True)

# 라벨 인코딩 적용(정자)
train["정자 기증자 나이 (라벨 인코딩)"] = train["정자 기증자 나이"].map(age_mapping_jungja)
test["정자 기증자 나이 (라벨 인코딩)"] = test["정자 기증자 나이"].map(age_mapping_jungja)

# 원본 "정자 기증자 나이" 컬럼 제거(정자)
train.drop(columns=["정자 기증자 나이"], inplace=True)
test.drop(columns=["정자 기증자 나이"], inplace=True)

### 시술 당시 나이 라벨 인코딩

In [None]:
# 라벨 인코딩 매핑 딕셔너리 (나이가 작은 순으로 매핑)
age_mapping_treatment = {
    "만18-34세": 0,
    "만35-37세": 1,
    "만38-39세": 2,
    "만40-42세": 3,
    "만43-44세": 4,
    "만45-50세": 5,
    "알 수 없음": -1
}

# 라벨 인코딩 적용
train["시술 당시 나이 (라벨 인코딩)"] = train["시술 당시 나이"].map(age_mapping_treatment)
test["시술 당시 나이 (라벨 인코딩)"] = test["시술 당시 나이"].map(age_mapping_treatment)

# 원본 "시술 당시 나이" 컬럼 제거
train.drop(columns=["시술 당시 나이"], inplace=True)
test.drop(columns=["시술 당시 나이"], inplace=True)

### 시술 시기 코드 원 핫 인코딩

In [None]:
# 전처리 함수
def preprocess_timing_code(code):
    return "Unknown" if pd.isna(code) else code

# 결측 처리 적용
train["시술 시기 코드"] = train["시술 시기 코드"].apply(preprocess_timing_code)
test["시술 시기 코드"] = test["시술 시기 코드"].apply(preprocess_timing_code)

# 인코딩 적용 및 컬럼 정렬 (train/test 직접 대체)
train = pd.get_dummies(train, columns=["시술 시기 코드"], prefix="시술시기")
test = pd.get_dummies(test, columns=["시술 시기 코드"], prefix="시술시기")
train, test = train.align(test, join='left', axis=1, fill_value=0)

***

# Label/One-Hot/Numeric Column List

In [None]:
label_columns = ['불명확 불임 원인', '배란 자극 여부', '시술 유형', '배란 유도 유형']

numeric_columns = ['임신 시도 또는 마지막 임신 경과 연수', '난자 혼합 경과일', '배아 이식 경과일'
                  , '총 시술 횟수', '클리닉 내 총 시술 횟수', 'IVF 시술 횟수', 'DI 시술 횟수', '총 임신 횟수'
                   , 'IVF 임신 횟수', 'DI 임신 횟수', '총 출산 횟수', 'IVF 출산 횟수', 'DI 출산 횟수' ]

# 결측치 처리 (추가됨: 결측치가 있는 남은 세 개의 정수형 feature를 중앙값으로 채우기)

In [None]:
num_list = ['난자 혼합 경과일', '배아 이식 경과일']

# 중앙값으로 결측치 채우기
num_list = ['난자 혼합 경과일', '배아 이식 경과일']

train[num_list] = train[num_list].fillna(train[num_list].median())
test[num_list] = test[num_list].fillna(test[num_list].median())

# 인코딩

In [None]:
# 카테고리형 컬럼들을 문자열로 변환
for col in label_columns:
    train[col] = train[col].astype(str)
    test[col] = test[col].astype(str)

ordinal_encoder = OrdinalEncoder(handle_unknown='use_encoded_value', unknown_value=-1)
train[label_columns] = ordinal_encoder.fit_transform(train[label_columns])
test[label_columns] = ordinal_encoder.transform(test[label_columns])

# X와 y로 분리

In [None]:
X = train.drop('임신 성공 여부', axis=1)
y = train['임신 성공 여부']

In [None]:
test.drop(columns=['임신 성공 여부'], inplace=True)

***

# 하이퍼파라미터 (stacking으로 바꿈, 학습모델과 파라미터는 계속 찾아야 할 듯)

In [None]:
import optuna
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import roc_auc_score
from imblearn.over_sampling import SMOTE
from pytorch_tabnet.tab_model import TabNetClassifier

# 데이터 분할
X_train, X_valid, y_train, y_valid = train_test_split(X, y, test_size=0.2, random_state=42)

# SMOTE 적용
smote = SMOTE(random_state=42)
X_train_resampled, y_train_resampled = smote.fit_resample(X_train, y_train)

# Optuna 하이퍼파라미터 튜닝을 위한 목적 함수
def objective(trial):
    # TabNet 하이퍼파라미터 설정
    tabnet_param = {
        'n_d': trial.suggest_int('n_d', 8, 64),  # Decision Layer 차원
        'n_a': trial.suggest_int('n_a', 8, 64),  # Attention Layer 차원
        'n_steps': trial.suggest_int('n_steps', 3, 10),  # 각 단계에서 학습하는 과정 수
        'gamma': trial.suggest_float('gamma', 1e-3, 1e-1, log=True),  # Regularization parameter
        'lambda_sparse': trial.suggest_float('lambda_sparse', 1e-5, 1e-3, log=True),  # Sparsity regularization
        'learning_rate': trial.suggest_loguniform('learning_rate', 1e-4, 1e-2),  # 학습률
        'weight_decay': trial.suggest_loguniform('weight_decay', 1e-5, 1e-2),  # 가중치 감소
        'batch_size': trial.suggest_categorical('batch_size', [256, 512]),  # 배치 크기
        'virtual_batch_size': trial.suggest_categorical('virtual_batch_size', [128, 256]),  # 가상 배치 크기
        'max_epochs': 100,  # 에포크 수 (Optuna 최적화에서는 학습 횟수를 너무 많이 설정하지 않음)
        'random_state': 42
    }

    # TabNet 모델 학습
    tabnet_clf = TabNetClassifier(**tabnet_param)
    tabnet_clf.fit(X_train_resampled.values, y_train_resampled.values, 
                   eval_set=[(X_valid.values, y_valid.values)], 
                   eval_name=["valid"], 
                   batch_size=tabnet_param['batch_size'], 
                   virtual_batch_size=tabnet_param['virtual_batch_size'])

    # 예측 (ROC-AUC 계산)
    y_pred = tabnet_clf.predict_proba(X_valid.values)[:, 1]
    score = roc_auc_score(y_valid, y_pred)

    return score

# Optuna 최적화
study = optuna.create_study(direction='maximize')
study.optimize(objective, n_trials=100)  # n_trials를 100으로 늘려서 더 많은 실험을 시도

# 최적 하이퍼파라미터 출력
print(f"Best Trial: {study.best_trial.params}")
print(f"Best ROC-AUC Score: {study.best_value}")

# 최적 하이퍼파라미터로 TabNet 모델 학습
best_tabnet_params = study.best_trial.params
tabnet_clf_final = TabNetClassifier(**best_tabnet_params)

# 전체 데이터로 학습
tabnet_clf_final.fit(X.values, y.values)

# test 데이터 예측
pred_proba = tabnet_clf_final.predict_proba(test.values)[:, 1]

# 결과 저장
sample_submission = pd.read_csv('./sample_submission.csv')
sample_submission['probability'] = pred_proba
sample_submission.to_csv('./final_submission_tabnet.csv', index=False)

print("✅ 최종 예측 완료! 결과 저장됨: final_submission_tabnet.csv")

# 학습