In [15]:
import pandas as pd
import numpy as np

from sklearn.preprocessing import  OrdinalEncoder
from sklearn.ensemble import ExtraTreesClassifier

In [17]:
train = pd.read_csv('./train.csv').drop(columns=['ID'])
test = pd.read_csv('./test.csv').drop(columns=['ID'])
X = train.drop('임신 성공 여부', axis=1)
y = train['임신 성공 여부']

In [19]:
categorical_columns = [
    "시술 시기 코드",
    "시술 당시 나이",
    "시술 유형",
    "특정 시술 유형",
    "배란 자극 여부",
    "배란 유도 유형",
    "단일 배아 이식 여부",
    "착상 전 유전 검사 사용 여부",
    "착상 전 유전 진단 사용 여부",
    "남성 주 불임 원인",
    "남성 부 불임 원인",
    "여성 주 불임 원인",
    "여성 부 불임 원인",
    "부부 주 불임 원인",
    "부부 부 불임 원인",
    "불명확 불임 원인",
    "불임 원인 - 난관 질환",
    "불임 원인 - 남성 요인",
    "불임 원인 - 배란 장애",
    "불임 원인 - 여성 요인",
    "불임 원인 - 자궁경부 문제",
    "불임 원인 - 자궁내막증",
    "불임 원인 - 정자 농도",
    "불임 원인 - 정자 면역학적 요인",
    "불임 원인 - 정자 운동성",
    "불임 원인 - 정자 형태",
    "배아 생성 주요 이유",
    "총 시술 횟수",
    "클리닉 내 총 시술 횟수",
    "IVF 시술 횟수",
    "DI 시술 횟수",
    "총 임신 횟수",
    "IVF 임신 횟수",
    "DI 임신 횟수",
    "총 출산 횟수",
    "IVF 출산 횟수",
    "DI 출산 횟수",
    "난자 출처",
    "정자 출처",
    "난자 기증자 나이",
    "정자 기증자 나이",
    "동결 배아 사용 여부",
    "신선 배아 사용 여부",
    "기증 배아 사용 여부",
    "대리모 여부",
    "PGD 시술 여부",
    "PGS 시술 여부"
]

In [21]:
# 카테고리형 컬럼들을 문자열로 변환
for col in categorical_columns:
    X[col] = X[col].astype(str)
    test[col] = test[col].astype(str)

In [23]:
ordinal_encoder = OrdinalEncoder(handle_unknown='use_encoded_value', unknown_value=-1)

X_train_encoded = X.copy()
X_train_encoded[categorical_columns] = ordinal_encoder.fit_transform(X[categorical_columns])

X_test_encoded = test.copy()
X_test_encoded[categorical_columns] = ordinal_encoder.transform(test[categorical_columns])

In [25]:
numeric_columns = [
    "임신 시도 또는 마지막 임신 경과 연수",
    "총 생성 배아 수",
    "미세주입된 난자 수",
    "미세주입에서 생성된 배아 수",
    "이식된 배아 수",
    "미세주입 배아 이식 수",
    "저장된 배아 수",
    "미세주입 후 저장된 배아 수",
    "해동된 배아 수",
    "해동 난자 수",
    "수집된 신선 난자 수",
    "저장된 신선 난자 수",
    "혼합된 난자 수",
    "파트너 정자와 혼합된 난자 수",
    "기증자 정자와 혼합된 난자 수",
    "난자 채취 경과일",
    "난자 해동 경과일",
    "난자 혼합 경과일",
    "배아 이식 경과일",
    "배아 해동 경과일"
]

In [27]:
X_train_encoded[numeric_columns] = X_train_encoded[numeric_columns].fillna(0)
X_test_encoded[numeric_columns] = X_test_encoded[numeric_columns].fillna(0)

In [29]:
import optuna
import xgboost as xgb
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import roc_auc_score

# Assuming your dataset is already loaded into X_train_encoded, X_test_encoded, and y.

# Define an objective function for Optuna
def objective(trial):
    # Hyperparameter space for XGBoost
    param = {
        'objective': 'binary:logistic', 
        'eval_metric': 'logloss', 
        'random_state': 42,
        'n_estimators': trial.suggest_int('n_estimators', 50, 500),
        'max_depth': trial.suggest_int('max_depth', 3, 15),
        'learning_rate': trial.suggest_float('learning_rate', 0.01, 0.3),
        'subsample': trial.suggest_float('subsample', 0.6, 1.0),
        'colsample_bytree': trial.suggest_float('colsample_bytree', 0.6, 1.0),
        'min_child_weight': trial.suggest_int('min_child_weight', 1, 10)
    }

    # Initialize XGBoost classifier with suggested hyperparameters
    model = xgb.XGBClassifier(**param)

    # Split the training data into train and validation sets for evaluation
    X_train, X_val, y_train, y_val = train_test_split(X_train_encoded, y, test_size=0.2, random_state=42)

    # Train the model
    model.fit(X_train, y_train)

    # Predict on the validation set
    y_pred_prob = model.predict_proba(X_val)[:, 1]

    # Evaluate the performance using ROC AUC score
    auc_score = roc_auc_score(y_val, y_pred_prob)
    
    return auc_score

# Create an Optuna study and optimize the hyperparameters
study = optuna.create_study(direction='maximize')
study.optimize(objective, n_trials=50)

# Get the best hyperparameters
best_params = study.best_params
print(f"Best parameters: {best_params}")

# Train the final model with the best parameters on the entire training data
model = xgb.XGBClassifier(**best_params)
model.fit(X_train_encoded, y)

# Make predictions on the test set
pred_proba = model.predict_proba(X_test_encoded)[:, 1]

# Create submission file
sample_submission = pd.read_csv('./sample_submission.csv')
sample_submission['probability'] = pred_proba

# Save submission file
sample_submission.to_csv('./baseline_xg_optuna.csv', index=False)


[I 2025-02-16 23:19:26,059] A new study created in memory with name: no-name-4939a50b-fd83-47ca-96f5-7810c09c2cad
[I 2025-02-16 23:19:35,768] Trial 0 finished with value: 0.6934826255308986 and parameters: {'n_estimators': 399, 'max_depth': 13, 'learning_rate': 0.27187104878268387, 'subsample': 0.6939837585102269, 'colsample_bytree': 0.6584272794797994, 'min_child_weight': 9}. Best is trial 0 with value: 0.6934826255308986.
[I 2025-02-16 23:19:36,929] Trial 1 finished with value: 0.7355472515029072 and parameters: {'n_estimators': 58, 'max_depth': 3, 'learning_rate': 0.11756866198756147, 'subsample': 0.7403571028198617, 'colsample_bytree': 0.750796686491161, 'min_child_weight': 6}. Best is trial 1 with value: 0.7355472515029072.
[I 2025-02-16 23:19:43,310] Trial 2 finished with value: 0.7267931673743782 and parameters: {'n_estimators': 457, 'max_depth': 8, 'learning_rate': 0.20162438409381417, 'subsample': 0.998092075001299, 'colsample_bytree': 0.9482464990379478, 'min_child_weight': 7

Best parameters: {'n_estimators': 293, 'max_depth': 5, 'learning_rate': 0.053110413685192856, 'subsample': 0.9020456055881118, 'colsample_bytree': 0.8415975339464885, 'min_child_weight': 3}
