### Import

In [2]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

from sklearn.preprocessing import  OrdinalEncoder
from sklearn.ensemble import ExtraTreesClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

### Data Load

In [3]:
train = pd.read_csv('./train.csv').drop(columns=['ID'])
test = pd.read_csv('./test.csv').drop(columns=['ID'])

In [4]:
print(f'train shape is {train.shape}')
print(f'test shape is {test.shape}')

train shape is (256351, 68)
test shape is (90067, 67)


In [18]:
print(train.isnull().sum().sort_values(ascending=False) / len(train))

난자 해동 경과일                0.994398
PGS 시술 여부                0.992475
PGD 시술 여부                0.991500
착상 전 유전 검사 사용 여부         0.989397
임신 시도 또는 마지막 임신 경과 연수    0.963449
                           ...   
DI 시술 횟수                 0.000000
총 임신 횟수                  0.000000
IVF 임신 횟수                0.000000
시술 당시 나이                 0.000000
임신 성공 여부                 0.000000
Length: 68, dtype: float64


In [19]:
print(test.isnull().sum().sort_values(ascending=False) / len(train))


난자 해동 경과일                0.349423
PGS 시술 여부                0.348725
PGD 시술 여부                0.348296
착상 전 유전 검사 사용 여부         0.347703
임신 시도 또는 마지막 임신 경과 연수    0.338481
                           ...   
IVF 시술 횟수                0.000000
DI 시술 횟수                 0.000000
총 임신 횟수                  0.000000
시술 당시 나이                 0.000000
IVF 임신 횟수                0.000000
Length: 67, dtype: float64


In [20]:
X = train.drop(['임신 성공 여부'], axis=1)
y = train['임신 성공 여부']
y.shape

(256351,)

### Data Pre-processing

In [23]:
categorical_columns = [
    "시술 시기 코드",
    "시술 당시 나이",
    "시술 유형",
    "특정 시술 유형",
    "배란 자극 여부",
    "배란 유도 유형",
    "단일 배아 이식 여부",
    "착상 전 유전 진단 사용 여부",
    "남성 주 불임 원인",
    "남성 부 불임 원인",
    "여성 주 불임 원인",
    "여성 부 불임 원인",
    "부부 주 불임 원인",
    "부부 부 불임 원인",
    "불명확 불임 원인",
    "불임 원인 - 난관 질환",
    "불임 원인 - 남성 요인",
    "불임 원인 - 배란 장애",
    "불임 원인 - 여성 요인",
    "불임 원인 - 자궁경부 문제",
    "불임 원인 - 자궁내막증",
    "불임 원인 - 정자 농도",
    "불임 원인 - 정자 면역학적 요인",
    "불임 원인 - 정자 운동성",
    "불임 원인 - 정자 형태",
    "배아 생성 주요 이유",
    "총 시술 횟수",
    "클리닉 내 총 시술 횟수",
    "IVF 시술 횟수",
    "DI 시술 횟수",
    "총 임신 횟수",
    "IVF 임신 횟수",
    "DI 임신 횟수",
    "총 출산 횟수",
    "IVF 출산 횟수",
    "DI 출산 횟수",
    "난자 출처",
    "정자 출처",
    "난자 기증자 나이",
    "정자 기증자 나이",
    "동결 배아 사용 여부",
    "신선 배아 사용 여부",
    "기증 배아 사용 여부",
    "대리모 여부"
]
numeric_columns = [
    "총 생성 배아 수",
    "미세주입된 난자 수",
    "미세주입에서 생성된 배아 수",
    "이식된 배아 수",
    "미세주입 배아 이식 수",
    "저장된 배아 수",
    "미세주입 후 저장된 배아 수",
    "해동된 배아 수",
    "해동 난자 수",
    "수집된 신선 난자 수",
    "저장된 신선 난자 수",
    "혼합된 난자 수",
    "파트너 정자와 혼합된 난자 수",
    "기증자 정자와 혼합된 난자 수",
    "난자 채취 경과일",
    "난자 혼합 경과일",
    "배아 이식 경과일",
]


In [24]:
# 카테고리형 컬럼들을 문자열로 변환
for col in categorical_columns:
    X[col] = X[col].astype(str)
    test[col] = test[col].astype(str)

### Train

In [43]:
model = ExtraTreesClassifier(
    n_estimators=500,        
    max_depth=20,           
    min_samples_split=5,    
    min_samples_leaf=2,    
    max_features="sqrt",     
    bootstrap=False,         
    random_state=42,        
    n_jobs=-1,            
)
model.fit(X_train_encoded, y)

In [44]:
model.feature_importances_

array([1.99857797e-02, 9.02658387e-02, 1.52082977e-03, 1.37414347e-02,
       8.03461709e-03, 7.29632092e-03, 4.76255476e-02, 4.00698663e-03,
       2.74900242e-03, 2.08397438e-03, 3.04694819e-03, 1.98223660e-03,
       3.04236316e-03, 1.44501735e-03, 8.35678055e-03, 7.67916219e-03,
       1.20340792e-02, 8.29222392e-03, 0.00000000e+00, 1.20465550e-06,
       5.47634693e-03, 5.21627834e-04, 0.00000000e+00, 1.17092991e-04,
       1.54166882e-04, 1.70569747e-02, 1.58846858e-02, 1.54946749e-02,
       1.61488573e-02, 5.02756551e-03, 8.87546409e-03, 8.52324397e-03,
       1.52329383e-03, 7.77299283e-03, 7.23352644e-03, 1.43627060e-03,
       4.33755948e-02, 1.53563793e-02, 2.15901095e-02, 1.51741970e-01,
       3.30459963e-02, 3.68958206e-02, 2.07466477e-02, 3.86762168e-03,
       1.03859609e-03, 2.11723508e-02, 9.51896621e-04, 2.66591326e-02,
       2.25361789e-02, 4.59866680e-03, 9.97135173e-03, 5.57946447e-03,
       7.73899227e-03, 7.37764767e-03, 7.95115371e-03, 7.23442328e-03,
      

### Predict

In [45]:
pred_proba = model.predict_proba(X_test_encoded)[:, 1]

### Submission

In [46]:
sample_submission = pd.read_csv('./sample_submission.csv')
sample_submission['probability'] = pred_proba

In [47]:
sample_submission.to_csv('./baseline_submit.csv', index=False)