# import+CSV

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import prince

from sklearn.preprocessing import  OrdinalEncoder
from sklearn.ensemble import ExtraTreesClassifier

train = pd.read_csv('./train.csv').drop(columns=['ID'])
test = pd.read_csv('./test.csv').drop(columns=['ID'])

****

# 여기서부터 EDA 단계 적용 드간다

### 0. 미적용

#### ROC score: 0.7360660526

### 1. 시술 시기 코드 단순 drop

In [8]:
#'시술 시기 코드' 열 제거
train = train.drop(columns=['시술 시기 코드'])
test = test.drop(columns=['시술 시기 코드'])

ROC score: 0.7357871588 (down)

### 2. 임신 시도 또는 마지막 경과 연수 단순 drop

In [11]:
#'임신 시도 또는 마지막 임신 경과 연수' 열 제거
train = train.drop(columns=['임신 시도 또는 마지막 임신 경과 연수'])
test = test.drop(columns=['임신 시도 또는 마지막 임신 경과 연수'])

ROC score: 0.7358534404 (up)

### 3. 시술 유형 단순 drop

In [14]:
train = train.drop(columns=['시술 유형'])
test = test.drop(columns=['시술 유형'])

ROC score: 0.7358534404 (stay)

### 4. 특정 시술 유형 그룹화

In [17]:
#'특정 시술 유형' 그룹화
def categorize_treatment(treatment):
    if pd.isna(treatment) or "Unknown" in treatment:
        return "Unknown"
    elif "IVF" in treatment:
        return "IVF 기반"
    elif "ICSI" in treatment:
        return "ICSI 기반"
    else:
        return "기타"

# 새로운 그룹 컬럼 생성
train["특정 시술 유형"] = train["특정 시술 유형"].apply(categorize_treatment)

ROC score: 0.7357619732 (down)

### 5. 배란 유도 단순 drop

In [20]:
train = train.drop(columns=['배란 유도 유형'])
test = test.drop(columns=['배란 유도 유형'])

ROC score: 0.7355531316 (down)

### 6. 착상 전 유전 검사 사용 여부 단순 drop

In [23]:
train = train.drop(columns=['착상 전 유전 검사 사용 여부'])
test = test.drop(columns=['착상 전 유전 검사 사용 여부'])

ROC score: 0.7360661494 (up)

### 7. 남성 요인 정리

In [26]:
# 정자 면역학적 요인 drop
train = train.drop('불임 원인 - 정자 면역학적 요인', axis=1)
test = test.drop('불임 원인 - 정자 면역학적 요인', axis=1)

# 남성 요인 MCA
features_male = ["불임 원인 - 남성 요인", "불임 원인 - 정자 농도", "불임 원인 - 정자 운동성", "불임 원인 - 정자 형태"]
subset_train = train[features_male].copy()  # 선택한 feature만 사용
subset_test = test[features_male].copy()

# prince 라이브러리로 MCA 모델 훈련 (n_components=1로 차원 축소)
mca = prince.MCA(n_components=1)

# MCA 모델을 훈련시키고 차원 축소된 데이터 얻기
mca_result_train = mca.fit_transform(subset_train)
mca_result_test = mca.fit_transform(subset_test)

# 기존 남성 요인 feature 삭제
train = train.drop(columns=features_male)
test = test.drop(columns=features_male)

# 차원 축소된 데이터를 원본 데이터에 새로운 열로 추가
train["불임 원인 - 남성 요인"] = mca_result_train
test["불임 원인 - 남성 요인"] = mca_result_test

ROC score: 0.7360762308 (up)

### 8. 여성 요인 정리

In [2]:
# 여성 요인 OR 진행
train['불임 원인 - 여성 요인'] = train[['불임 원인 - 난관 질환', '불임 원인 - 배란 장애', '불임 원인 - 자궁경부 문제', '불임 원인 - 자궁내막증']].any(axis=1).astype(int)
test['불임 원인 - 여성 요인'] = test[['불임 원인 - 난관 질환', '불임 원인 - 배란 장애', '불임 원인 - 자궁경부 문제', '불임 원인 - 자궁내막증']].any(axis=1).astype(int)

# 나머지 여성 feature drop
features_fe = ['불임 원인 - 난관 질환', '불임 원인 - 배란 장애', '불임 원인 - 자궁경부 문제', '불임 원인 - 자궁내막증']
train = train.drop(columns = features_fe)
test = test.drop(columns = features_fe)

ROC score: 0.7355203536 (down)

### 9. 배아 생성 주요 이유 처리

In [32]:
train["배아 생성 주요 이유"] = train["배아 생성 주요 이유"].apply(lambda x: 1 if isinstance(x, str) and "현재 시술용" in x else 0)
test["배아 생성 주요 이유"] = test["배아 생성 주요 이유"].apply(lambda x: 1 if isinstance(x, str) and "현재 시술용" in x else 0)

ROC score: 0.7353978877 (down)

### 10. 'IVF 임신 횟수', 'IVF 출산 횟수', '클리닉 내 총 시술 횟수', 'IVF 시술 횟수' 동시 drop

In [35]:
train = train.drop(columns=['IVF 임신 횟수', 'IVF 출산 횟수', '클리닉 내 총 시술 횟수', 'IVF 시술 횟수'])
test = test.drop(columns=['IVF 임신 횟수', 'IVF 출산 횟수', '클리닉 내 총 시술 횟수', 'IVF 시술 횟수'])

ROC score: 0.7357451318 (up)

### 11. 일단 행 제거 작업은 skip (저번처럼 고려할 사항이 있으니..)

### 12. 난자 기증자 나이 drop

In [39]:
train.drop(['난자 기증자 나이'], axis=1, inplace=True)
test.drop(['난자 기증자 나이'], axis=1, inplace=True)

ROC score: 0.7355639281 (down)

### 13. 정자 기증자 나이 drop

In [42]:
train.drop(['정자 기증자 나이'], axis=1, inplace=True)
test.drop(['정자 기증자 나이'], axis=1, inplace=True)

ROC score: 0.7354077151 (down)

### 14. 신선 배아 사용 여부 drop

In [45]:
train.drop(['신선 배아 사용 여부'], axis=1, inplace=True)
test.drop(['신선 배아 사용 여부'], axis=1, inplace=True)

ROC score: 0.7353982768 (down)

### 15. 기증 배아 사용 여부 drop

In [48]:
train.drop(['기증 배아 사용 여부'], axis=1, inplace=True)
test.drop(['기증 배아 사용 여부'], axis=1, inplace=True)

ROC score: 0.7355376481 (up)

### 16. 대리모 여부 drop

In [2]:
train.drop(['대리모 여부'], axis=1, inplace=True)
test.drop(['대리모 여부'], axis=1, inplace=True)

ROC score: 0.7353852653 (down)

단독으로 처리 시 ROC score: 0.7362567071로 오히려 오르는데.. 다른 feature와 뭔가 있나?

### 17. PGD 시술 여부 drop

In [54]:
train.drop(['PGD 시술 여부'], axis=1, inplace=True)
test.drop(['PGD 시술 여부'], axis=1, inplace=True)

ROC score: 0.7352059773 (down)

### 18. PGS 시술 여부 drop

In [57]:
train.drop(['PGS 시술 여부'], axis=1, inplace=True)
test.drop(['PGS 시술 여부'], axis=1, inplace=True)

ROC score: 0.7353120696 (up)

### 19. 난자 채취 경과일 drop

In [60]:
# '난자 채취 경과일' 열 제거
train = train.drop(columns=['난자 채취 경과일'])
test = test.drop(columns=['난자 채취 경과일'])

ROC score: 0.7353120696 (stay)

### 20. 난자 해동 경과일 drop

In [3]:
# '난자 해동 경과일' 열 제거
train = train.drop(columns=['난자 해동 경과일'])
test = test.drop(columns=['난자 해동 경과일'])

ROC score: 0.7353120696 (stay)

### 21. 난자 혼합 경과일 drop

In [66]:
# '난자 혼합 경과일' 열 제거
train = train.drop(columns=['난자 혼합 경과일'])
test = test.drop(columns=['난자 혼합 경과일'])

ROC score: 0.7352737793 (down)

### 22. 배아 이식 경과일 결측치를 평균값으로 대체

In [69]:
# '배아 이식 경과일'의 평균값 계산 (결측치는 제외한 값으로 평균 계산), 반올림 처리
mean_value = round(train['배아 이식 경과일'].mean())  # 반올림 처리

# 결측치를 평균값으로 대체
train['배아 이식 경과일'].fillna(mean_value, inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  train['배아 이식 경과일'].fillna(mean_value, inplace=True)


ROC score: 0.7349541145 (down)

### 23. 배아 해동 경과일 결측치 처리

In [72]:
# '배아 해동 경과일'별 데이터 개수 세기
total_counts_5 = train['배아 해동 경과일'].value_counts()
test_total_counts_5 = test['배아 해동 경과일'].value_counts()

# 특정 컬럼의 결측치 개수 계산
missing_count = train['배아 해동 경과일'].isna().sum()
test_missing_count = test['배아 해동 경과일'].isna().sum()

# 원본 데이터의 비율 계산
value_ratios = total_counts_5 / total_counts_5.sum()
test_value_ratios = test_total_counts_5 / test_total_counts_5.sum()

# 각 값에 대해 채울 개수 계산
fill_counts = (value_ratios * missing_count).round().astype(int)
test_fill_counts = (test_value_ratios * test_missing_count).round().astype(int)

# 결측치 샘플링
filled_values = np.concatenate([
    np.full(count, value) for value, count in fill_counts.items()
]) if len(fill_counts) > 0 else np.array([])

test_filled_values = np.concatenate([
    np.full(count, value) for value, count in test_fill_counts.items()
]) if len(test_fill_counts) > 0 else np.array([])

# 배열을 섞어 랜덤 배치
np.random.shuffle(filled_values)
np.random.shuffle(test_filled_values)

# 결측치 채우기
train.loc[train['배아 해동 경과일'].isna(), '배아 해동 경과일'] = filled_values
test.loc[test['배아 해동 경과일'].isna(), '배아 해동 경과일'] = test_filled_values

ROC score: 0.7348759723 (down)

### 24. 난자 수 / 배아 수 관련 drop

In [75]:
#난자 수, 배아수 관련 drop할 column들
columns_to_drop = [
    '미세주입된 난자 수', '미세주입 배아 이식 수', '저장된 배아 수', '미세주입 후 저장된 배아 수',
    '해동된 배아 수', '해동 난자 수', '수집된 신선 난자 수', '저장된 신선 난자 수',
    '혼합된 난자 수', '파트너 정자와 혼합된 난자 수', '기증자 정자와 혼합된 난자 수'
]

train = train.drop(columns=columns_to_drop)
test = test.drop(columns=columns_to_drop)

ROC score: 0.7292932104 (down)

# 내가 새로 해보는 EDA

In [3]:
import numpy as np
import pandas as pd

def infertility_cause(row):
    if row['부부 주 불임 원인']:
        return 'Both'
    elif row['남성 주 불임 원인']:
        return 'Male'
    elif row['여성 주 불임 원인']:
        return 'Female'
    else:
        return 'Unknown'

train['Infertility_Cause'] = train.apply(infertility_cause, axis=1)
test['Infertility_Cause'] = test.apply(infertility_cause, axis=1)

# 기존 컬럼 제거
train = train.drop(columns=['남성 주 불임 원인', '여성 주 불임 원인', '부부 주 불임 원인'])
test = test.drop(columns=['남성 주 불임 원인', '여성 주 불임 원인', '부부 주 불임 원인'])

# Label Encoding 또는 One-Hot Encoding 적용
train = pd.get_dummies(train, columns=['Infertility_Cause'])
test = pd.get_dummies(test, columns=['Infertility_Cause'])

단독 시행 시 ROC score: 0.7359530996 (약간 down)

In [3]:
import numpy as np
import pandas as pd

# 불임 원인 관련 feature 개수 카운트
male_causes = ['남성 주 불임 원인']
female_causes = ['여성 주 불임 원인']
couple_causes = ['부부 주 불임 원인']

train['남성 불임 원인 개수'] = train[male_causes].sum(axis=1)
test['남성 불임 원인 개수'] = test[male_causes].sum(axis=1)

train['여성 불임 원인 개수'] = train[female_causes].sum(axis=1)
test['여성 불임 원인 개수'] = test[female_causes].sum(axis=1)

train['부부 불임 원인 개수'] = train[couple_causes].sum(axis=1)
test['부부 불임 원인 개수'] = test[couple_causes].sum(axis=1)

# 기존 feature 제거
train = train.drop(columns=['남성 주 불임 원인', '여성 주 불임 원인', '부부 주 불임 원인'])
test = test.drop(columns=['남성 주 불임 원인', '여성 주 불임 원인', '부부 주 불임 원인'])

# 이제 각 데이터셋은 '남성 불임 원인 개수', '여성 불임 원인 개수', '부부 불임 원인 개수' 컬럼을 포함하게 됩니다.

count 방식을 하면 아주 약간만 떨어지네 ROC score: 0.7360638931

In [2]:
import numpy as np
import pandas as pd

def infertility_cause(row):
    if row['부부 부 불임 원인']:
        return 'Both'
    elif row['남성 부 불임 원인']:
        return 'Male'
    elif row['여성 부 불임 원인']:
        return 'Female'
    else:
        return 'Unknown'

train['Infertility_Cause'] = train.apply(infertility_cause, axis=1)
test['Infertility_Cause'] = test.apply(infertility_cause, axis=1)

# 기존 컬럼 제거
train = train.drop(columns=['남성 부 불임 원인', '여성 부 불임 원인', '부부 부 불임 원인'])
test = test.drop(columns=['남성 부 불임 원인', '여성 부 불임 원인', '부부 부 불임 원인'])

# Label Encoding 또는 One-Hot Encoding 적용
train = pd.get_dummies(train, columns=['Infertility_Cause'])
test = pd.get_dummies(test, columns=['Infertility_Cause'])


오 올랐다! ROC score: 0.7362900531

In [3]:
import numpy as np
import pandas as pd

# 불임 원인 관련 feature 개수 카운트
male_causes = ['남성 부 불임 원인']
female_causes = ['여성 부 불임 원인']
couple_causes = ['부부 부 불임 원인']

train['남성 불임 원인 개수'] = train[male_causes].sum(axis=1)
test['남성 불임 원인 개수'] = test[male_causes].sum(axis=1)

train['여성 불임 원인 개수'] = train[female_causes].sum(axis=1)
test['여성 불임 원인 개수'] = test[female_causes].sum(axis=1)

train['부부 불임 원인 개수'] = train[couple_causes].sum(axis=1)
test['부부 불임 원인 개수'] = test[couple_causes].sum(axis=1)

# 기존 feature 제거
train = train.drop(columns=['남성 부 불임 원인', '여성 부 불임 원인', '부부 부 불임 원인'])
test = test.drop(columns=['남성 부 불임 원인', '여성 부 불임 원인', '부부 부 불임 원인'])

# 이제 각 데이터셋은 '남성 불임 원인 개수', '여성 불임 원인 개수', '부부 불임 원인 개수' 컬럼을 포함하게 됩니다.

이건 count 방식을 부에 적용 ROC score: 0.7360660526 (stay)

In [3]:
# 여성 불임 관련 feature 개수 카운트
female_causes = ['불임 원인 - 난관 질환', '불임 원인 - 배란 장애', '불임 원인 - 자궁경부 문제', '불임 원인 - 자궁내막증']
train['여성 불임 원인 개수'] = train[female_causes].sum(axis=1)
test['여성 불임 원인 개수'] = test[female_causes].sum(axis=1)

# 기존 feature 유지 여부에 따라 선택적으로 제거 가능
train = train.drop(columns=['불임 원인 - 여성 요인'])
test = test.drop(columns=['불임 원인 - 여성 요인'])

올랐다! ROC score: 0.7362948071
그렇다면 기존의 불임 원인까지 제거해보자!

In [3]:
# 여성 불임 관련 feature 개수 카운트
female_causes = ['불임 원인 - 난관 질환', '불임 원인 - 배란 장애', '불임 원인 - 자궁경부 문제', '불임 원인 - 자궁내막증']
train['여성 불임 원인 개수'] = train[female_causes].sum(axis=1)
test['여성 불임 원인 개수'] = test[female_causes].sum(axis=1)

# 기존 feature 유지 여부에 따라 선택적으로 제거 가능
train = train.drop(columns=['불임 원인 - 난관 질환', '불임 원인 - 배란 장애', '불임 원인 - 자궁경부 문제', '불임 원인 - 자궁내막증'])
test = test.drop(columns=['불임 원인 - 난관 질환', '불임 원인 - 배란 장애', '불임 원인 - 자궁경부 문제', '불임 원인 - 자궁내막증'])

ROC score: 0.7361827384 올랐다! 이게 더 나아보이는데..

In [2]:
# 불명확 불임 원인 떨궈보자
train = train.drop(columns=['불명확 불임 원인'])
test = test.drop(columns=['불명확 불임 원인'])

ROC score: 0.7360874068 (아주 약간 오르네)

In [3]:
# 배아 해동 경과일 떨궈보자
train = train.drop(columns=['배아 해동 경과일'])
test = test.drop(columns=['배아 해동 경과일'])

ROC score: 0.7359153466 (down)

In [3]:
hhh = train.loc[train['시술 유형'] == 'DI']
# 'hhh'에서 모든 값이 NaN인 열 찾기
missing_features = hhh.columns[hhh.isna().all()].tolist()

# 'DI' 시술 유형인 데이터에서 결측치가 모두 있는 열을 -1로 대체
train[missing_features] = train[missing_features].fillna(-5)

In [3]:
train = train.drop(columns=['미세주입된 난자 수'])
test = test.drop(columns=['미세주입된 난자 수'])

In [5]:
train = train.drop(columns=['미세주입에서 생성된 배아 수'])
test = test.drop(columns=['미세주입에서 생성된 배아 수'])

In [7]:
train = train.drop(columns=['미세주입 배아 이식 수'])
test = test.drop(columns=['미세주입 배아 이식 수'])

In [9]:
train = train.drop(columns=['미세주입 후 저장된 배아 수'])
test = test.drop(columns=['미세주입 후 저장된 배아 수'])

ROC score: 0.7366839022

In [12]:
train["총 배아 수"] = train["해동된 배아 수"].fillna(0) + train["총 생성 배아 수"].fillna(0)

# 기존 feature 삭제
train.drop(columns=["해동된 배아 수", "총 생성 배아 수"], inplace=True)

ROC score: 0.7366364178 (조금 down)

In [15]:
train = train.drop(columns=['해동 난자 수'])
test = test.drop(columns=['해동 난자 수'])

train = train.drop(columns=['수집된 신선 난자 수'])
test = test.drop(columns=['수집된 신선 난자 수'])

train = train.drop(columns=['저장된 신선 난자 수'])
test = test.drop(columns=['저장된 신선 난자 수'])

train = train.drop(columns=['혼합된 난자 수'])
test = test.drop(columns=['혼합된 난자 수'])

train = train.drop(columns=['파트너 정자와 혼합된 난자 수'])
test = test.drop(columns=['파트너 정자와 혼합된 난자 수'])

train = train.drop(columns=['기증자 정자와 혼합된 난자 수'])
test = test.drop(columns=['기증자 정자와 혼합된 난자 수'])

ROC score: 0.7368204848

****

# data 후처리

In [19]:
X = train.drop('임신 성공 여부', axis=1)
y = train['임신 성공 여부']

# 범주형 컬럼과 수치형 컬럼 자동 추출
categorical_columns = X.select_dtypes(include=['object']).columns.tolist()
numeric_columns = X.select_dtypes(include=['number']).columns.tolist()

# 범주형 데이터의 모든 자료형을 문자열로 변환
for col in categorical_columns:
    X[col] = X[col].astype(str)
    test[col] = test[col].astype(str)

# 범주의 정수화 (by sklearn 전처리)
ordinal_encoder = OrdinalEncoder(handle_unknown='use_encoded_value', unknown_value=-1)

X_train_encoded = X.copy()
X_train_encoded[categorical_columns] = ordinal_encoder.fit_transform(X[categorical_columns])

X_test_encoded = test.copy()
X_test_encoded[categorical_columns] = ordinal_encoder.transform(test[categorical_columns])

# 결측치 처리
##X_test_encoded[numeric_columns] = X_test_encoded[numeric_columns].fillna(0)

# XGboost를 통해 K-Fold

In [21]:
# 1. 라이브러리 import
from sklearn.model_selection import StratifiedKFold
from sklearn.metrics import roc_auc_score
import xgboost as xgb
import numpy as np

# 2. Stratified K-Fold 설정 (데이터 불균형 고려)
kf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)
auc_scores = []

# 3. XGBoost 모델 학습
model = xgb.XGBClassifier(random_state=42, use_label_encoder=False, eval_metric='logloss')

# 4. Cross Validation 수행 
# 사용법: for문의 X_train_encoded에 train data set, y에 target 넣기!!
for train_idx, val_idx in kf.split(X_train_encoded, y):
    X_train_part, X_val = X_train_encoded.iloc[train_idx], X_train_encoded.iloc[val_idx]
    y_train_part, y_val = y.iloc[train_idx], y.iloc[val_idx]
    
    # 모델 학습
    model.fit(X_train_part, y_train_part)
    
    # Validation 데이터 예측 확률
    val_pred_proba = model.predict_proba(X_val)[:, 1]
    
    # ROC-AUC 점수 계산
    roc_auc = roc_auc_score(y_val, val_pred_proba)
    auc_scores.append(roc_auc)

# 5. 평균 ROC-AUC 점수 출력
mean_auc = np.mean(auc_scores)
print(f"ROC score: {mean_auc:.10f}") # dacon과 같이 소수점 10자리 출력!

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.

Parameters: { "use_label_encoder" } are not used.



ROC score: 0.7368204848
