# Import + CSV

In [2]:
import pandas as pd
import numpy as np

from sklearn.ensemble import ExtraTreesClassifier
from sklearn.preprocessing import OrdinalEncoder, OneHotEncoder

import lightgbm as lgb
from sklearn.model_selection import train_test_split
from sklearn.metrics import roc_auc_score
from sklearn.preprocessing import LabelEncoder

train = pd.read_csv('./train.csv').drop(columns=['ID'])
test = pd.read_csv('./test.csv').drop(columns=['ID'])

# EDA

### 0. 결측치가 많은 feature 7개 drop

In [5]:
train.drop(columns=['임신 시도 또는 마지막 임신 경과 연수'], inplace=True)
test.drop(columns=['임신 시도 또는 마지막 임신 경과 연수'], inplace=True)

train.drop(columns=['착상 전 유전 검사 사용 여부'], inplace=True)
test.drop(columns=['착상 전 유전 검사 사용 여부'], inplace=True)

train.drop(columns=['난자 해동 경과일'], inplace=True)
test.drop(columns=['난자 해동 경과일'], inplace=True)

train.drop(columns=['배아 해동 경과일'], inplace=True)
test.drop(columns=['배아 해동 경과일'], inplace=True)

train.drop(columns=['PGS 시술 여부'], inplace=True)
test.drop(columns=['PGS 시술 여부'], inplace=True)

train.drop(columns=['PGD 시술 여부'], inplace=True)
test.drop(columns=['PGD 시술 여부'], inplace=True)

train.drop(columns=['난자 채취 경과일'], inplace=True)
test.drop(columns=['난자 채취 경과일'], inplace=True)

### 1. 난자 혼합 경과일, 배아 이식 경과일 결측치 채우기 (검토 필요)

In [7]:
a = '배아 이식 경과일'
b = '난자 혼합 경과일'

# 배아 이식 경과일 → 최빈값 처리
train[a] = train[a].fillna(train[a].mode().iloc[0])
test[a] = test[a].fillna(test[a].mode().iloc[0])

# 난자 혼합 경과일 → 중앙값 처리
train[b] = train[b].fillna(train[b].median())
test[b] = test[b].fillna(test[b].median())

# 일단은 최빈값-중앙값 조합이 가장 좋다

난자 혼합 경과일
0.0    201920
1.0       488
2.0       102
3.0        68
5.0        24
6.0         8
4.0         5
7.0         1
Name: count, dtype: int64

배아 이식 경과일
5.0    81459
3.0    57924
2.0    35078
0.0    24904
1.0     6053
4.0     4504
6.0     2773
7.0       90
Name: count, dtype: int64

둘이 분포가 다르다..! 처리 방식을 달리 해야할 듯.. 배아 이식 경과일은 평균값, 혼합 경과일은 중앙값?

### 2. 주/부 불임 원인 개수 feature 추가 (검토 필요)

In [10]:
train["주 불임 원인 개수"] = (
    train["남성 주 불임 원인"] + train["여성 주 불임 원인"] + train["부부 주 불임 원인"])
test["주 불임 원인 개수"] = (
    test["남성 주 불임 원인"] + test["여성 주 불임 원인"] + test["부부 주 불임 원인"])

train["부 불임 원인 개수"] = (
    train["남성 부 불임 원인"] + train["여성 부 불임 원인"] + train["부부 부 불임 원인"])
test["부 불임 원인 개수"] = (
    test["남성 부 불임 원인"] + test["여성 부 불임 원인"] + test["부부 부 불임 원인"])

# 굳이 필요한가..? 검토 결과로는 필요해보임

### 3. 여성 요인 개수로 정리 (남성 요인은 검토 필요)

In [12]:
train["불임 원인 - 여성 요인"] = (
    train["불임 원인 - 자궁내막증"] + train["불임 원인 - 자궁경부 문제"] 
    + train["불임 원인 - 난관 질환"] + train["불임 원인 - 배란 장애"]
)
test["불임 원인 - 여성 요인"] = (
    test["불임 원인 - 자궁내막증"] + test["불임 원인 - 자궁경부 문제"] 
    + train["불임 원인 - 난관 질환"] + test["불임 원인 - 배란 장애"]
)

In [13]:
"""
train["불임 원인 - 남성 요인 개수"] = (
    train["불임 원인 - 정자 형태"] + 
    train["불임 원인 - 정자 운동성"] + 
    train["불임 원인 - 정자 면역학적 요인"] + 
    train["불임 원인 - 정자 농도"]
)

test["불임 원인 - 남성 요인 개수"] = (
    test["불임 원인 - 정자 형태"] + 
    test["불임 원인 - 정자 운동성"] + 
    test["불임 원인 - 정자 면역학적 요인"] + 
    test["불임 원인 - 정자 농도"]
)

# 굳이 필요한가..?
"""

# 해보니까 빼는 게 낫다

'\ntrain["불임 원인 - 남성 요인 개수"] = (\n    train["불임 원인 - 정자 형태"] + \n    train["불임 원인 - 정자 운동성"] + \n    train["불임 원인 - 정자 면역학적 요인"] + \n    train["불임 원인 - 정자 농도"]\n)\n\ntest["불임 원인 - 남성 요인 개수"] = (\n    test["불임 원인 - 정자 형태"] + \n    test["불임 원인 - 정자 운동성"] + \n    test["불임 원인 - 정자 면역학적 요인"] + \n    test["불임 원인 - 정자 농도"]\n)\n\n# 굳이 필요한가..?\n'

### 4. 배아/난자 수 결측치 -999 처리 (+범주화? 검토 필요) ********************************

In [15]:
# 각 특성에 대해 구간 정의 및 라벨링
embryo_bins = [0, 1, 3, 6, 11, 16, 21, float('inf')]
embryo_labels = ['0개 (배아 동결 없음)', '1~2개 (소량 저장)', '3~5개 (보편적인 저장 수준)', 
                 '6~10개 (여러 번 이식 가능)', '11~15개 (배아가 많이 저장됨)', 
                 '16~20개 (고반응군, 다배아 보유)', '21개 이상 (극단적인 고반응)']

egg_bins = [0, 1, 4, 7, 11, 16, 21, float('inf')]
egg_labels = ['0개 (난자 채취 실패)', '1~3개 (난소 저반응, 매우 적음)', '4~6개 (난소 저반응, 적음)', 
              '7~10개 (보편적인 난자 채취 수)', '11~15개 (난소 고반응 가능성)', 
              '16~20개 (고반응, 과배란 가능성)', '21개 이상 (극단적인 난소 과반응)']

embryo_creation_bins = [0, 1, 3, 6, 11, 16, 21, float('inf')]
embryo_creation_labels = ['0개 (배아 생성 실패)', '1~2개 (저반응군)', '3~5개 (중간 반응군)', 
                          '6~10개 (적절한 배아 생성)', '11~15개 (고반응군)', 
                          '16~20개 (매우 높은 반응군)', '21개 이상 (과자극군)']

total_embryo_bins = [0, 1, 3, 6, 11, 21, float('inf')]
total_embryo_labels = ['0개 (배아 없음)', '1~2개 (저반응군)', '3~5개 (중간 반응군)', 
                       '6~10개 (고반응군)', '11~20개 (과반응 가능성)', 
                       '21개 이상 (과자극군)']

stored_egg_bins = [0, 1, 4, 7, 11, float('inf')]
stored_egg_labels = ['0개 (배아 저장 없음)', '1~3개 (매우 적음)', '4~6개 (적음)', 
                     '7~10개 (보편적인 저장량)', '11개 이상 (다량 저장)']

defrosted_embryo_bins = [0, 1, 2, 4, 7, 11, float('inf')]
defrosted_embryo_labels = ['0개 (배아 해동 안 함)', '1개 (단일 배아 해동)', '2~3개 (최소 해동)', 
                           '4~6개 (중간 해동)', '7~10개 (다수 해동)', '11개 이상 (대량 해동)']

defrosted_egg_bins = [0, 1, 4, 8, 13, 21, float('inf')]
defrosted_egg_labels = ['0개 (해동하지 않음)', '1~3개 (극소수 해동)', '4~7개 (소량 해동)', 
                        '8~12개 (일반적인 해동 범위)', '13~20개 (다수 해동)', '21개 이상 (대량 해동)']

# 각 구간을 매핑하는 방법 정의
def map_category(data, bins, labels):
    return pd.cut(data, bins=bins, labels=labels, right=False)

# 각 특성에 대해 구간화 및 매핑
train['저장된 배아 구간'] = map_category(train['저장된 배아 수'], embryo_bins, embryo_labels)
test['저장된 배아 구간'] = map_category(test['저장된 배아 수'], embryo_bins, embryo_labels)

train['난자 채취 구간'] = map_category(train['수집된 신선 난자 수'], egg_bins, egg_labels)
test['난자 채취 구간'] = map_category(test['수집된 신선 난자 수'], egg_bins, egg_labels)

train['배아 생성 구간'] = map_category(train['미세주입에서 생성된 배아 수'], embryo_creation_bins, embryo_creation_labels)
test['배아 생성 구간'] = map_category(test['미세주입에서 생성된 배아 수'], embryo_creation_bins, embryo_creation_labels)

train['총 생성 배아 구간'] = map_category(train['총 생성 배아 수'], total_embryo_bins, total_embryo_labels)
test['총 생성 배아 구간'] = map_category(test['총 생성 배아 수'], total_embryo_bins, total_embryo_labels)

train['저장된 신선 난자 구간'] = map_category(train['저장된 신선 난자 수'], stored_egg_bins, stored_egg_labels)
test['저장된 신선 난자 구간'] = map_category(test['저장된 신선 난자 수'], stored_egg_bins, stored_egg_labels)

train['해동된 배아 구간'] = map_category(train['해동된 배아 수'], defrosted_embryo_bins, defrosted_embryo_labels)
test['해동된 배아 구간'] = map_category(test['해동된 배아 수'], defrosted_embryo_bins, defrosted_embryo_labels)

train['해동 난자 구간'] = map_category(train['해동 난자 수'], defrosted_egg_bins, defrosted_egg_labels)
test['해동 난자 구간'] = map_category(test['해동 난자 수'], defrosted_egg_bins, defrosted_egg_labels)

# 각 구간에 대한 수동 라벨 인코딩
embryo_mapping = {
    '0개 (배아 동결 없음)': 0,
    '1~2개 (소량 저장)': 1,
    '3~5개 (보편적인 저장 수준)': 2,
    '6~10개 (여러 번 이식 가능)': 3,
    '11~15개 (배아가 많이 저장됨)': 4,
    '16~20개 (고반응군, 다배아 보유)': 5,
    '21개 이상 (극단적인 고반응)': 6
}

egg_mapping = {
    '0개 (난자 채취 실패)': 0,
    '1~3개 (난소 저반응, 매우 적음)': 1,
    '4~6개 (난소 저반응, 적음)': 2,
    '7~10개 (보편적인 난자 채취 수)': 3,
    '11~15개 (난소 고반응 가능성)': 4,
    '16~20개 (고반응, 과배란 가능성)': 5,
    '21개 이상 (극단적인 난소 과반응)': 6
}

embryo_creation_mapping = {
    '0개 (배아 생성 실패)': 0,
    '1~2개 (저반응군)': 1,
    '3~5개 (중간 반응군)': 2,
    '6~10개 (적절한 배아 생성)': 3,
    '11~15개 (고반응군)': 4,
    '16~20개 (매우 높은 반응군)': 5,
    '21개 이상 (과자극군)': 6
}

total_embryo_mapping = {
    '0개 (배아 없음)': 0,
    '1~2개 (저반응군)': 1,
    '3~5개 (중간 반응군)': 2,
    '6~10개 (고반응군)': 3,
    '11~20개 (과반응 가능성)': 4,
    '21개 이상 (과자극군)': 5
}

stored_egg_mapping = {
    '0개 (배아 저장 없음)': 0,
    '1~3개 (매우 적음)': 1,
    '4~6개 (적음)': 2,
    '7~10개 (보편적인 저장량)': 3,
    '11개 이상 (다량 저장)': 4
}

defrosted_embryo_mapping = {
    '0개 (배아 해동 안 함)': 0,
    '1개 (단일 배아 해동)': 1,
    '2~3개 (최소 해동)': 2,
    '4~6개 (중간 해동)': 3,
    '7~10개 (다수 해동)': 4,
    '11개 이상 (대량 해동)': 5
}

defrosted_egg_mapping = {
    '0개 (해동하지 않음)': 0,
    '1~3개 (극소수 해동)': 1,
    '4~7개 (소량 해동)': 2,
    '8~12개 (일반적인 해동 범위)': 3,
    '13~20개 (다수 해동)': 4,
    '21개 이상 (대량 해동)': 5
}

# 수동 라벨 인코딩을 적용하는 함수
def apply_label_encoding(df, column_name, mapping, additional_category=None):
    # 'Categorical' 열에 추가 범주를 허용하도록 설정
    if additional_category is not None:
        df[column_name] = df[column_name].cat.add_categories([additional_category])
    
    # 매핑 적용 후 결측치는 -1로 채우고, 수치형으로 변환
    df[column_name] = df[column_name].map(mapping).fillna(-1).astype(float)

# 수동 라벨 인코딩을 각 특성에 대해 적용
apply_label_encoding(train, '저장된 배아 구간', embryo_mapping, additional_category=-1)
apply_label_encoding(test, '저장된 배아 구간', embryo_mapping, additional_category=-1)

apply_label_encoding(train, '난자 채취 구간', egg_mapping, additional_category=-1)
apply_label_encoding(test, '난자 채취 구간', egg_mapping, additional_category=-1)

apply_label_encoding(train, '배아 생성 구간', embryo_creation_mapping, additional_category=-1)
apply_label_encoding(test, '배아 생성 구간', embryo_creation_mapping, additional_category=-1)

apply_label_encoding(train, '총 생성 배아 구간', total_embryo_mapping, additional_category=-1)
apply_label_encoding(test, '총 생성 배아 구간', total_embryo_mapping, additional_category=-1)

apply_label_encoding(train, '저장된 신선 난자 구간', stored_egg_mapping, additional_category=-1)
apply_label_encoding(test, '저장된 신선 난자 구간', stored_egg_mapping, additional_category=-1)

apply_label_encoding(train, '해동된 배아 구간', defrosted_embryo_mapping, additional_category=-1)
apply_label_encoding(test, '해동된 배아 구간', defrosted_embryo_mapping, additional_category=-1)

apply_label_encoding(train, '해동 난자 구간', defrosted_egg_mapping, additional_category=-1)
apply_label_encoding(test, '해동 난자 구간', defrosted_egg_mapping, additional_category=-1)

# 구간화된 열을 원본 열에 넣고 구간 열 삭제하기
train['저장된 배아 수'] = train['저장된 배아 구간']
test['저장된 배아 수'] = test['저장된 배아 구간']

train['수집된 신선 난자 수'] = train['난자 채취 구간']
test['수집된 신선 난자 수'] = test['난자 채취 구간']

train['미세주입에서 생성된 배아 수'] = train['배아 생성 구간']
test['미세주입에서 생성된 배아 수'] = test['배아 생성 구간']

train['총 생성 배아 수'] = train['총 생성 배아 구간']
test['총 생성 배아 수'] = test['총 생성 배아 구간']

train['저장된 신선 난자 수'] = train['저장된 신선 난자 구간']
test['저장된 신선 난자 수'] = test['저장된 신선 난자 구간']

train['해동된 배아 수'] = train['해동된 배아 구간']
test['해동된 배아 수'] = test['해동된 배아 구간']

train['해동 난자 수'] = train['해동 난자 구간']
test['해동 난자 수'] = test['해동 난자 구간']

# 구간 열 삭제하기
train.drop(['저장된 배아 구간', '난자 채취 구간', '배아 생성 구간', '총 생성 배아 구간', 
            '저장된 신선 난자 구간', '해동된 배아 구간', '해동 난자 구간'], axis=1, inplace=True)

test.drop(['저장된 배아 구간', '난자 채취 구간', '배아 생성 구간', '총 생성 배아 구간', 
           '저장된 신선 난자 구간', '해동된 배아 구간', '해동 난자 구간'], axis=1, inplace=True)

# 새로운 특성에 대한 구간 정의 및 라벨링
mixed_egg_bins = [0, 1, 4, 8, 13, 21, float('inf')]
mixed_egg_labels = ['0개 (배아 생성 없음)', '1~3개 (소량 사용)', '4~7개 (일반적인 배아 생성 수)', 
                    '8~12개 (다수 배아 확보 가능)', '13~20개 (대량 사용)', '21개 이상 (과다 사용)']

partner_sperm_bins = [0, 1, 4, 8, 13, 21, float('inf')]
partner_sperm_labels = ['0개 (배아 생성 없음)', '1~3개 (소량 사용)', '4~7개 (일반적인 배아 생성 수)', 
                        '8~12개 (다수 배아 확보 가능)', '13~20개 (대량 사용)', '21개 이상 (과다 사용)']

donor_sperm_bins = [0, 1, 4, 8, 13, 21, float('inf')]
donor_sperm_labels = ['0개 (기증자 정자 사용 안 함)', '1~3개 (소량 사용)', '4~7개 (일반적인 배아 생성 시 기증자 정자 사용 범위)', 
                      '8~12개 (다수 사용)', '13~20개 (대량 사용)', '21개 이상 (과다 사용)']

injected_egg_bins = [0, 1, 4, 7, 11, 16, 21, float('inf')]
injected_egg_labels = ['0개 (배아 생성 실패)', '1~3개 (배아 생성이 매우 적음)', '4~6개 (적정 수준의 배아 생성)', 
                       '7~10개 (충분한 배아 생성)', '11~15개 (다량 배아 생성)', '16~20개 (고반응군)', 
                       '21개 이상 (극단적인 고반응)']

stored_embryo_bins = [0, 1, 2, 3, 6, 11, 21, float('inf')]
stored_embryo_labels = ['0개 (배아 없음)', '1~2개 (저반응군)', '3~5개 (중간 반응군)', '6~10개 (고반응군)', 
                        '11~15개 (다배아 보유 가능성)', '16~20개 (고반응군)', '21개 이상 (과자극군)']

# 구간을 매핑하는 방법 정의
def map_category(data, bins, labels):
    return pd.cut(data, bins=bins, labels=labels, right=False)

# 새로운 특성에 대해 구간화 및 매핑
train['혼합된 난자 수 구간'] = map_category(train['혼합된 난자 수'], mixed_egg_bins, mixed_egg_labels)
test['혼합된 난자 수 구간'] = map_category(test['혼합된 난자 수'], mixed_egg_bins, mixed_egg_labels)

train['파트너 정자와 혼합된 난자 수 구간'] = map_category(train['파트너 정자와 혼합된 난자 수'], partner_sperm_bins, partner_sperm_labels)
test['파트너 정자와 혼합된 난자 수 구간'] = map_category(test['파트너 정자와 혼합된 난자 수'], partner_sperm_bins, partner_sperm_labels)

train['기증자 정자와 혼합된 난자 수 구간'] = map_category(train['기증자 정자와 혼합된 난자 수'], donor_sperm_bins, donor_sperm_labels)
test['기증자 정자와 혼합된 난자 수 구간'] = map_category(test['기증자 정자와 혼합된 난자 수'], donor_sperm_bins, donor_sperm_labels)

train['미세주입된 난자 수 구간'] = map_category(train['미세주입된 난자 수'], injected_egg_bins, injected_egg_labels)
test['미세주입된 난자 수 구간'] = map_category(test['미세주입된 난자 수'], injected_egg_bins, injected_egg_labels)

train['미세주입 후 저장된 배아 수 구간'] = map_category(train['미세주입 후 저장된 배아 수'], stored_embryo_bins, stored_embryo_labels)
test['미세주입 후 저장된 배아 수 구간'] = map_category(test['미세주입 후 저장된 배아 수'], stored_embryo_bins, stored_embryo_labels)

# 각 구간에 대한 수동 라벨 인코딩
mixed_egg_mapping = {
    '0개 (배아 생성 없음)': 0,
    '1~3개 (소량 사용)': 1,
    '4~7개 (일반적인 배아 생성 수)': 2,
    '8~12개 (다수 배아 확보 가능)': 3,
    '13~20개 (대량 사용)': 4,
    '21개 이상 (과다 사용)': 5
}

partner_sperm_mapping = {
    '0개 (배아 생성 없음)': 0,
    '1~3개 (소량 사용)': 1,
    '4~7개 (일반적인 배아 생성 수)': 2,
    '8~12개 (다수 배아 확보 가능)': 3,
    '13~20개 (대량 사용)': 4,
    '21개 이상 (과다 사용)': 5
}

donor_sperm_mapping = {
    '0개 (기증자 정자 사용 안 함)': 0,
    '1~3개 (소량 사용)': 1,
    '4~7개 (일반적인 배아 생성 시 기증자 정자 사용 범위)': 2,
    '8~12개 (다수 사용)': 3,
    '13~20개 (대량 사용)': 4,
    '21개 이상 (과다 사용)': 5
}

injected_egg_mapping = {
    '0개 (배아 생성 실패)': 0,
    '1~3개 (배아 생성이 매우 적음)': 1,
    '4~6개 (적정 수준의 배아 생성)': 2,
    '7~10개 (충분한 배아 생성)': 3,
    '11~15개 (다량 배아 생성)': 4,
    '16~20개 (고반응군)': 5,
    '21개 이상 (극단적인 고반응)': 6
}

stored_embryo_mapping = {
    '0개 (배아 없음)': 0,
    '1~2개 (저반응군)': 1,
    '3~5개 (중간 반응군)': 2,
    '6~10개 (고반응군)': 3,
    '11~15개 (다배아 보유 가능성)': 4,
    '16~20개 (고반응군)': 5,
    '21개 이상 (과자극군)': 6
}

# 수동 라벨 인코딩을 적용하는 함수
def apply_label_encoding(df, column_name, mapping, additional_category=None):
    if additional_category is not None:
        df[column_name] = df[column_name].cat.add_categories([additional_category])
    df[column_name] = df[column_name].map(mapping).fillna(-1).astype(float)

# 수동 라벨 인코딩을 각 특성에 대해 적용
apply_label_encoding(train, '혼합된 난자 수 구간', mixed_egg_mapping, additional_category=-1)
apply_label_encoding(test, '혼합된 난자 수 구간', mixed_egg_mapping, additional_category=-1)

apply_label_encoding(train, '파트너 정자와 혼합된 난자 수 구간', partner_sperm_mapping, additional_category=-1)
apply_label_encoding(test, '파트너 정자와 혼합된 난자 수 구간', partner_sperm_mapping, additional_category=-1)

apply_label_encoding(train, '기증자 정자와 혼합된 난자 수 구간', donor_sperm_mapping, additional_category=-1)
apply_label_encoding(test, '기증자 정자와 혼합된 난자 수 구간', donor_sperm_mapping, additional_category=-1)

apply_label_encoding(train, '미세주입된 난자 수 구간', injected_egg_mapping, additional_category=-1)
apply_label_encoding(test, '미세주입된 난자 수 구간', injected_egg_mapping, additional_category=-1)

apply_label_encoding(train, '미세주입 후 저장된 배아 수 구간', stored_embryo_mapping, additional_category=-1)
apply_label_encoding(test, '미세주입 후 저장된 배아 수 구간', stored_embryo_mapping, additional_category=-1)

# 구간화된 열을 원본 열에 넣고 구간 열 삭제하기
train['혼합된 난자 수'] = train['혼합된 난자 수 구간']
test['혼합된 난자 수'] = test['혼합된 난자 수 구간']

train['파트너 정자와 혼합된 난자 수'] = train['파트너 정자와 혼합된 난자 수 구간']
test['파트너 정자와 혼합된 난자 수'] = test['파트너 정자와 혼합된 난자 수 구간']

train['기증자 정자와 혼합된 난자 수'] = train['기증자 정자와 혼합된 난자 수 구간']
test['기증자 정자와 혼합된 난자 수'] = test['기증자 정자와 혼합된 난자 수 구간']

train['미세주입된 난자 수'] = train['미세주입된 난자 수 구간']
test['미세주입된 난자 수'] = test['미세주입된 난자 수 구간']

train['미세주입 후 저장된 배아 수'] = train['미세주입 후 저장된 배아 수 구간']
test['미세주입 후 저장된 배아 수'] = test['미세주입 후 저장된 배아 수 구간']

# 구간 열 삭제하기
train.drop(['혼합된 난자 수 구간', '파트너 정자와 혼합된 난자 수 구간', '기증자 정자와 혼합된 난자 수 구간', 
            '미세주입된 난자 수 구간', '미세주입 후 저장된 배아 수 구간'], axis=1, inplace=True)

test.drop(['혼합된 난자 수 구간', '파트너 정자와 혼합된 난자 수 구간', '기증자 정자와 혼합된 난자 수 구간', 
           '미세주입된 난자 수 구간', '미세주입 후 저장된 배아 수 구간'], axis=1, inplace=True)

train['이식된 배아 수'] = train['이식된 배아 수'].fillna(-1)
test['이식된 배아 수'] = test['이식된 배아 수'].fillna(-1)

train['미세주입 배아 이식 수'] = train['미세주입 배아 이식 수'].fillna(-1)
test['미세주입 배아 이식 수'] = test['미세주입 배아 이식 수'].fillna(-1)

### 5. 배란 유도 정상화

In [17]:
train["배란 유도 유형"].replace(["세트로타이드 (억제제)", "생식선 자극 호르몬"], "알 수 없음", inplace=True)
test["배란 유도 유형"].replace(["세트로타이드 (억제제)", "생식선 자극 호르몬"], "알 수 없음", inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  train["배란 유도 유형"].replace(["세트로타이드 (억제제)", "생식선 자극 호르몬"], "알 수 없음", inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  test["배란 유도 유형"].replace(["세트로타이드 (억제제)", "생식선 자극 호르몬"], "알 수 없음", inplace=True)


### 6. 배아 생성 주요 이유 원-핫 인코딩

In [19]:
# 1. '연구용' 포함 행 삭제 (결측치가 있으면 빈 문자열이므로 함께 처리)
train = train[~train['배아 생성 주요 이유'].fillna('').str.contains('연구용')]
test = test[~test['배아 생성 주요 이유'].fillna('').str.contains('연구용')]

# 결측치 문자열 'Nan'으로 처리
train['배아 생성 주요 이유'] = train['배아 생성 주요 이유'].fillna('Nan')
test['배아 생성 주요 이유'] = test['배아 생성 주요 이유'].fillna('Nan')

# 3. One-hot encoding: 지정된 4가지 항목에 대해 dummy 변수 생성
reasons = ['Nan','기증용', '난자 저장용', '배아 저장용', '현재 시술용']

for reason in reasons:
    col_name = f'reason_{reason}'
    train[col_name] = train['배아 생성 주요 이유'].apply(lambda x: 1 if isinstance(x, str) and reason in x else 0)
    test[col_name] = test['배아 생성 주요 이유'].apply(lambda x: 1 if isinstance(x, str) and reason in x else 0)

# 4. 원래 있던 '배아 생성 주요 이유' 컬럼 삭제
train = train.drop(columns=['배아 생성 주요 이유'])
test = test.drop(columns=['배아 생성 주요 이유'])

### 7. 시술/임신/출산 횟수 정리

In [21]:
valid_values = ['0회', '1회', '2회', '3회', '4회', '5회', '6회 이상']

## train ##
train = train[
    (train['총 시술 횟수'].isin(valid_values)) &
    (train['클리닉 내 총 시술 횟수'].isin(valid_values)) &
    (train['IVF 시술 횟수'].isin(valid_values)) &
    (train['DI 시술 횟수'].isin(valid_values)) &
    (train['총 출산 횟수'].isin(valid_values)) &
    (train['IVF 출산 횟수'].isin(valid_values)) &
    (train['DI 출산 횟수'].isin(valid_values)) &
    (train['총 임신 횟수'].isin(valid_values)) &
    (train['IVF 임신 횟수'].isin(valid_values)) &
    (train['DI 임신 횟수'].isin(valid_values))
]

for col in ['총 시술 횟수', '클리닉 내 총 시술 횟수', 'IVF 시술 횟수', 'DI 시술 횟수', 
            '총 임신 횟수', 'IVF 임신 횟수', 'DI 임신 횟수', '총 출산 횟수', 'IVF 출산 횟수', 'DI 출산 횟수']:
    train[col] = train[col].replace('6회 이상', '6')
    train[col] = train[col].str.replace('회', '', regex=True).astype(int)

train['총 시술 횟수'] = train['IVF 시술 횟수'] + train['DI 시술 횟수']

## test ##
test = test[
    (test['총 시술 횟수'].isin(valid_values)) &
    (test['클리닉 내 총 시술 횟수'].isin(valid_values)) &
    (test['IVF 시술 횟수'].isin(valid_values)) &
    (test['DI 시술 횟수'].isin(valid_values)) &
    (test['총 출산 횟수'].isin(valid_values)) &
    (test['IVF 출산 횟수'].isin(valid_values)) &
    (test['DI 출산 횟수'].isin(valid_values)) &
    (test['총 임신 횟수'].isin(valid_values)) &
    (test['IVF 임신 횟수'].isin(valid_values)) &
    (test['DI 임신 횟수'].isin(valid_values))
]

for col in ['총 시술 횟수', '클리닉 내 총 시술 횟수', 'IVF 시술 횟수', 'DI 시술 횟수', 
            '총 임신 횟수', 'IVF 임신 횟수', 'DI 임신 횟수', '총 출산 횟수', 'IVF 출산 횟수', 'DI 출산 횟수']:
    test[col] = test[col].replace('6회 이상', '6')
    test[col] = test[col].str.replace('회', '', regex=True).astype(int)

test['총 시술 횟수'] = test['IVF 시술 횟수'] + test['DI 시술 횟수']

### 8. 난자/정자 출처 원-핫 인코딩

In [23]:
train = pd.get_dummies(train, columns=["난자 출처", "정자 출처"], dtype=int)
test = pd.get_dummies(test, columns=["난자 출처", "정자 출처"], dtype=int)

### 9. 난자/정자 기증자 나이 라벨 인코딩 (검토 필요)

In [25]:
# 결측치를 -1로 처리 (난자 기증자 나이, 정자 기증자 나이)
train["난자 기증자 나이"].fillna(-1, inplace=True)
test["난자 기증자 나이"].fillna(-1, inplace=True)

train["정자 기증자 나이"].fillna(-1, inplace=True)
test["정자 기증자 나이"].fillna(-1, inplace=True)

# 라벨 인코딩 매핑 딕셔너리
age_mapping_nanja = {
    "만20세 이하": 0,
    "만21-25세": 1,
    "만26-30세": 2,
    "만31-35세": 3,
    "알 수 없음": -1
}

age_mapping_jungja = {
    "알 수 없음": -1, 
    "만21-25세": 1,
    "만26-30세": 2,
    "만31-35세": 3,
    "만36-40세": 4,
    "만41-45세": 5,
    "만20세 이하": 0,
}
    
# 라벨 인코딩 적용(난자)
train["난자 기증자 나이 (라벨 인코딩)"] = train["난자 기증자 나이"].map(age_mapping_nanja)
test["난자 기증자 나이 (라벨 인코딩)"] = test["난자 기증자 나이"].map(age_mapping_nanja)

# 원본 "난자 기증자 나이" 컬럼 제거(난자)
train.drop(columns=["난자 기증자 나이"], inplace=True)
test.drop(columns=["난자 기증자 나이"], inplace=True)

# 라벨 인코딩 적용(정자)
train["정자 기증자 나이 (라벨 인코딩)"] = train["정자 기증자 나이"].map(age_mapping_jungja)
test["정자 기증자 나이 (라벨 인코딩)"] = test["정자 기증자 나이"].map(age_mapping_jungja)

# 원본 "정자 기증자 나이" 컬럼 제거(정자)
train.drop(columns=["정자 기증자 나이"], inplace=True)
test.drop(columns=["정자 기증자 나이"], inplace=True)

# 결측치와 알 수 없음을 같은 -1로 처리? -999로 처리?

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  train["난자 기증자 나이"].fillna(-1, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  test["난자 기증자 나이"].fillna(-1, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always

### 10. DI 시술 관련 여부 결측치 -1로 처리 + 원-핫 인코딩

In [27]:
# 결측치를 -1로 채우기
cols_to_fill = ['신선 배아 사용 여부', '기증 배아 사용 여부', '대리모 여부', 
                '단일 배아 이식 여부', '착상 전 유전 진단 사용 여부', '동결 배아 사용 여부']

train[cols_to_fill] = train[cols_to_fill].fillna(-1)
test[cols_to_fill] = test[cols_to_fill].fillna(-1)

# 원핫인코딩 적용
train_encoded = pd.get_dummies(train, columns=cols_to_fill)
test_encoded = pd.get_dummies(test, columns=cols_to_fill)

# 기존 열을 삭제한 데이터프레임
train = train_encoded
test = test_encoded

### 11. 특정 시술 유형 그룹화 및 원-핫 인코딩

In [29]:
# 특정 시술 유형 그룹화 함수
def categorize_treatment(treatment):
    if pd.isna(treatment) or "Unknown" in treatment:
        return "Unknown"
    elif "IVF" in treatment:
        return "IVF 기반"
    elif "ICSI" in treatment:
        return "ICSI 기반"
    elif "Generic DI" in treatment or "IUI" in treatment or "ICI" in treatment or "IVI" in treatment:
        return "DI 기반"
    else:
        return "Unknown"

# 특정 시술 유형 컬럼을 그룹화
train["특정 시술 유형"] = train["특정 시술 유형"].apply(categorize_treatment)
test["특정 시술 유형"] = test["특정 시술 유형"].apply(categorize_treatment)


# One-Hot Encoding 수행
train_encoded = pd.get_dummies(train["특정 시술 유형"], prefix="시술유형")
test_encoded = pd.get_dummies(test["특정 시술 유형"], prefix="시술유형")

# 기존 데이터프레임에 One-Hot Encoding된 컬럼 추가
train = pd.concat([train, train_encoded], axis=1)
test = pd.concat([test, test_encoded], axis=1)

# 원본 "특정 시술 유형" 컬럼 제거 (필요 시)
train.drop(columns=["특정 시술 유형"], inplace=True)
test.drop(columns=["특정 시술 유형"], inplace=True)

### 12. 시술 시기 코드 원-핫 인코딩

In [31]:
# 전처리 함수
def preprocess_timing_code(code):
    return "Unknown" if pd.isna(code) else code

# 결측 처리 적용
train["시술 시기 코드"] = train["시술 시기 코드"].apply(preprocess_timing_code)
test["시술 시기 코드"] = test["시술 시기 코드"].apply(preprocess_timing_code)

# 인코딩 적용 및 컬럼 정렬 (train/test 직접 대체)
train = pd.get_dummies(train, columns=["시술 시기 코드"], prefix="시술시기")
test = pd.get_dummies(test, columns=["시술 시기 코드"], prefix="시술시기")
train, test = train.align(test, join='left', axis=1, fill_value=0)

### 13. 시술 당시 나이 결측치 -999 처리 및 라벨 인코딩 (검토 필요)

In [33]:
# 라벨 인코딩 매핑 딕셔너리 (나이가 작은 순으로 매핑)
age_mapping_treatment = {
    "만18-34세": 0,
    "만35-37세": 1,
    "만38-39세": 2,
    "만40-42세": 3,
    "만43-44세": 4,
    "만45-50세": 5,
    "알 수 없음": -1
}

# 라벨 인코딩 적용
train["시술 당시 나이 (라벨 인코딩)"] = train["시술 당시 나이"].map(age_mapping_treatment)
test["시술 당시 나이 (라벨 인코딩)"] = test["시술 당시 나이"].map(age_mapping_treatment)

# 원본 "시술 당시 나이" 컬럼 제거
train.drop(columns=["시술 당시 나이"], inplace=True)
test.drop(columns=["시술 당시 나이"], inplace=True)

# -1? -999?

### 불명확 불임 원인, 배란 자극 여부, 배란 유도 유형, 시술 유형 라벨 인코딩

In [35]:
label_columns = ['불명확 불임 원인', '배란 자극 여부', '시술 유형', '배란 유도 유형']

In [36]:
for col in label_columns:
    train[col] = train[col].astype(str)
    test[col] = test[col].astype(str)

ordinal_encoder = OrdinalEncoder(handle_unknown='use_encoded_value', unknown_value=-1)
train[label_columns] = ordinal_encoder.fit_transform(train[label_columns])
test[label_columns] = ordinal_encoder.transform(test[label_columns])

***

# X와 y로 분리

In [39]:
X = train.drop('임신 성공 여부', axis=1)
y = train['임신 성공 여부']

test.drop(columns=['임신 성공 여부'], inplace=True)

# K-Fold 점수 계산

In [104]:
"""
# 정준아 부탁해

# 1. 라이브러리 import
import numpy as np
from sklearn.model_selection import StratifiedKFold
from sklearn.metrics import roc_auc_score
from lightgbm import LGBMClassifier
from xgboost import XGBClassifier
from pytorch_tabnet.tab_model import TabNetClassifier  # TabNet 추가
import torch

# 2. Stratified K-Fold 설정 (데이터 불균형 고려)
kf = StratifiedKFold(n_splits=10, shuffle=True, random_state=42)

# 3. 모델 정의
lgb_model = LGBMClassifier(random_state=42)
xgb_model = XGBClassifier(random_state=42, use_label_encoder=False, eval_metric="logloss")  # XGBoost 추가
tabnet_model = TabNetClassifier(n_d=8, n_a=8, n_steps=3, gamma=1.3, seed=42, verbose=0)  # TabNet 추가

# 4. Cross Validation 수행
lgb_auc_scores = []
xgb_auc_scores = []
tabnet_auc_scores = []

for train_idx, val_idx in kf.split(X, y):
    X_train_part, X_val = X.iloc[train_idx], X.iloc[val_idx]
    y_train_part, y_val = y.iloc[train_idx], y.iloc[val_idx]

    # LightGBM 학습
    lgb_model.fit(X_train_part, y_train_part)
    lgb_val_pred_proba = lgb_model.predict_proba(X_val)[:, 1]
    lgb_auc_scores.append(roc_auc_score(y_val, lgb_val_pred_proba))

    # XGBoost 학습
    xgb_model.fit(X_train_part, y_train_part)
    xgb_val_pred_proba = xgb_model.predict_proba(X_val)[:, 1]
    xgb_auc_scores.append(roc_auc_score(y_val, xgb_val_pred_proba))

    # TabNet 학습
    tabnet_model.fit(X_train_part.values, y_train_part.values, max_epochs=100, batch_size=1024, virtual_batch_size=128, num_workers=0)
    tabnet_val_pred_proba = tabnet_model.predict_proba(X_val.values)[:, 1]
    tabnet_auc_scores.append(roc_auc_score(y_val, tabnet_val_pred_proba))

# 5. 평균 ROC-AUC 점수 출력
mean_lgb_auc = np.mean(lgb_auc_scores)
mean_xgb_auc = np.mean(xgb_auc_scores)
mean_tabnet_auc = np.mean(tabnet_auc_scores)

print(f"Mean ROC-AUC Score (10-Fold CV) - LightGBM: {mean_lgb_auc:.10f}")
print(f"Mean ROC-AUC Score (10-Fold CV) - XGBoost: {mean_xgb_auc:.10f}")
print(f"Mean ROC-AUC Score (10-Fold CV) - TabNet: {mean_tabnet_auc:.10f}")
"""

[LightGBM] [Info] Number of positive: 59606, number of negative: 171108
[LightGBM] [Info] Auto-choosing row-wise multi-threading, the overhead of testing was 0.042053 seconds.
You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 328
[LightGBM] [Info] Number of data points in the train set: 230714, number of used features: 89
[LightGBM] [Info] [binary:BoostFromScore]: pavg=0.258354 -> initscore=-1.054539
[LightGBM] [Info] Start training from score -1.054539


Parameters: { "use_label_encoder" } are not used.



KeyboardInterrupt: 

In [106]:
# 1. 라이브러리 import
import numpy as np
from sklearn.model_selection import StratifiedKFold
from sklearn.metrics import roc_auc_score
from lightgbm import LGBMClassifier
from xgboost import XGBClassifier
from sklearn.ensemble import RandomForestClassifier  # RandomForest 추가

# 2. Stratified K-Fold 설정 (데이터 불균형 고려)
kf = StratifiedKFold(n_splits=10, shuffle=True, random_state=42)

# 3. 모델 정의
lgb_model = LGBMClassifier(random_state=42)
xgb_model = XGBClassifier(random_state=42, use_label_encoder=False, eval_metric="logloss")  # XGBoost 추가
rf_model = RandomForestClassifier(random_state=42)  # RandomForest 추가

# 4. Cross Validation 수행
lgb_auc_scores = []
xgb_auc_scores = []
rf_auc_scores = []

for train_idx, val_idx in kf.split(X, y):
    X_train_part, X_val = X.iloc[train_idx], X.iloc[val_idx]
    y_train_part, y_val = y.iloc[train_idx], y.iloc[val_idx]

    # LightGBM 학습
    lgb_model.fit(X_train_part, y_train_part)
    lgb_val_pred_proba = lgb_model.predict_proba(X_val)[:, 1]
    lgb_auc_scores.append(roc_auc_score(y_val, lgb_val_pred_proba))

    # XGBoost 학습
    xgb_model.fit(X_train_part, y_train_part)
    xgb_val_pred_proba = xgb_model.predict_proba(X_val)[:, 1]
    xgb_auc_scores.append(roc_auc_score(y_val, xgb_val_pred_proba))

    # RandomForest 학습
    rf_model.fit(X_train_part, y_train_part)
    rf_val_pred_proba = rf_model.predict_proba(X_val)[:, 1]
    rf_auc_scores.append(roc_auc_score(y_val, rf_val_pred_proba))

# 5. 평균 ROC-AUC 점수 출력
mean_lgb_auc = np.mean(lgb_auc_scores)
mean_xgb_auc = np.mean(xgb_auc_scores)
mean_rf_auc = np.mean(rf_auc_scores)

print(f"Mean ROC-AUC Score (10-Fold CV) - LightGBM: {mean_lgb_auc:.10f}")
print(f"Mean ROC-AUC Score (10-Fold CV) - XGBoost: {mean_xgb_auc:.10f}")
print(f"Mean ROC-AUC Score (10-Fold CV) - RandomForest: {mean_rf_auc:.10f}")

[LightGBM] [Info] Number of positive: 59606, number of negative: 171108
[LightGBM] [Info] Auto-choosing row-wise multi-threading, the overhead of testing was 0.039310 seconds.
You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 328
[LightGBM] [Info] Number of data points in the train set: 230714, number of used features: 89
[LightGBM] [Info] [binary:BoostFromScore]: pavg=0.258354 -> initscore=-1.054539
[LightGBM] [Info] Start training from score -1.054539


Parameters: { "use_label_encoder" } are not used.



[LightGBM] [Info] Number of positive: 59605, number of negative: 171109
[LightGBM] [Info] Auto-choosing row-wise multi-threading, the overhead of testing was 0.040306 seconds.
You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 330
[LightGBM] [Info] Number of data points in the train set: 230714, number of used features: 89
[LightGBM] [Info] [binary:BoostFromScore]: pavg=0.258350 -> initscore=-1.054561
[LightGBM] [Info] Start training from score -1.054561


Parameters: { "use_label_encoder" } are not used.



[LightGBM] [Info] Number of positive: 59605, number of negative: 171109
[LightGBM] [Info] Auto-choosing row-wise multi-threading, the overhead of testing was 0.035052 seconds.
You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 329
[LightGBM] [Info] Number of data points in the train set: 230714, number of used features: 89
[LightGBM] [Info] [binary:BoostFromScore]: pavg=0.258350 -> initscore=-1.054561
[LightGBM] [Info] Start training from score -1.054561


Parameters: { "use_label_encoder" } are not used.



[LightGBM] [Info] Number of positive: 59605, number of negative: 171109
[LightGBM] [Info] Auto-choosing row-wise multi-threading, the overhead of testing was 0.037584 seconds.
You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 330
[LightGBM] [Info] Number of data points in the train set: 230714, number of used features: 89
[LightGBM] [Info] [binary:BoostFromScore]: pavg=0.258350 -> initscore=-1.054561
[LightGBM] [Info] Start training from score -1.054561


Parameters: { "use_label_encoder" } are not used.



[LightGBM] [Info] Number of positive: 59605, number of negative: 171109
[LightGBM] [Info] Auto-choosing row-wise multi-threading, the overhead of testing was 0.038216 seconds.
You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 328
[LightGBM] [Info] Number of data points in the train set: 230714, number of used features: 89
[LightGBM] [Info] [binary:BoostFromScore]: pavg=0.258350 -> initscore=-1.054561
[LightGBM] [Info] Start training from score -1.054561


Parameters: { "use_label_encoder" } are not used.



[LightGBM] [Info] Number of positive: 59605, number of negative: 171109
[LightGBM] [Info] Auto-choosing row-wise multi-threading, the overhead of testing was 0.034357 seconds.
You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 329
[LightGBM] [Info] Number of data points in the train set: 230714, number of used features: 89
[LightGBM] [Info] [binary:BoostFromScore]: pavg=0.258350 -> initscore=-1.054561
[LightGBM] [Info] Start training from score -1.054561


Parameters: { "use_label_encoder" } are not used.



[LightGBM] [Info] Number of positive: 59605, number of negative: 171109
[LightGBM] [Info] Auto-choosing row-wise multi-threading, the overhead of testing was 0.040390 seconds.
You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 329
[LightGBM] [Info] Number of data points in the train set: 230714, number of used features: 89
[LightGBM] [Info] [binary:BoostFromScore]: pavg=0.258350 -> initscore=-1.054561
[LightGBM] [Info] Start training from score -1.054561


Parameters: { "use_label_encoder" } are not used.



[LightGBM] [Info] Number of positive: 59605, number of negative: 171109
[LightGBM] [Info] Auto-choosing row-wise multi-threading, the overhead of testing was 0.033673 seconds.
You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 330
[LightGBM] [Info] Number of data points in the train set: 230714, number of used features: 89
[LightGBM] [Info] [binary:BoostFromScore]: pavg=0.258350 -> initscore=-1.054561
[LightGBM] [Info] Start training from score -1.054561


Parameters: { "use_label_encoder" } are not used.



[LightGBM] [Info] Number of positive: 59605, number of negative: 171109
[LightGBM] [Info] Auto-choosing row-wise multi-threading, the overhead of testing was 0.038881 seconds.
You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 329
[LightGBM] [Info] Number of data points in the train set: 230714, number of used features: 89
[LightGBM] [Info] [binary:BoostFromScore]: pavg=0.258350 -> initscore=-1.054561
[LightGBM] [Info] Start training from score -1.054561


Parameters: { "use_label_encoder" } are not used.



[LightGBM] [Info] Number of positive: 59606, number of negative: 171109
[LightGBM] [Info] Auto-choosing row-wise multi-threading, the overhead of testing was 0.038585 seconds.
You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 329
[LightGBM] [Info] Number of data points in the train set: 230715, number of used features: 89
[LightGBM] [Info] [binary:BoostFromScore]: pavg=0.258353 -> initscore=-1.054545
[LightGBM] [Info] Start training from score -1.054545


Parameters: { "use_label_encoder" } are not used.



Mean ROC-AUC Score (10-Fold CV) - LightGBM: 0.7390432628
Mean ROC-AUC Score (10-Fold CV) - XGBoost: 0.7355511627
Mean ROC-AUC Score (10-Fold CV) - RandomForest: 0.6862895274


***

# 검토결과

검토 전 lightGBM K-Fold(10): 0.7391835805

결측치-1일때: 0.7391835805 (똑같네..)

주/부 개수를 뺐을 때: 0.7391834618 (아 필요하구나)

최빈값-중앙값: Mean ROC-AUC Score (10-Fold CV): 0.7392498922 (오 많이 올랐어..!)

남성 요인 개수 뺐을 때: Mean ROC-AUC Score (10-Fold CV): 0.7392755190 (필요없네용~)

이러면 데이터 처리는 완료고..

Mean ROC-AUC Score (10-Fold CV): 0.7387037240

***

# 모델 학습

기본학습 결과: Trial 49 finished with value: 0.7375054814755538 and parameters: {'num_leaves': 61, 'learning_rate': 0.012644594394797709, 'n_estimators': 186, 'max_depth': 8}. Best is trial 30 with value: 0.7391048651399312.
Best hyperparameters: {'num_leaves': 59, 'learning_rate': 0.09399447131366363, 'n_estimators': 200, 'max_depth': 4}

기본학습 + SMOTE: 

# 앙상블

참고수치:
(pred_xgb*0.7 + pred_lgb*0.3)*0.95 + pred_nn*0.05

# Test에 대한 예측 및 CSV 저장

In [88]:
# 최종 모델 학습 (전체 데이터 사용)
final_model = LGBMClassifier(random_state=42)
final_model.fit(X, y)  # 전체 데이터로 학습

test_pred_proba = final_model.predict_proba(test)[:, 1]  # 양성 클래스 확률

# 결과 저장
sample_submission = pd.read_csv('./sample_submission.csv')
sample_submission['probability'] = test_pred_proba
sample_submission.to_csv('./02_26_4.csv', index=False)

[LightGBM] [Info] Number of positive: 66228, number of negative: 190121
[LightGBM] [Info] Auto-choosing row-wise multi-threading, the overhead of testing was 0.046430 seconds.
You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 328
[LightGBM] [Info] Number of data points in the train set: 256349, number of used features: 89
[LightGBM] [Info] [binary:BoostFromScore]: pavg=0.258351 -> initscore=-1.054557
[LightGBM] [Info] Start training from score -1.054557
