In [1]:
import random
import os
import numpy as np
import pandas as pd
from datetime import datetime
from autogluon.tabular import TabularPredictor
from sklearn.model_selection import train_test_split

random.seed(42)
os.environ['PYTHONHASHSEED'] = str(42)
np.random.seed(42)

# ==========================================
# 1. 데이터 로드
# ==========================================

train_df = pd.read_csv('../Data/train.csv')
test_df = pd.read_csv('../Data/test.csv')
target = '임신 성공 여부'

# ==========================================
# 2. feature_engineering
# ==========================================

def feature_engineering(df):
    
    # 수치형 변환 ('회', ' 이상' 등을 제거하고 공백 정리 후 숫자형으로 변환)
    count_cols = [
        '총 시술 횟수', '클리닉 내 총 시술 횟수', '총 임신 횟수', '총 출산 횟수',
        'IVF 시술 횟수', 'DI 시술 횟수', 'IVF 임신 횟수', 'DI 임신 횟수',
        'IVF 출산 횟수', 'DI 출산 횟수', '총 생성 배아 수', '이식된 배아 수', 
        '미세주입된 난자 수', '미세주입에서 생성된 배아 수', '저장된 배아 수'
    ]
    
    for col in count_cols:
        if col in df.columns and df[col].dtype == 'object':
            df[col] = df[col].astype(str).str.replace(r'회| 이상', '', regex=True).str.strip()
            df[col] = pd.to_numeric(df[col], errors='coerce')

    
    # 시술 유형 DI에 대한 결측치 처리 (0으로 채우기)
    target_cols = [
            '총 생성 배아 수', '기증자 정자와 혼합된 난자 수', '파트너 정자와 혼합된 난자 수',
            '미세주입된 난자 수', '혼합된 난자 수', '저장된 신선 난자 수', '해동 난자 수',
            '해동된 배아 수', '미세주입 후 저장된 배아 수', '저장된 배아 수',
            '미세주입 배아 이식 수', '이식된 배아 수', '미세주입에서 생성된 배아 수',
            '수집된 신선 난자 수', '단일 배아 이식 여부', '착상 전 유전 진단 사용 여부', '대리모 여부',
            '기증 배아 사용 여부', '신선 배아 사용 여부', '동결 배아 사용 여부'
        ]
    existing_target_cols = [c for c in target_cols if c in df.columns]
    mask_di = df['시술 유형'] == 'DI'
    df.loc[mask_di, existing_target_cols] = df.loc[mask_di, existing_target_cols].fillna(0)

    
    # 배아 생성 이유 정제
    def clean_reason(row):
        if row['시술 유형'] == 'DI':
            return '해당없음'
    
        x = row['배아 생성 주요 이유']
        if pd.isna(x): return 'Unknown'
    
        x = str(x)
        if '시술용' in x: return '시술용'
        if '기증' in x: return '기증용'
        if '저장' in x: return '저장용'
        return 'Other'
    
    df['배아 생성 주요 이유'] = df.apply(clean_reason, axis=1)

    
    # 이진 분류 컬럼 결측 0으로 채우기
    binary_cols = ['PGS 시술 여부', 'PGD 시술 여부', '착상 전 유전 검사 사용 여부']
    df[binary_cols] = df[binary_cols].fillna(0)
    
    
    if '특정 시술 유형' in df.columns:
        df["BLASTOCYST_포함"] = df["특정 시술 유형"].str.contains("BLASTOCYST", case=False, na=False).astype(int)
        df["AH_포함"] = df["특정 시술 유형"].str.contains("AH", case=False, na=False).astype(int)
        
        def major_procedure(x):
            if pd.isna(x): return "Unknown"
            x = str(x).upper()

            # 1. ICSI (ICSI:IVF나 ICSI:ICSI 등을 모두 포함)
            if "ICSI" in x: return "ICSI"
            # 2. IVF (ICSI가 없으면서 IVF가 포함된 경우)
            if "IVF" in x: return "IVF"
            # 3. DI (기증자 인공수정)
            if "DI" in x: return "DI"
            # 4. IUI, ICI, IVI (모두 넓은 의미의 인공수정 계열)
            if any(keyword in x for keyword in ["IUI", "ICI", "IVI"]): return "IUI"
            # 5. 기타 (GIFT, FER 등 아주 적은 수의 데이터)
            if "UNKNOWN" in x: return "Unknown"
            return "Other"
        
        df["특정 시술 유형"] = df["특정 시술 유형"].apply(major_procedure)

    
    # 불임 원인 및 복잡도 계산
    female_cols = [
        '불임 원인 - 여성 요인', '불임 원인 - 난관 질환', '불임 원인 - 배란 장애', 
        '불임 원인 - 자궁경부 문제', '불임 원인 - 자궁내막증'
    ]
    male_cols = [
        '불임 원인 - 남성 요인', '불임 원인 - 정자 농도', '불임 원인 - 정자 운동성', 
        '불임 원인 - 정자 형태', '불임 원인 - 정자 면역학적 요인'
    ]
    infertility_cols = [
        "남성 주 불임 원인", "남성 부 불임 원인", "여성 주 불임 원인", "여성 부 불임 원인",
        "부부 주 불임 원인", "부부 부 불임 원인", "불명확 불임 원인",
        "불임 원인 - 난관 질환", "불임 원인 - 남성 요인", "불임 원인 - 배란 장애",
        "불임 원인 - 여성 요인", "불임 원인 - 자궁경부 문제", "불임 원인 - 자궁내막증",
        "불임 원인 - 정자 농도", "불임 원인 - 정자 면역학적 요인", "불임 원인 - 정자 운동성",
        "불임 원인 - 정자 형태"
    ]

    df['남성 결함 개수'] = df[male_cols].sum(axis=1)
    df['여성 결함 개수'] = df[female_cols].sum(axis=1)
    df['불임 원인 개수'] = df[infertility_cols].sum(axis=1)
    
    def infertility_complexity(count):
        if count == 0: return 'None'
        elif count == 1: return 'Single'
        elif count == 2: return 'Double'
        else: return 'Multiple'
    
    df['불임 원인 개수'] = df['불임 원인 개수'].apply(infertility_complexity)

    
    # 총 시술 횟수 -> 3구간으로 구간화
    def collapse_trials(x):
        if pd.isna(x): return 'Unknown'
        if x <= 0: return '0회' 
        elif 1 <= x <= 2: return '1–2회'
        elif 3 <= x <= 5: return '3–5회'
        else: return '6회 이상'

    df["총 시술 bin3"] = df["총 시술 횟수"].apply(collapse_trials)


    def div(num1, num2):
        return np.where(num2 == 0, -1, num1 / num2)

    if '시술 당시 나이' in df.columns:
        temp_age = df['시술 당시 나이'].astype(str).str.extract(r'(\d+)')[0].astype(float)
    else:
        temp_age = np.nan
    
    df['나이x이식배아'] = (temp_age + 1) * df['이식된 배아 수']
    df['연령별 배아 효율'] = div(df['이식된 배아 수'], (temp_age + 1))
    
    df['배아 생성 효율'] = div(df['총 생성 배아 수'], df['수집된 신선 난자 수'])
    df['배아 이식 비율'] = div(df['이식된 배아 수'], df['총 생성 배아 수'])
    df['배아 저장 비율'] = div(df['저장된 배아 수'], df['총 생성 배아 수'])
    
    df['이상적 배양 기간'] = df['배아 이식 경과일'].isin([3, 5]).astype(int)

    df['IVF 시술 대비 임신율'] = div(df['IVF 임신 횟수'], df['IVF 시술 횟수'])
    df['IVF 시술 대비 출산율'] = div(df['IVF 출산 횟수'], df['IVF 시술 횟수'])
    df['IVF 임신 유지력'] = div(df['IVF 출산 횟수'], df['IVF 임신 횟수'])

    df['DI 시술 대비 임신율'] = div(df['DI 임신 횟수'], df['DI 시술 횟수'])
    df['DI 시술 대비 출산율'] = div(df['DI 출산 횟수'], df['DI 시술 횟수'])
    df['DI 임신 유지력'] = div(df['DI 출산 횟수'], df['DI 임신 횟수'])

    
    # 배아 이식 상태 및 단계 (preprocess)
    embryo_stage_cols = [
        "단일 배아 이식 여부", "착상 전 유전 진단 사용 여부", "배아 생성 주요 이유",
        "총 생성 배아 수", "미세주입된 난자 수", "미세주입에서 생성된 배아 수",
        "이식된 배아 수", "미세주입 배아 이식 수", "저장된 배아 수",
        "미세주입 후 저장된 배아 수", "해동된 배아 수", "해동 난자 수",
        "수집된 신선 난자 수", "저장된 신선 난자 수", "혼합된 난자 수",
        "파트너 정자와 혼합된 난자 수", "기증자 정자와 혼합된 난자 수",
        "동결 배아 사용 여부", "신선 배아 사용 여부", "기증 배아 사용 여부", "대리모 여부",
    ]
    df["배아_이식_미도달"] = df[embryo_stage_cols].isna().all(axis=1).astype(int)
    df["배아_이식_여부"] = 1 - df["배아_이식_미도달"]

    def embryo_stage(row):
        if row['배아_이식_여부'] == 0: return '배아단계_미도달'
        elif pd.isna(row['총 생성 배아 수']) or row['총 생성 배아 수'] == 0: return '배아생성_실패'
        elif pd.isna(row['이식된 배아 수']) or row['이식된 배아 수'] == 0: return '이식_미실시'
        else: return '이식_완료'

    df['배아_진행_단계'] = df.apply(embryo_stage, axis=1)

    # 4.3 이식 배아 구간 (preprocess)
    def embryo_count_bin(count):
        if pd.isna(count) or count == 0: return '0개'
        elif count <= 2: return '1-2개'
        else: return '3개 이상'
    df['이식배아_구간'] = df['이식된 배아 수'].apply(embryo_count_bin)

    drop_cols = ['ID'] + female_cols + male_cols
    df.drop(columns=drop_cols, errors='ignore', inplace=True)
    
    return df

train_df = feature_engineering(train_df)
test_df = feature_engineering(test_df)

# ==========================================
# 3. 데이터 타입 최적화
# ==========================================

def optimize_memory(df):
    for col in df.columns:
        # 숫자형 데이터 최적화
        if df[col].dtype in ['int64', 'float64']:
            if df[col].dtype == 'int64':
                df[col] = pd.to_numeric(df[col], downcast='integer')
            else:
                df[col] = pd.to_numeric(df[col], downcast='float')
        
        # 문자열(object) 데이터 -> 범주형(category) 변환
        elif df[col].dtype == 'object':
            df[col] = df[col].astype('category')
    return df

train_df = optimize_memory(train_df)
test_df = optimize_memory(test_df)

# ==========================================
# 4. 모델 학습 설정
# ==========================================

predictor = TabularPredictor(
    label=target,
    eval_metric='roc_auc',
    problem_type='binary',
    path='ag_models_out_v16',
).fit(
    train_data=train_df,
    time_limit=10800,
    presets='best_quality',
    num_bag_folds=5,
    num_bag_sets=1,
    num_stack_levels=1,
    refit_full=True,
    dynamic_stacking=False,
    save_space=True,
)

# ==========================================
# 4. 예측 (Test Data 활용) - 최종 결과를 확률로 출력 (Positive 클래스에 대한 확률만 추출)
# ==========================================

pred_probs = predictor.predict_proba(test_df)
final_probs = pred_probs.iloc[:, 1]

Verbosity: 2 (Standard Logging)
AutoGluon Version:  1.5.0
Python Version:     3.11.14
Operating System:   Darwin
Platform Machine:   arm64
Platform Version:   Darwin Kernel Version 25.2.0: Tue Nov 18 21:09:40 PST 2025; root:xnu-12377.61.12~1/RELEASE_ARM64_T6000
CPU Count:          10
Pytorch Version:    2.9.1
CUDA Version:       CUDA is not available
Memory Avail:       4.09 GB / 16.00 GB (25.6%)
Disk Space Avail:   152.82 GB / 460.43 GB (33.2%)
Presets specified: ['best_quality']
Using hyperparameters preset: hyperparameters='zeroshot'
Stack configuration (auto_stack=True): num_stack_levels=1, num_bag_folds=5, num_bag_sets=1
Beginning AutoGluon training ... Time limit = 10800s
AutoGluon will save models to "/Users/admin/00 임신 예측/pregnancy-outcome-prediction-ai/Notebooks/ag_models_out_v16"
Train Data Rows:    256351
Train Data Columns: 79
Label Column:       임신 성공 여부
Problem Type:       binary
Preprocessing data ...
Selected class <--> label mapping:  class 1 = 1, class 0 = 0
Us

In [2]:
# --- 리더보드 출력 ---
lb = predictor.leaderboard(train_df, silent=True)
display(lb.head())

Unnamed: 0,model,score_test,score_val,eval_metric,pred_time_test,pred_time_val,fit_time,pred_time_test_marginal,pred_time_val_marginal,fit_time_marginal,stack_level,can_infer,fit_order
0,RandomForest_r195_BAG_L1,0.998535,0.70148,roc_auc,1.785785,5.735097,49.51551,1.785785,5.735097,49.51551,1,True,24
1,RandomForest_r195_BAG_L1_FULL,0.998535,,roc_auc,2.082848,5.735097,49.51551,2.082848,5.735097,49.51551,1,True,106
2,RandomForest_r39_BAG_L1_FULL,0.993876,,roc_auc,2.131221,6.746926,58.322688,2.131221,6.746926,58.322688,1,True,125
3,RandomForest_r39_BAG_L1,0.993876,0.708516,roc_auc,2.267808,6.746926,58.322688,2.267808,6.746926,58.322688,1,True,43
4,ExtraTrees_r42_BAG_L1,0.957398,0.721879,roc_auc,1.353248,6.086441,41.468533,1.353248,6.086441,41.468533,1,True,20


In [3]:
# --- 제출 파일 생성 ---
submission = pd.read_csv('../Data/sample_submission.csv')
submission['probability'] = final_probs.values

# 현재 시간 가져오기 (예: 0206_1031)
now = datetime.now().strftime('%m%d_%H%M')
file_name = f"{now}_submission.csv"
submission.to_csv(file_name, index=False)

print(f"학습 및 예측이 완료되었습니다. 결과가 {file_name}에 저장되었습니다.")

학습 및 예측이 완료되었습니다. 결과가 0211_1652_submission.csv에 저장되었습니다.


In [7]:
# --- 피처 중요도 ---
# fi = predictor.feature_importance(data=train_df.sample(n=min(5000, len(train_df)), random_state=42))
# fi.to_excel('fi16.xlsx')