# CatBoost - 베이스라인 버전 (one-hot encoding)

In [1]:
# This Python 3 environment comes with many helpful analytics libraries installed
# It is defined by the kaggle/python Docker image: https://github.com/kaggle/docker-python
# For example, here's several helpful packages to load

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

# Input data files are available in the read-only "../input/" directory
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# You can write up to 20GB to the current directory (/kaggle/working/) that gets preserved as output when you create a version using "Save & Run All" 
# You can also write temporary files to /kaggle/temp/, but they won't be saved outside of the current session

/kaggle/input/lg-aimers/sample_submission.csv
/kaggle/input/lg-aimers/train.csv
/kaggle/input/lg-aimers/test.csv


In [2]:
data_path = '/kaggle/input/lg-aimers/'

train = pd.read_csv(data_path + 'train.csv', index_col= 'ID')
test = pd.read_csv(data_path + 'test.csv', index_col= 'ID')
submission = pd.read_csv(data_path + 'sample_submission.csv', index_col= 'ID')

## 1. 데이터 통합

In [3]:
all_data = pd.concat([train, test], ignore_index= True)
all_data = all_data.drop('임신 성공 여부', axis= 1)

## 2. 피처 엔지니어링

In [4]:
categorical_columns = [
    "시술 시기 코드",
    "시술 당시 나이",
    "시술 유형",
    "특정 시술 유형",
    "배란 자극 여부",
    "배란 유도 유형",
    "단일 배아 이식 여부",
    "착상 전 유전 검사 사용 여부",
    "착상 전 유전 진단 사용 여부",
    "남성 주 불임 원인",
    "남성 부 불임 원인",
    "여성 주 불임 원인",
    "여성 부 불임 원인",
    "부부 주 불임 원인",
    "부부 부 불임 원인",
    "불명확 불임 원인",
    "불임 원인 - 난관 질환",
    "불임 원인 - 남성 요인",
    "불임 원인 - 배란 장애",
    "불임 원인 - 여성 요인",
    "불임 원인 - 자궁경부 문제",
    "불임 원인 - 자궁내막증",
    "불임 원인 - 정자 농도",
    "불임 원인 - 정자 면역학적 요인",
    "불임 원인 - 정자 운동성",
    "불임 원인 - 정자 형태",
    "배아 생성 주요 이유",
    "총 시술 횟수",
    "클리닉 내 총 시술 횟수",
    "IVF 시술 횟수",
    "DI 시술 횟수",
    "총 임신 횟수",
    "IVF 임신 횟수",
    "DI 임신 횟수",
    "총 출산 횟수",
    "IVF 출산 횟수",
    "DI 출산 횟수",
    "난자 출처",
    "정자 출처",
    "난자 기증자 나이",
    "정자 기증자 나이",
    "동결 배아 사용 여부",
    "신선 배아 사용 여부",
    "기증 배아 사용 여부",
    "대리모 여부",
    "PGD 시술 여부",
    "PGS 시술 여부"
]

In [5]:
# 카테고리형 컬럼들을 문자열로 변환
for col in categorical_columns:
    all_data[col] = all_data[col].astype(str)

In [6]:
from sklearn.preprocessing import OneHotEncoder

onehot_encoder = OneHotEncoder()

encoded_cat_matrix = onehot_encoder.fit_transform(all_data[categorical_columns])

encoded_cat_matrix

<346418x205 sparse matrix of type '<class 'numpy.float64'>'
	with 16281646 stored elements in Compressed Sparse Row format>

In [7]:
numeric_columns = [
    "임신 시도 또는 마지막 임신 경과 연수",
    "총 생성 배아 수",
    "미세주입된 난자 수",
    "미세주입에서 생성된 배아 수",
    "이식된 배아 수",
    "미세주입 배아 이식 수",
    "저장된 배아 수",
    "미세주입 후 저장된 배아 수",
    "해동된 배아 수",
    "해동 난자 수",
    "수집된 신선 난자 수",
    "저장된 신선 난자 수",
    "혼합된 난자 수",
    "파트너 정자와 혼합된 난자 수",
    "기증자 정자와 혼합된 난자 수",
    "난자 채취 경과일",
    "난자 해동 경과일",
    "난자 혼합 경과일",
    "배아 이식 경과일",
    "배아 해동 경과일"
]

In [8]:
all_columns = all_data.columns
all_columns

Index(['시술 시기 코드', '시술 당시 나이', '임신 시도 또는 마지막 임신 경과 연수', '시술 유형', '특정 시술 유형',
       '배란 자극 여부', '배란 유도 유형', '단일 배아 이식 여부', '착상 전 유전 검사 사용 여부',
       '착상 전 유전 진단 사용 여부', '남성 주 불임 원인', '남성 부 불임 원인', '여성 주 불임 원인',
       '여성 부 불임 원인', '부부 주 불임 원인', '부부 부 불임 원인', '불명확 불임 원인', '불임 원인 - 난관 질환',
       '불임 원인 - 남성 요인', '불임 원인 - 배란 장애', '불임 원인 - 여성 요인', '불임 원인 - 자궁경부 문제',
       '불임 원인 - 자궁내막증', '불임 원인 - 정자 농도', '불임 원인 - 정자 면역학적 요인',
       '불임 원인 - 정자 운동성', '불임 원인 - 정자 형태', '배아 생성 주요 이유', '총 시술 횟수',
       '클리닉 내 총 시술 횟수', 'IVF 시술 횟수', 'DI 시술 횟수', '총 임신 횟수', 'IVF 임신 횟수',
       'DI 임신 횟수', '총 출산 횟수', 'IVF 출산 횟수', 'DI 출산 횟수', '총 생성 배아 수',
       '미세주입된 난자 수', '미세주입에서 생성된 배아 수', '이식된 배아 수', '미세주입 배아 이식 수', '저장된 배아 수',
       '미세주입 후 저장된 배아 수', '해동된 배아 수', '해동 난자 수', '수집된 신선 난자 수', '저장된 신선 난자 수',
       '혼합된 난자 수', '파트너 정자와 혼합된 난자 수', '기증자 정자와 혼합된 난자 수', '난자 출처', '정자 출처',
       '난자 기증자 나이', '정자 기증자 나이', '동결 배아 사용 여부', '신선 배아 사용 여부', '기증 배아 사용 여부',
       '대리모 여부', 'PGD 시술 여부', 'PGS 시술 여부', '난자

In [9]:
len(all_columns)

67

In [10]:
from scipy import sparse

extracted_data_sprs = sparse.hstack([sparse.csr_matrix(all_data[numeric_columns]),
                               encoded_cat_matrix],
                              format='csr')

## 3. 데이터 나누기

In [11]:
num_train = len(train) 

X = extracted_data_sprs[:num_train]
X_test = extracted_data_sprs[num_train:]

y = train['임신 성공 여부'].values

## 5. 파라미터 최적화

In [13]:
from catboost import CatBoostClassifier, Pool
from sklearn.model_selection import train_test_split

# 8:2 비율로 훈련 데이터, 검증 데이터 분리 (베이지안 최적화 수행용)
X_train, X_valid, y_train, y_valid = train_test_split(X, y, 
                                                      test_size=0.2, 
                                                      random_state=0)

# CatBoost 전용 데이터셋
bayes_dtrain = Pool(X_train, y_train, cat_features=None)
bayes_dvalid = Pool(X_valid, y_valid, cat_features=None)

In [14]:
# 베이지안 최적화를 위한 하이퍼파라미터 범위
param_bounds = {
    'depth': (6, 10),
    'learning_rate': (0.05, 0.1),
    'l2_leaf_reg': (8, 10),
    'bagging_temperature': (0.5, 1.0),
    'border_count': (200, 255)
}

# 고정된 하이퍼파라미터
fixed_params = {
    'loss_function': 'Logloss',
    'eval_metric': 'AUC',
    'iterations': 2500,
    'random_seed': 1991,
    'verbose': 200
}

In [15]:
from sklearn.metrics import roc_auc_score

# 평가 함수 정의
def eval_function(depth, learning_rate, l2_leaf_reg, bagging_temperature, border_count):
    params = {
        'depth': int(round(depth)),
        'learning_rate': learning_rate,
        'l2_leaf_reg': l2_leaf_reg,
        'bagging_temperature': bagging_temperature,
        'border_count': int(round(border_count))
    }
    
    params.update(fixed_params)
    print('하이퍼파라미터:', params)
    
    # CatBoost 모델 훈련
    cat_model = CatBoostClassifier(**params)
    cat_model.fit(bayes_dtrain, 
                  eval_set=bayes_dvalid, 
                  early_stopping_rounds=200, 
                  verbose=0)
    
    # 검증 데이터 예측
    preds = cat_model.predict_proba(X_valid)[:, 1]
    
    # ROC-AUC 계산
    roc_auc = roc_auc_score(y_valid, preds)
    print(f'ROC-AUC : {roc_auc}\n')
    
    return roc_auc

In [16]:
from bayes_opt import BayesianOptimization

# 베이지안 최적화 객체 생성
optimizer = BayesianOptimization(f=eval_function,      # 평가지표 계산 함수
                                 pbounds=param_bounds, # 하이퍼파라미터 범위
                                 random_state=0)

In [17]:
# 베이지안 최적화 수행
# TODO: init_points 10~15, n_iter 30~70
optimizer.maximize(init_points=15, n_iter=60)

|   iter    |  target   | baggin... | border... |   depth   | l2_lea... | learni... |
-------------------------------------------------------------------------------------
하이퍼파라미터: {'depth': 8, 'learning_rate': 0.07118273996694524, 'l2_leaf_reg': 9.089766365993794, 'bagging_temperature': 0.7744067519636624, 'border_count': 239, 'loss_function': 'Logloss', 'eval_metric': 'AUC', 'iterations': 2500, 'random_seed': 1991, 'verbose': 200}
ROC-AUC : 0.741458709724407

| [39m1        [39m | [39m0.7415   [39m | [39m0.7744   [39m | [39m239.3    [39m | [39m8.411    [39m | [39m9.09     [39m | [39m0.07118  [39m |
하이퍼파라미터: {'depth': 10, 'learning_rate': 0.0691720759412889, 'l2_leaf_reg': 9.927325521002059, 'bagging_temperature': 0.8229470565333281, 'border_count': 224, 'loss_function': 'Logloss', 'eval_metric': 'AUC', 'iterations': 2500, 'random_seed': 1991, 'verbose': 200}
ROC-AUC : 0.7409852454468769

| [39m2        [39m | [39m0.741    [39m | [39m0.8229   [39m | [39m224.1    

In [18]:
max_params = optimizer.max['params']
max_params['depth'] = int(round(max_params['depth']))
max_params['border_count'] = int(round(max_params['border_count']))
max_params.update(fixed_params)

In [19]:
max_params

{'bagging_temperature': 0.9210971924216698,
 'border_count': 210,
 'depth': 7,
 'l2_leaf_reg': 8.360830470231202,
 'learning_rate': 0.07314376779212872,
 'loss_function': 'Logloss',
 'eval_metric': 'AUC',
 'iterations': 2500,
 'random_seed': 1991,
 'verbose': 200}

## 6. 모델 훈련

In [None]:
from sklearn.model_selection import StratifiedKFold

# 층화 K 폴드 교차 검증기
folds = StratifiedKFold(n_splits=10, shuffle=True, random_state=1991)

In [None]:
# OOF 방식으로 훈련된 모델로 검증 데이터 타깃값을 예측한 확률을 담을 1차원 배열
oof_val_preds = np.zeros(X.shape[0]) 
# OOF 방식으로 훈련된 모델로 테스트 데이터 타깃값을 예측한 확률을 담을 1차원 배열
oof_test_preds = np.zeros(X_test.shape[0]) 

In [None]:
from sklearn.metrics import roc_auc_score

for idx, (train_idx, valid_idx) in enumerate(folds.split(X, y)):
    print('#'*40, f'폴드 {idx+1} / 폴드 {folds.n_splits}', '#'*40)
    
    X_train, y_train = X[train_idx], y[train_idx]
    X_valid, y_valid = X[valid_idx], y[valid_idx]
    
    dtrain = Pool(X_train, y_train, cat_features=None)
    dvalid = Pool(X_valid, y_valid, cat_features=None)
    
    cat_model = CatBoostClassifier(**max_params)
    cat_model.fit(dtrain, eval_set=dvalid, early_stopping_rounds=200, verbose=500)
    
    # 테스트 데이터 예측
    oof_test_preds += cat_model.predict_proba(X_test)[:, 1] / folds.n_splits
    # 검증 데이터 예측
    oof_val_preds[valid_idx] += cat_model.predict_proba(X_valid)[:, 1]
    
    # 검증 데이터 ROC-AUC 계산
    roc_auc = roc_auc_score(y_valid, oof_val_preds[valid_idx])
    print(f'폴드 {idx+1} ROC-AUC : {roc_auc}\n')

## 7. 최종 결과

In [None]:
print('최종 OOF 검증 데이터 ROC-AUC:', roc_auc_score(y, oof_val_preds))

In [None]:
submission['probability'] = oof_test_preds
submission.to_csv('cat_onehot_submission.csv')