In [None]:
# 예제 데이터 
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib
import warnings
warnings.filterwarnings('ignore')

cust_df = pd.read_csv('./train_santander.csv', encoding='latin-1')
print('dataset shape: ', cust_df.shape)
cust_df.head(3)
# 0이 만족 1이 불만족
# 여기서 1이 불만족인이유는, 불만족인 데이터를 찾기 위해서

# XGBoost

In [None]:
# 1. 피처 세트와 레이블 세트 분리.
X_features = cust_df.iloc[:, :-1]
y_labels = cust_df.iloc[:, -1]

# 2. 훈련 데이터와 테스트 데이터 분리, 훈련 데이터에서 훈련 데이터, 검증 데이터 분리
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X_features, y_train, test_size=.2, 
                                                    random_state = 0)
X_tr, X_val, y_tr, y_val = train_test_split(X_train, y_train, test_size=.3, random_state=0)

# 3-1. xgboost 모델로 학습
from xgboost import XGBClassifier
from sklearn.metrics import roc_auc_score

# Classifier에 하이퍼 파라미터 입력
# 성능 평가 지표 -> eval_metric = 'auc' (가능하다면 eval_metric을 명시적으로 적어주는 것이 좋음.)
# auc의 경우 predict_proba를 가지고 와야됨.
xgb_clf = XGBClassifier(n_estimators=500, learning_rate=.05, random_state=156)
xgb_clf.fit(X_tr, y_tr,
            early_stopping_rounds=100, eval_metric='auc',
            eval_set = [(X_tr, y_tr), (X_val, y_val)])

# 마지막에 y_test 데이터를 넣어주어 점수 확인
xgb_roc_score = roc_auc_score(y_test, xgb_clf.predict_proba(X_test)[:, 1], 
                              average='macro')
print('ROC AUC: {0 :.4f}'.format(xgb_roc_score))

In [None]:
# 3-2. hyperopt를 이용하여 하이퍼 파라미터 튜닝
from hyperopt import hp

# 1. search space
# max_depth는 5에서 15까지 1간격으로...
# colsample_bytree는 .5에서 .95사이 정규 분포된 값으로 검색...
xgb_search_space = {
    'max_depth' : hp.quniform('max_depth', 5, 15, 1),
    'min_child_weight' : hp.quniform('min_child_weight', 1, 6, 1),
    'colsample_bytree' : hp.uniform('colsample_bytree', .5, .95),
    'learning_rate' : hp.uniform('learning_rate', .01, .2)
}

# 2. objective function
from sklearn.model_selection import KFold
from sklearn.metrics import roc_auc_score
    # learning_rate: 학습률
    # n_estimators: 약한 학습기 개수
    ### min_child_weight: 트리에서 추가적으로 분할할지를 결정하기 위해 필요한 weight의 총합 (디폴트는 1, 값이 클수록 분할 자제)
    ### max_depth : 트리의 최대 깊이
    # subsample : 트리가 커져서 과적합되는 것을 제어하기 위해 데이터를 샘플링하는 비율. 일반적으로.5 ~ 1사이의 값을 씀
    # reg_lambda : L2 규제
    # reg_alpha : L1 규제
    ### colsample_bytree : GBM의 max_features와 유사. (피처 비율을 조절하여 overfitting 방지)
    # scale_pos_weight : 특정 값으로 치우친 비대칭한 클래스로 구성된 데이터 세트의 균형을 유지하기 위한 파라미터. (기본값은 1)
    # gamma :

def objective_func(search_space):
    xgb_clf = XGBClassifier(n_estimators=100,
                            max_depth = int(search_space['max_depth']),
                            min_child_weight = int(searach_space['min_child_weight']),
                            colsample_bytree = search_space['colsample_bytree'],
                            learning_rate = search_space['learning_rate'])
    # 3개 kfold 방식으로 평가된 roc_auc 지표를 담는 list
    roc_auc_list = []
    
    # 3개 폴드 방식
    # kfold를 쓰는 이유는 cross_val_score와 다르게 early_stopping_rounds를 사용가능하기 때문
    kf = KFold(n_splits=3)
    
    # 학습과 검증 데이터 셋을 나누어줌
    for tr_index, val_index in kf.split(X_train):
        # tr_index -> 학습용 인덱스 / val_index -> 검증용 인덱스
        X_tr, y_tr = X_train.iloc[tr_index], y_train.iloc[tr_index]
        X_val, y_val = X_train.iloc[val_index], y_train.iloc[val_index]
        # early stopping은 30회로 설정
        xgb_clf.fit(X_tr, y_tr, early_stopping_rounds=30, eval_metric='auc',
                    eval_set = [(X_tr, y_tr), (X_val, y_val)])
        # score 계산
        # 여기서 y_test가 들어가면 안됨 -> 마지막에 쓰임
        # 여기서는 y_val이 쓰임
        score = roc_auc_score(y_val, xgb_clf.predict_proba(X_val)[:, 1])
        roc_auc_list.append(score)
       
    # -1을 곱해줌 -> fmin에서 최소의 값을 구해야 하기 때문에
    return -1 * np.mean(roc_auc_list)

# 3. fmin
from hyperopt import fmin, tpe, Trials
trials = Trials()

best = fmin(fn=objective_func, space=xgb_search_space,
            algo=tpe.suggest, # 거의 고정
            max_evals=50, # 최대 반복 횟수
            trials=trials, rstate=np.random.default_rng(seed=30))
print('best: ', best)

# 4. 최적의 하이퍼 파라미터를 기반으로 학습과 예측
xgb_clf = XGBClassifier(n_estimators=500, learning_rate=round(best['learning_rate'], 5),
                        max_depth=int(best['max_depth']), min_child_weight = int(best['min_child_weight']),
                        colsample_bytree = round(best['colsample_bytree'], 5))
xgb_clf.fit(X_tr, y_tr, early_stopping_rounds=100,
            eval_metric = 'auc', eval_set = [(X_tr, y_tr), (X_val, y_val)])
# 여기서 y_test 데이터를 써서 점수를 구해줌
xgb_roc_score = roc_auc_score(y_test, xgb_clf.predict_proba(X_test)[:,1])
print('ROC AUC: {0: .4f}'.format(xgb_roc_score))

# 5. plot_importance
from xgboost import plot_importance
import matplotlib.pyplot as plt
%matplotlib inline

fig, ax = plt.subplots(1,1,figsize=(10,8))
plot_importance(xgb_clf, ax=ax, max_num_features=20, height=.4)

# lightGBM

In [None]:
#### lightGBM ####
# num_leaves개수를 중심으로 min_child_samples(min_data_in_leaf), max_depth를 함께 조정하면서 모델의 복잡도를 줄이는 것이 기본 튜닝 방안

    # n_estimators
    #### learning_rate
    #### max_depth
    #### min_child_samples
    # subsample
    #### colsample_bytree : max_features와 유사 (많이 중요함) -> 피처가 많으면 overfitting될 수 있어 피처 개수를 랜덤으로 줄임. 
    # reg_lambda
    # reg_alpha
    # early_stopping_rounds
    ##### num_leaves : lightGBM에서는 기반이 되는 하이퍼 파라미터
    # min_child_weight
    
## 트리구조 ##
# max_depth
# num_leaves
# min_child_samples
# min_child_weight

## 샘플링 비율 ##
# subsample : 서브 데이터의 비율
# colsample_bytree : ex)columns이 100개이면 그 중에서 50개만 한다는 가 (비율)

## 손실함수 규제 ##
# reg_lambda
# reg_alpha

## learning rate ##

# 위의 9가지 정도만 정해도 괜찮음. 
# 너무 많은 하이퍼 파라미터들을 튜닝하려는 것은 오히려 최적값을 찾는데 방해가 될 수 있음.
# 적당한 수준의 하이퍼 파라미터 개수 설정 필요.

In [None]:
# 하이퍼 파라미터 튜닝 없이
from lightgbm import LGBMClassifier

lgmb_clf = LGBMClassifier(n_estimators=500)

eval_set = [(X_tr, y_tr), (X_val, y_val)]
lgbm_clf.fit(X_tr, y_tr, early_stopping_rounds=100, eval_metric='auc', eval_set = eval_set)

lgbm_roc_score = roc_auc_score(y_test, lgbm_clf.predict_proba(X_test)[:,1])
print("ROC AUC: {0: .4f}".format(lgbm_roc_score))

In [None]:
# 하이퍼 파라미터 튜닝

# 1. search_space
# lgbm은 num_leaves를 기반으로 과적합을 제어함
# 다른 모델이었으면 max_depth가 크면 과적합이 생기기 쉬운데, 여기서는 num_leaves가 기반이기 때문에 괜찮음
lgbm_search_space = {
    'num_leaves' : hp.quniform('num_leaves', 32, 64, 1),
    'max_depth' : hp.quniform('max_depth', 100, 160, 1),
    'min_child_samples' : hp.quniform('min_child_samples', 60, 100, 1),
    'subsample' : hp.uniform('subsample', 0.7, 1),
    'learning_rate' : hp.uniform('learning_rate', .01, .2)
}

# 2. objective function
def objective_func(search_space):
    lgbm_clf = LGBMClassifier(n_estimators=100,
                              num_leaves = int(search_space['num_leaves']),
                              max_depth= int(search_space['max_depth']),
                              min_child_samples = int(search_space['min_child_samples']),
                              subsample = search_space['subsample'],
                              learning_rate = search_space['learning_rate'])
    # 3개의 kfold 방식으로 평가된 roc_auc 지표를 담는 list
    # 이후 평균을 구함
    roc_auc_list = []
    
    # 3개 kfold
    kf = KFold(n_splits=3)
    
    # X_train을 다시 학습과 검증용 데이터로 분리
    for tr_index, val_index in kf.split(X_train):
        X_tr, y_tr = X_train.iloc[tr_index], y_train.iloc[tr_index]
        X_val, y_val = X_train.iloc[val_index], y_train.iloc[val_index]
        
        # early stopping 설정 및 추출된 학습과 검증 데이터로 XGBClassifier 수행
        lgbm_clf.fit(X_tr, y_tr, early_stopping_rounds=30, eval_metric='auc',
                     eval_set = [(X_tr, y_tr), (X_val, y_val)])
        score = roc_auc_score(y_val, lgbm_clf.predict_proba(X_val)[:, 1])
        roc_auc_list.append(score)
        
    return -1 * np.mean(roc_auc_list)

# 3. fmin (best 구하기)
from hyperopt import fmin, tpe, Trials

trials = Trials()
best = fmin(fn=objective_func, space=lgbm_search_space,
            max_evals=50, trials=trials,
            rstate=np.random.default_rng(seed=30))
print('best: ', best)

# 4. 최적의 하이퍼 파라미터로 모델 구축
lgbm_clf = LGBMClassifier(n_estimators=500,
                          num_leaves = int(best['num_leaves']),
                          max_depth = int(best['max_depth']),
                          min_child_samples = int(best['min_child_samples']),
                          subsample=round(best['subsample'], 5),
                          learning_rate = round(best['learning_rate'], 5))
# evaluation metric -> auc, early stopping -> 100
lgbm_clf.fit(X_tr, y_tr, early_stopping_roudns=100, eval_metric='auc', eval_set = [(X_tr, y_tr), (X_val, y_val)])
lgbm_roc_score = roc_auc_score(y_test, lgbm_clf.predict_proba(X_test)[:, 1])
print('ROC AUC: {0: .4f}'.format(lgbm_roc_score))