In [None]:
import numpy as np
import pandas as pd
from sklearn.preprocessing import StandardScaler

import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns

import warnings
from IPython.display import Image
#from sklearn.model_selection import KFold
#from sklearn.linear_model import LogisticRegression
from sklearn.metrics import f1_score
from sklearn.preprocessing import LabelEncoder

from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report
from sklearn.metrics import accuracy_score,precision_score,recall_score,roc_auc_score

import missingno as msno


In [None]:
%matplotlib inline
%config InlineBackend.figure_format = 'retina'

mpl.rc('font', family = 'D2coding')
mpl.rc('axes', unicode_minus=False)

sns.set(font="malgun gothic", rc={"axes.unicode_minus":False}, style='darkgrid')
plt.rc('figure', figsize=( 10, 8))

warnings.filterwarnings('ignore')

In [None]:
from sklearn.model_selection import train_test_split, cross_val_predict
from sklearn.metrics import accuracy_score, precision_score, recall_score, roc_auc_score
from sklearn.metrics import f1_score, confusion_matrix, precision_recall_curve, roc_curve, classification_report

from sklearn.preprocessing import StandardScaler, MinMaxScaler
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import Binarizer


# 평가지표 분류
def get_clf_eval(y_test, pred = None, pred_proba = None):
    confusion = confusion_matrix(y_test, pred)
    accuracy = accuracy_score(y_test, pred)
    precision = precision_score(y_test, pred)
    recall = recall_score(y_test, pred)
    f1 = f1_score(y_test, pred)
    roc_auc = roc_auc_score(y_test, pred_proba)
    print('오차 행렬')
    print(confusion)
    print('정확도 : {:.4f}, 정밀도 : {:.4f}, 재현율 : {:.4f}, F1 : {:.4f}, AUC : {:.4f}'.
          format(accuracy, precision, recall, f1, roc_auc))

# 재현율과 정밀도의 시각화
def precision_recall_curve_plot(y_test, pred_proba_c1):
    precisions, recalls, thresholds = precision_recall_curve(y_test, pred_proba_c1)
    
    plt.figure(figsize = (10, 7))
    plt.rc('font', family = 'D2coding')
    threshold_boundary = thresholds.shape[0]
    a = thresholds[precisions[0:threshold_boundary] == recalls[0:threshold_boundary]]
    loc = np.where(thresholds == a[0])[0][0]
    plt.plot(thresholds, precisions[0:threshold_boundary], linestyle = '--', label = 'precision')
    plt.plot(thresholds, recalls[0:threshold_boundary], label = 'recall')
    plt.scatter(thresholds[loc], precisions[loc], c = 'black', s = 60)
    plt.text(0.02 + thresholds[loc], precisions[loc], '임계값 : {:.3f}'.format(thresholds[loc]), size = 15)
    
    start, end = plt.xlim()
    plt.xticks(np.round(np.arange(start, end, 0.1), 2), size = 15)
    plt.xlabel('Threshold value', size = 15); plt.ylabel('Precision and Recall value', size = 15)
    plt.legend()
    plt.rc('legend', fontsize = 15)
    plt.rc('ytick', labelsize = 15)
    plt.show()
    

# 임계값 조정 함수
def get_clf_eval_thres(y_test, pred_po, threshold, f1_show=False, auc_show=False):
    eval_df = pd.DataFrame()
    
    for thres in threshold:
        # threshold에 따른 예측 분류 값
        binarizer = Binarizer(threshold = thres)
        binarizer.fit(pred_po)
        thres_pred = binarizer.transform(pred_po)
        
        # 평가지표  
        accuracy = accuracy_score(y_test, thres_pred)
        precision = precision_score(y_test, thres_pred)
        recall = recall_score(y_test, thres_pred)
        f1 = f1_score(y_test, thres_pred)
        auc = roc_auc_score(y_test, pred_po)
        
        # 데이터 프레임 형태
        eval_lst = np.array([accuracy, precision, recall, f1, auc]).reshape(-1,1)
        temp = pd.DataFrame(eval_lst, columns=[thres], 
                            index = ["정확도", "정밀도", "재현율", "F1스코어", "AUC"])
        eval_df = pd.concat([eval_df,temp], axis=1)
        
    eval_df.columns.names = ["임계값"]
    
    if f1_show == False:
        eval_df.drop("F1스코어", axis=0, inplace=True)
        
    if auc_show == False:
        eval_df.drop("AUC", axis=0, inplace=True)
        
    return round(eval_df, 4)

In [None]:
data = pd.read_csv('C:/k_digital/source/data/open/train.csv')
test = pd.read_csv('C:/k_digital/source/data/open/test.csv')

In [None]:
data['FOPTIMETHGLY'].value_counts()

# 데이터 탐색 및 전처리(EDA)

## 데이터 유형 확인

In [None]:
data.info()

## profiling

In [None]:
#!pip install pandas_profiling

import pandas_profiling
profile_report = pandas_profiling.ProfileReport(data)
profile_report

## 결측치 확인
- U를 2개의 그룹으로 합친 다음에 결측치를 0으로 대체 
- 결측치 0으로 바꾸기

In [None]:
# 비율로 확인 
missing_value = data.isna().sum()
total = data.shape[0]
ratio = round(missing_value/total,2)
print(round(missing_value/total,2))
ratio.sort_values(ascending=False).head(17).index
#  ['U4', 'U6', 'U14', 'U20', 'U50', 'U100', 'U75', 'U25', 'V100', 'FH2O',
#        'FOXID', 'FUEL', 'FOPTIMETHGLY', 'FSO4', 'FTBN', 'SOOTPERCENTAGE',
#        'FNOX'] --> 결측치 70% 이상 

In [None]:
# 결측치 시각화 
plt.figure(figsize=(10,15))
msno.matrix(data.sample(250))
plt.show()

In [None]:
# bar
msno.bar(data)

In [None]:
#한 변수의 유무가 다른 변수의 존재에 얼마나 강하게 영향을 미치는지입니다.
# 결측치가 너무 많아서 "1"로 뜬 것 같다. 
msno.heatmap(data)

## 결측치 확인 

In [None]:
# 'U20', 'U50', 'U100','U75', 'U25', 'FOPTIMETHGLY','V100' 삭제 
data = data.drop(columns = ['U20', 'U50', 'U100','U75', 'U25', 'FOPTIMETHGLY','V100'])

In [None]:
# Y_LABEL확인
data['Y_LABEL'].value_counts()

In [None]:
# 결측치 확인 
data.isna().sum()

In [None]:
# 결측치 "0"으로 채우기 
feature = ['K', 'CD','U4', 'U6', 'U14', 'FH2O','FOXID', 'FSO4', 'SOOTPERCENTAGE','FNOX','FUEL']
for i in feature:
    data[i].fillna(0, inplace=True)    

In [None]:
data['FUEL'].value_counts()

In [None]:
# 결측치 확인 --> 결측치 없음. * FUEL, FTBN은 아직 결측치 존재 . 
data.isna().sum()

### FTBN

In [None]:
sns.boxplot(data['FTBN'])
plt.show()

In [None]:
data.FTBN.plot()

In [None]:
# 결측치를 뭘로 채우지?
data['FTBN'].describe()

In [None]:
data['FTBN'].value_counts()

In [None]:
data.head(3)

## YEAR, COMPONENT로 groupby 이용해 target값 분석. FUEL

In [None]:
missing_value_mana = [ 'FUEL',   'FTBN']
for i in missing_value_mana:
    print(i, '\n' ,data[data[i].isna()==True]['Y_LABEL'].value_counts(), '\n-----------------------------')

In [None]:
#pd.options.display.max_rows = 785
data.groupby('YEAR')['FTBN'].value_counts()

In [None]:
data.groupby('YEAR')['Y_LABEL'].value_counts()

In [None]:
data.groupby('YEAR')['FUEL'].value_counts()

## IterativeImputer

In [None]:
FTBN = pd.DataFrame(data['FTBN'])
FTBN

In [None]:
FTBN = pd.DataFrame(data['FTBN'])
FTBN
# 결측값을 예측을 통해 채워넣음 
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer

imputer = IterativeImputer(random_state=100)
FTBN_imputed = imputer.fit_transform(FTBN)

# describe()를 하기위해 dataframe으로 바꿔줌 
FTBN_imputed = pd.DataFrame(FTBN_imputed)
FTBN_imputed.describe()

In [None]:
FTBN_imputed = pd.DataFrame(FTBN_imputed)
FTBN_imputed.describe()

In [None]:
# iterative impute 하기 전.
data['FTBN'].describe()

## 결측치 많은 애들 heatmap

In [None]:
data.shape

In [None]:
plt.figure(figsize = (35, 35))
sns.heatmap(data.corr(), 
           annot = True, fmt = '0.1f',cmap = 'Blues')

In [None]:
data['FTBN'] = FTBN_imputed

In [None]:
data

In [None]:
msno.matrix(data)

# 데이터 스케일링

In [None]:
data.columns

In [None]:
categorical_features = ['COMPONENT_ARBITRARY', 'YEAR']

In [None]:
from sklearn.preprocessing import LabelEncoder

le = LabelEncoder()
for col in categorical_features:    
    data[col] = le.fit_transform(data[col])

In [None]:
data = data.drop('ID', axis = 1)

In [None]:
from sklearn.preprocessing import StandardScaler
ss = StandardScaler()
scaled = ss.fit_transform(data.drop(['COMPONENT_ARBITRARY', 'YEAR', 'Y_LABEL'], axis = 1))
columns = ['ANONYMOUS_1',
       'SAMPLE_TRANSFER_DAY', 'ANONYMOUS_2', 'AG', 'AL', 'B', 'BA', 'BE', 'CA',
       'CD', 'CO', 'CR', 'CU', 'FH2O', 'FNOX', 'FOXID', 'FSO4', 'FTBN', 'FE',
       'FUEL', 'H2O', 'K', 'LI', 'MG', 'MN', 'MO', 'NA', 'NI', 'P', 'PB',
       'PQINDEX', 'S', 'SB', 'SI', 'SN', 'SOOTPERCENTAGE', 'TI', 'U14', 'U6',
       'U4', 'V', 'V40', 'ZN']
scaled = pd.DataFrame(scaled, columns = columns)
scaled.head()

In [None]:
onehot = data[['COMPONENT_ARBITRARY', 'YEAR']]
scaled = pd.concat([onehot, scaled], axis = 1)
scaled

In [None]:
plt.figure(figsize = (28, 28))
sns.heatmap(scaled.corr(), annot = True, fmt = '0.1f', cmap = 'Blues')

In [None]:
data.hist(bins=80, figsize=(20,20))
plt.show()

In [None]:
scaled.hist(bins=80, figsize=(20,20))
plt.show()

In [None]:
pd.DataFrame(data[data['BE'] >= 1].groupby('BE')['Y_LABEL'].value_counts())

## train, test 세트 분리

In [None]:
from sklearn.model_selection import train_test_split


X_train, X_test, y_train, y_test = train_test_split(scaled, data['Y_LABEL'], test_size = 0.2, random_state = 2022, stratify = data['Y_LABEL'])

In [None]:
from imblearn.under_sampling import NearMiss

nearmiss=NearMiss()
under_X,under_y = nearmiss.fit_resample(X_train, y_train)
print("NearMiss 적용 전 학습용 피처/레이블 데이터 세트 : ", X_train.shape, y_train.shape)
print('NearMiss 적용 후 학습용 피처/레이블 데이터 세트 :', under_X.shape, under_y.shape)
print('NearMiss 적용 후 값의 분포 :\n',pd.Series(under_y).value_counts())

In [None]:
from imblearn.over_sampling import SMOTE

smote = SMOTE(random_state=42)
X_train_over, y_train_over = smote.fit_resample(X_train, y_train)
print("SMOTE 적용 전 학습용 피처/레이블 데이터 세트 : ", X_train.shape, y_train.shape)
print('SMOTE 적용 후 학습용 피처/레이블 데이터 세트 :', X_train_over.shape, y_train_over.shape)
print('SMOTE 적용 후 값의 분포 :\n',pd.Series(y_train_over).value_counts())

# 알고리즘 적용

In [None]:
from sklearn.metrics import accuracy_score, classification_report, roc_curve, roc_auc_score

fpr, tpr, thresholds = roc_curve(y_test, Y_pred_proba)

plt.figure(figsize=(10, 6))
plt.plot([0,1], [0,1], "r--")
plt.plot(fpr, tpr, label='LogisticRegression', color = '#162fff')
plt.xlabel('False Positive Rate', size = 15)
plt.ylabel('True Positive Rate', size = 15)
plt.title('LogisticRegression ROC curve', size = 15)
plt.text(0.3, 0.45, 'AUC 면적 = {}'.format(round(roc_auc_score(y_test, Y_pred_proba), 4)), size = 20)
plt.show()

## 원본데이터 & hyperOpt & XGBoost

In [None]:
from xgboost import XGBClassifier
from hyperopt import hp

# max_depth는 5에서 15까지 1간격으로 , min_child_weight는 1에서 6까지 1간격으로
# colsample_bytree는 0.5에서 0.95사이, learning_rate는 0.01에서 0.2사이 정규 분포된 갑승로 검색
xgb_search_space = {'num_leaves' : hp.quniform('num_leaves', 32, 64, 1),
                     'max_depth' : hp.quniform('max_depth', 100, 160, 1),
                     'min_child_samples' : hp.quniform('min_child_samples', 60, 100, 1),
                    'subsample' : hp.uniform('subsample', 0.7, 1),
                    'learning_rate' : hp.uniform('learning_rate', 0.01, 0.2)
                   }

In [None]:
from sklearn.model_selection import KFold
from sklearn.metrics import roc_auc_score
from sklearn.model_selection import StratifiedKFold



# fmim()에서 호출 시 search_space 값으로 NGBClassifier 교차 검증 학습 후 -1 * roc_auc 평균 값을 반환.
def objective_func(search_space):
    xgb_clf = XGBClassifier(n_estimators = 300,
                            num_leaves = int(search_space['num_leaves']),
                            max_depth = int(search_space['max_depth']),
                            min_child_samples = int(search_space['min_child_samples']),
                            subsample = search_space['subsample'],
                            learning_rate = search_space['learning_rate'],
                            objective = 'binary:logistic'
                           )
    
    # 3개 k-fold 방식으로 평가된 roc_auc 지표를 담는 list
    roc_auc_list = []
    
    # 3개 k-fold 방식 적용
    skf = StratifiedKFold(n_splits=3, shuffle = True)
    # X_train을 다시 학습과 검증용 데이터로 분리
    for tr_index, val_index in skf.split(X_train, y_train):
        #kf.split(X_train)으로 추출된 학습과 검증 index값으로 학습과 검증 데이터 세트 분리
        X_tr, y_tr = X_train.iloc[tr_index], y_train.iloc[tr_index]
        X_val, y_val = X_train.iloc[val_index], y_train.iloc[val_index]
        
        # early stopping은 30회로 설정하고 추출된 학습과 검증 데이터로 LGBMClassifier 학습 수행
        xgb_clf.fit(X_tr, y_tr, early_stopping_rounds = 30, eval_metric = 'logloss',
                    eval_set = [(X_tr, y_tr), (X_val, y_val)])
        
        # 1로 예측환 확률값 추출 후 roc auc 계산하고 평균 roc auc 계산을 위해 list에 결과값을 담음
        score = roc_auc_score(y_val, xgb_clf.predict_proba(X_val)[:, 1])
        roc_auc_list.append(score)

    # 3개 k-fold로 계산된 roc_auc 값의 평균값을 반환하되, 
    # hyperOpt는 목적함수의 최솟값을 위한 입력값을 반환하므로 -1을 곱한 뒤 반환.
    return -1 * np.mean(roc_auc_list)

In [None]:
from hyperopt import fmin, tpe, Trials

trials = Trials()

# fmin() 함수를 호출, max_evals 지정된 횟수만큼 반복 후 목적함수의 최솟값을 가지는 최적 입력값 추출
best = fmin(fn = objective_func,
           space = xgb_search_space,
           algo = tpe.suggest,
           max_evals = 50,
            trials = trials, rstate = np.random.default_rng(seed = 30)
           )

print('best :', best)

In [None]:
xgb = XGBClassifier(n_estimators=500,
                   max_depth = int(best['max_depth']),
                    subsample = round(best['subsample'], 5),
                    learning_rate = round(best['learning_rate'], 5)
                   )

xgb.fit(X_train, y_train)

Y_preds = xgb.predict(X_test)
Y_pred_proba = xgb.predict_proba(X_test)[:, 1]

In [None]:
get_clf_eval(y_test, Y_preds, Y_pred_proba)
print('Macro f1 socre : ', f1_score(y_test, Y_preds, average='macro'))
print('Micro f1 socre : ', f1_score(y_test, Y_preds, average='micro'))

In [None]:
precision_recall_curve_plot(y_test, Y_pred_proba)

In [None]:
from sklearn.metrics import accuracy_score, classification_report, roc_curve, roc_auc_score

fpr, tpr, thresholds = roc_curve(y_test, Y_pred_proba)

plt.figure(figsize=(10, 8))
plt.plot([0,1], [0,1], "r--")
plt.plot(fpr, tpr, label='XGBoost', color = '#175617')
plt.xlabel('False Positive Rate', size = 15)
plt.ylabel('True Positive Rate', size = 15)
plt.title('XGBoost ROC curve', size = 15)
plt.text(0.3, 0.45, 'AUC 면적 = {}'.format(round(roc_auc_score(y_test, Y_pred_proba), 4)), size = 20)
plt.show()

## 원본데이터 & hyprtOpt & LightGBM

In [None]:
from lightgbm import LGBMClassifier
from hyperopt import hp

# max_depth는 5에서 15까지 1간격으로 , min_child_weight는 1에서 6까지 1간격으로
# colsample_bytree는 0.5에서 0.95사이, learning_rate는 0.01에서 0.2사이 정규 분포된 갑승로 검색
lgbm_search_space = {'num_leaves' : hp.quniform('num_leaves', 32, 64, 1),
                     'max_depth' : hp.quniform('max_depth', 100, 160, 1),
                     'min_child_samples' : hp.quniform('min_child_samples', 60, 100, 1),
                    'subsample' : hp.uniform('subsample', 0.7, 1),
                    'learning_rate' : hp.uniform('learning_rate', 0.01, 0.2)
                   }

In [None]:
from sklearn.model_selection import KFold
from sklearn.metrics import roc_auc_score
from sklearn.model_selection import StratifiedKFold



# fmim()에서 호출 시 search_space 값으로 NGBClassifier 교차 검증 학습 후 -1 * roc_auc 평균 값을 반환.
def objective_func(search_space):
    lgbm_clf = LGBMClassifier(n_estimators = 500,
                            num_leaves = int(search_space['num_leaves']),
                            max_depth = int(search_space['max_depth']),
                            min_child_samples = int(search_space['min_child_samples']),
                            subsample = search_space['subsample'],
                            learning_rate = search_space['learning_rate']
                           )
    
    # 3개 k-fold 방식으로 평가된 roc_auc 지표를 담는 list
    roc_auc_list = []
    
    # 3개 k-fold 방식 적용
    skf = StratifiedKFold(n_splits=3)
    # X_train을 다시 학습과 검증용 데이터로 분리
    for tr_index, val_index in skf.split(X_train, y_train):
        #kf.split(X_train)으로 추출된 학습과 검증 index값으로 학습과 검증 데이터 세트 분리
        X_tr, y_tr = X_train.iloc[tr_index], y_train.iloc[tr_index]
        X_val, y_val = X_train.iloc[val_index], y_train.iloc[val_index]
        
        # early stopping은 30회로 설정하고 추출된 학습과 검증 데이터로 LGBMClassifier 학습 수행
        lgbm_clf.fit(X_tr, y_tr, early_stopping_rounds = 30, eval_metric = 'logloss',
                    eval_set = [(X_tr, y_tr), (X_val, y_val)])
        
        # 1로 예측환 확률값 추출 후 roc auc 계산하고 평균 roc auc 계산을 위해 list에 결과값을 담음
        score = roc_auc_score(y_val, lgbm_clf.predict_proba(X_val)[:, 1])
        roc_auc_list.append(score)

    # 3개 k-fold로 계산된 roc_auc 값의 평균값을 반환하되, 
    # hyperOpt는 목적함수의 최솟값을 위한 입력값을 반환하므로 -1을 곱한 뒤 반환.
    return -1 * np.mean(roc_auc_list)

In [None]:
from hyperopt import fmin, tpe, Trials

trials = Trials()

# fmin() 함수를 호출, max_evals 지정된 횟수만큼 반복 후 목적함수의 최솟값을 가지는 최적 입력값 추출
best = fmin(fn = objective_func,
           space = lgbm_search_space,
           algo = tpe.suggest,
           max_evals = 50,
            trials = trials, rstate = np.random.default_rng(seed = 30)
           )

print('best :', best)

In [None]:
ngb = LGBMClassifier(n_estimators=500, num_leaves = int(best['num_leaves']),
                   max_depth = int(best['max_depth']),
                    min_child_samples = int(best['min_child_samples']),
                    subsample = round(best['subsample'], 5),
                    learning_rate = round(best['learning_rate'], 5)
                   )

ngb.fit(X_train, y_train)

Y_preds = ngb.predict(X_test)
Y_pred_proba = ngb.predict_proba(X_test)[:, 1]

In [None]:
get_clf_eval(y_test, Y_preds, Y_pred_proba)
print('Macro f1 socre : ', f1_score(y_test, Y_preds, average='macro'))
print('Micro f1 socre : ', f1_score(y_test, Y_preds, average='micro'))

In [None]:
precision_recall_curve_plot(y_test, Y_pred_proba)

In [None]:
fpr, tpr, thresholds = roc_curve(y_test, Y_pred_proba)

plt.figure(figsize=(10, 8))
plt.plot([0,1], [0,1], "r--")
plt.plot(fpr, tpr, label='LightGBM', color = '#175617')
plt.xlabel('False Positive Rate', size = 15)
plt.ylabel('True Positive Rate', size = 15)
plt.title('LightGBM ROC curve', size = 15)
plt.text(0.3, 0.45, 'AUC 면적 = {}'.format(round(roc_auc_score(y_test, Y_pred_proba), 4)), size = 20)
plt.show()

## 오버샘플링 & hyprtOpt & XGBoost

In [None]:
xgb_search_space = {'num_leaves' : hp.quniform('num_leaves', 32, 64, 1),
                     'max_depth' : hp.quniform('max_depth', 100, 160, 1),
                     'min_child_samples' : hp.quniform('min_child_samples', 60, 100, 1),
                    'subsample' : hp.uniform('subsample', 0.7, 1),
                    'learning_rate' : hp.uniform('learning_rate', 0.01, 0.2)
                   }

In [None]:
# fmim()에서 호출 시 search_space 값으로 NGBClassifier 교차 검증 학습 후 -1 * roc_auc 평균 값을 반환.
def objective_func(search_space):
    xgb_clf = XGBClassifier(n_estimators = 300,
                            num_leaves = int(search_space['num_leaves']),
                            max_depth = int(search_space['max_depth']),
                            min_child_samples = int(search_space['min_child_samples']),
                            subsample = search_space['subsample'],
                            learning_rate = search_space['learning_rate'],
                            objective = 'binary:logistic'
                           )
    
    # 3개 k-fold 방식으로 평가된 roc_auc 지표를 담는 list
    roc_auc_list = []
    
    # 3개 k-fold 방식 적용
    skf = StratifiedKFold(n_splits=3, shuffle = True)
    # X_train을 다시 학습과 검증용 데이터로 분리
    for tr_index, val_index in skf.split(X_train_over, y_train_over):
        #kf.split(X_train)으로 추출된 학습과 검증 index값으로 학습과 검증 데이터 세트 분리
        X_tr, y_tr = X_train_over.iloc[tr_index], y_train_over.iloc[tr_index]
        X_val, y_val = X_train_over.iloc[val_index], y_train_over.iloc[val_index]
        
        # early stopping은 30회로 설정하고 추출된 학습과 검증 데이터로 LGBMClassifier 학습 수행
        xgb_clf.fit(X_tr, y_tr, early_stopping_rounds = 30, eval_metric = 'logloss',
                    eval_set = [(X_tr, y_tr), (X_val, y_val)])
        
        # 1로 예측환 확률값 추출 후 roc auc 계산하고 평균 roc auc 계산을 위해 list에 결과값을 담음
        score = roc_auc_score(y_val, xgb_clf.predict_proba(X_val)[:, 1])
        roc_auc_list.append(score)

    # 3개 k-fold로 계산된 roc_auc 값의 평균값을 반환하되, 
    # hyperOpt는 목적함수의 최솟값을 위한 입력값을 반환하므로 -1을 곱한 뒤 반환.
    return -1 * np.mean(roc_auc_list)

In [None]:
from hyperopt import fmin, tpe, Trials

trials = Trials()

# fmin() 함수를 호출, max_evals 지정된 횟수만큼 반복 후 목적함수의 최솟값을 가지는 최적 입력값 추출
best = fmin(fn = objective_func,
           space = xgb_search_space,
           algo = tpe.suggest,
           max_evals = 50,
            trials = trials, rstate = np.random.default_rng(seed = 30)
           )

print('best :', best)

In [None]:
xgb = XGBClassifier(n_estimators=500,
                   max_depth = int(best['max_depth']),
                    subsample = round(best['subsample'], 5),
                    learning_rate = round(best['learning_rate'], 5),
                    alpha = 10,
                    gamma = 10,
                    colsample_bytree = 0.5
                   )


xgb.fit(X_train_over, y_train_over, eval_metric = 'auc', objective = 'binary:logistic')

Y_preds = xgb.predict(X_test)
Y_pred_proba = xgb.predict_proba(X_test)[:, 1]

In [None]:
get_clf_eval(y_test, Y_preds, Y_pred_proba)
print('Macro f1 socre : ', f1_score(y_test, Y_preds, average='macro'))
print('Micro f1 socre : ', f1_score(y_test, Y_preds, average='micro'))

## 오버샘플링 & hyperOpt & LightGBM

In [None]:
lgbm_search_space = {'num_leaves' : hp.quniform('num_leaves', 32, 64, 1),
                     'max_depth' : hp.quniform('max_depth', 100, 160, 1),
                     'min_child_samples' : hp.quniform('min_child_samples', 60, 100, 1),
                    'subsample' : hp.uniform('subsample', 0.7, 1),
                    'learning_rate' : hp.uniform('learning_rate', 0.01, 0.2)
                   }

In [None]:
def objective_func(search_space):
    lgbm_clf = LGBMClassifier(n_estimators = 500,
                            num_leaves = int(search_space['num_leaves']),
                            max_depth = int(search_space['max_depth']),
                            min_child_samples = int(search_space['min_child_samples']),
                            subsample = search_space['subsample'],
                            learning_rate = search_space['learning_rate']
                           )
    
    # 3개 k-fold 방식으로 평가된 roc_auc 지표를 담는 list
    roc_auc_list = []
    
    # 3개 k-fold 방식 적용
    skf = StratifiedKFold(n_splits=3)
    # X_train을 다시 학습과 검증용 데이터로 분리
    for tr_index, val_index in skf.split(X_train_over, y_train_over):
        #kf.split(X_train)으로 추출된 학습과 검증 index값으로 학습과 검증 데이터 세트 분리
        X_tr, y_tr = X_train_over.iloc[tr_index], y_train_over.iloc[tr_index]
        X_val, y_val = X_train_over.iloc[val_index], y_train_over.iloc[val_index]
        
        # early stopping은 30회로 설정하고 추출된 학습과 검증 데이터로 LGBMClassifier 학습 수행
        lgbm_clf.fit(X_tr, y_tr, early_stopping_rounds = 30, eval_metric = 'logloss',
                    eval_set = [(X_tr, y_tr), (X_val, y_val)])
        
        # 1로 예측환 확률값 추출 후 roc auc 계산하고 평균 roc auc 계산을 위해 list에 결과값을 담음
        score = roc_auc_score(y_val, lgbm_clf.predict_proba(X_val)[:, 1])
        roc_auc_list.append(score)

    # 3개 k-fold로 계산된 roc_auc 값의 평균값을 반환하되, 
    # hyperOpt는 목적함수의 최솟값을 위한 입력값을 반환하므로 -1을 곱한 뒤 반환.
    return -1 * np.mean(roc_auc_list)

In [None]:
trials = Trials()

# fmin() 함수를 호출, max_evals 지정된 횟수만큼 반복 후 목적함수의 최솟값을 가지는 최적 입력값 추출
best = fmin(fn = objective_func,
           space = lgbm_search_space,
           algo = tpe.suggest,
           max_evals = 50,
            trials = trials, rstate = np.random.default_rng(seed = 30)
           )

print('best :', best)

In [None]:
ngb = LGBMClassifier(n_estimators=500, num_leaves = int(best['num_leaves']),
                   max_depth = int(best['max_depth']),
                    min_child_samples = int(best['min_child_samples']),
                    subsample = round(best['subsample'], 5),
                    learning_rate = round(best['learning_rate'], 5),
                     alpha = 10,
                    colsample_bytree = 0.5
                   )

ngb.fit(X_train_over, y_train_over, eval_metric = 'auc')

Y_preds = ngb.predict(X_test)
Y_pred_proba = ngb.predict_proba(X_test)[:, 1]

In [None]:
get_clf_eval(y_test, Y_preds, Y_pred_proba)
print('Macro f1 socre : ', f1_score(y_test, Y_preds, average='macro'))
print('Micro f1 socre : ', f1_score(y_test, Y_preds, average='micro'))

## 원본데이터 & hyperOpt & NGBoost

In [None]:
help(NGBClassifier)

In [None]:
from ngboost import NGBClassifier
from ngboost.distns import k_categorical
from sklearn.tree import DecisionTreeRegressor
from hyperopt import hp
from sklearn.metrics import log_loss
from sklearn.model_selection import KFold
from sklearn.metrics import roc_auc_score
from sklearn.model_selection import StratifiedKFold

In [None]:
ngb = NGBClassifier(random_state = 42, n_estimators = 1000, verbose = 0, learning_rate = 0.03)
ngb.fit(X_train, y_train, early_stopping_rounds = 300)


Y_preds = ngb.predict(X_test)
Y_pred_proba = ngb.predict_proba(X_test)[:, 1]

In [None]:
get_clf_eval(y_test, Y_preds, Y_pred_proba)
print('Macro f1 socre : ', f1_score(y_test, Y_preds, average='macro'))

## 오버샘플링 & hyperOpt & NGBoost

In [None]:
ngb = NGBClassifier(random_state = 42, n_estimators = 1000, verbose = 0, learning_rate = 0.03)
ngb.fit(X_train_over, y_train_over, early_stopping_rounds = 300)


Y_preds = ngb.predict(X_test)
Y_pred_proba = ngb.predict_proba(X_test)[:, 1]

In [None]:
get_clf_eval(y_test, Y_preds, Y_pred_proba)
print('Macro f1 socre : ', f1_score(y_test, Y_preds, average='macro'))

# 스태킹 앙상블

## 원본데이터

In [None]:
import numpy as np
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import AdaBoostClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score


# 개별 ML 모델을 위한 Classifier 생성.
xgb = XGBClassifier(learning_rate =  0.07, max_depth = 157, subsample = 0.73)
                   


lgbm = LGBMClassifier(learning_rate = 0.038, max_depth = 132, 
                      min_child_samples = 97, num_leaves = 36, subsample = 0.94)

ngb = NGBClassifier(random_state = 42, n_estimators = 300, verbose = 0, learning_rate = 0.03)



# 최종 Stacking 모델을 위한 Classifier생성. 
lr_final = XGBClassifier(learning_rate =  0.07, max_depth = 157, subsample = 0.73)

# 개별 모델들을 학습. 
xgb.fit(X_train, y_train)
lgbm.fit(X_train , y_train)
ngb.fit(X_train , y_train)

# 학습된 개별 모델들이 각자 반환하는 예측 데이터 셋을 생성하고 개별 모델의 정확도 측정. 
xgb_pred = xgb.predict(X_test)
lgbm_pred = lgbm.predict(X_test)
ngb_pred = ngb.predict(X_test)

print('XGB 정확도: {0:.4f}'.format(accuracy_score(y_test, xgb_pred)))
print('LGBM 정확도: {0:.4f}'.format(accuracy_score(y_test, lgbm_pred)))
print('NGBoost 정확도: {0:.4f}'.format(accuracy_score(y_test, ngb_pred)))
print('XGB macro f1 score : ', f1_score(y_test, xgb_pred, average = 'macro'))
print('LGBM  macro f1 score : ', f1_score(y_test, lgbm_pred, average = 'macro'))
print('NGBoost macro f1 score : ', f1_score(y_test, ngb_pred, average = 'macro'))

In [None]:
pred = np.array([xgb_pred, lgbm_pred, ngb_pred])

# transpose를 이용해 행과 열의 위치 교환. 컬럼 레벨로 각 알고리즘의 예측 결과를 피처로 만듦. 
pred = np.transpose(pred)

lr_final.fit(pred, y_test)
final = lr_final.predict(pred)
print('최종 메타 모델의 예측 정확도: {0:.4f}'.format(accuracy_score(y_test , final)))

In [None]:
from sklearn.model_selection import KFold
from sklearn.metrics import mean_absolute_error
import re

# 개별 기반 모델에서 최종 메타 모델이 사용할 학습 및 테스트용 데이터를 생성하기 위한 함수. 
def get_stacking_base_datasets(model, X_train_n, y_train_n, X_test_n, n_folds ):
    # 지정된 n_folds값으로 KFold 생성.
    skf = StratifiedKFold(n_splits=n_folds, shuffle=True, random_state = 2022)
    #추후에 메타 모델이 사용할 학습 데이터 반환을 위한 넘파이 배열 초기화 
    train_fold_pred = np.zeros((X_train_n.shape[0] ,1 ))
    test_pred = np.zeros((X_test_n.shape[0],n_folds))

    for folder_counter , (train_index, valid_index) in enumerate(skf.split(X_train_n, y_train_n)):
        #입력된 학습 데이터에서 기반 모델이 학습/예측할 폴드 데이터 셋 추출 
        print('\t 폴드세트 :', folder_counter, ' 시작 ')
        X_tr = X_train_n[train_index] 
        y_tr = y_train_n[train_index] 
        X_te = X_train_n[valid_index]  

        #폴드 세트 내부에서 다시 만들어진 학습 데이터로 기반 모델의 학습 수행.
        model.fit(X_tr , y_tr)       
        #폴드 세트 내부에서 다시 만들어진 검증 데이터로 기반 모델 예측 후 데이터 저장.
        train_fold_pred[valid_index, :] = model.predict(X_te).reshape(-1,1)
        #입력된 원본 테스트 데이터를 폴드 세트내 학습된 기반 모델에서 예측 후 데이터 저장. 
        test_pred[:, folder_counter] = model.predict(X_test_n)
   
    # 폴드 세트 내에서 원본 테스트 데이터를 예측한 데이터를 평균하여 테스트 데이터로 생성 
    test_pred_mean = np.mean(test_pred, axis=1).reshape(-1,1)    

    #train_fold_pred는 최종 메타 모델이 사용하는 학습 데이터, test_pred_mean은 테스트 데이터
    return train_fold_pred , test_pred_mean

X_train_n = X_train.reset_index(drop=True).values
X_test_n = X_test.reset_index(drop=True).values
y_train_n = y_train.reset_index(drop=True).values

xgb_train, xgb_test = get_stacking_base_datasets(xgb, X_train_n, y_train_n, X_test_n, 7)
lgbm_train, lgbm_test = get_stacking_base_datasets(lgbm, X_train_n, y_train_n, X_test_n, 7)
ngb_train, ngb_test = get_stacking_base_datasets(ngb, X_train_n, y_train_n, X_test_n,  7)   

Stack_final_X_train = np.concatenate((xgb_train, lgbm_train, ngb_train), axis=1)
Stack_final_X_test = np.concatenate((xgb_test, lgbm_test, ngb_test), axis=1)
print('원본 학습 피처 데이터 Shape:',X_train.shape, '원본 테스트 피처 Shape:',X_test.shape)
print('스태킹 학습 피처 데이터 Shape:', Stack_final_X_train.shape,
      '스태킹 테스트 피처 데이터 Shape:',Stack_final_X_test.shape)

In [None]:
lr_final.fit(Stack_final_X_train, y_train)
stack_final = lr_final.predict(Stack_final_X_test)

print('최종 메타 모델의 예측 정확도: {0:.4f}'.format(accuracy_score(y_test, stack_final)))
print('최종 메타 모델의 macro f1 score :', f1_score(y_test, stack_final, average = 'macro'))

In [None]:
stack_final_proba = lr_final.predict_proba(Stack_final_X_test)[:, 1]
get_clf_eval(y_test, stack_final, stack_final_proba)

## 오버샘플링

In [None]:
# 개별 ML 모델을 위한 Classifier 생성.
xgb = XGBClassifier(learning_rate =  0.07, max_depth = 157, subsample = 0.73)
                   


lgbm = LGBMClassifier(learning_rate = 0.038, max_depth = 132, 
                      min_child_samples = 97, num_leaves = 36, subsample = 0.94)

ngb = NGBClassifier(random_state = 42, n_estimators = 300, verbose = 0, learning_rate = 0.03)



# 최종 Stacking 모델을 위한 Classifier생성. 
xgb_final = XGBClassifier(learning_rate =  0.07, max_depth = 157, subsample = 0.73)

# 개별 모델들을 학습. 
xgb.fit(X_train_over, y_train_over)
lgbm.fit(X_train_over , y_train_over)
ngb.fit(X_train_over , y_train_over)

# 학습된 개별 모델들이 각자 반환하는 예측 데이터 셋을 생성하고 개별 모델의 정확도 측정. 
xgb_pred = xgb.predict(X_test)
lgbm_pred = lgbm.predict(X_test)
ngb_pred = ngb.predict(X_test)

print('XGB 정확도: {0:.4f}'.format(accuracy_score(y_test, xgb_pred)))
print('LGBM 정확도: {0:.4f}'.format(accuracy_score(y_test, lgbm_pred)))
print('NGBoost 정확도: {0:.4f}'.format(accuracy_score(y_test, ngb_pred)))
print('XGB macro f1 score : ', f1_score(y_test, xgb_pred, average = 'macro'))
print('LGBM  macro f1 score : ', f1_score(y_test, lgbm_pred, average = 'macro'))
print('NGBoost macro f1 score : ', f1_score(y_test, ngb_pred, average = 'macro'))

In [None]:
pred = np.array([xgb_pred, lgbm_pred, ngb_pred])

# transpose를 이용해 행과 열의 위치 교환. 컬럼 레벨로 각 알고리즘의 예측 결과를 피처로 만듦. 
pred = np.transpose(pred)

xgb_final.fit(pred, y_test)
final = xgb_final.predict(pred)
print('최종 메타 모델의 예측 정확도: {0:.4f}'.format(accuracy_score(y_test , final)))

In [None]:
# 개별 기반 모델에서 최종 메타 모델이 사용할 학습 및 테스트용 데이터를 생성하기 위한 함수. 
def get_stacking_base_datasets(model, X_train_n, y_train_n, X_test_n, n_folds ):
    # 지정된 n_folds값으로 KFold 생성.
    skf = StratifiedKFold(n_splits=n_folds, shuffle=True, random_state = 2022)
    #추후에 메타 모델이 사용할 학습 데이터 반환을 위한 넘파이 배열 초기화 
    train_fold_pred = np.zeros((X_train_n.shape[0] ,1 ))
    test_pred = np.zeros((X_test_n.shape[0],n_folds))

    for folder_counter , (train_index, valid_index) in enumerate(skf.split(X_train_n, y_train_n)):
        #입력된 학습 데이터에서 기반 모델이 학습/예측할 폴드 데이터 셋 추출 
        print('\t 폴드세트 :', folder_counter, ' 시작 ')
        X_tr = X_train_n[train_index] 
        y_tr = y_train_n[train_index] 
        X_te = X_train_n[valid_index]  

        #폴드 세트 내부에서 다시 만들어진 학습 데이터로 기반 모델의 학습 수행.
        model.fit(X_tr , y_tr)       
        #폴드 세트 내부에서 다시 만들어진 검증 데이터로 기반 모델 예측 후 데이터 저장.
        train_fold_pred[valid_index, :] = model.predict(X_te).reshape(-1,1)
        #입력된 원본 테스트 데이터를 폴드 세트내 학습된 기반 모델에서 예측 후 데이터 저장. 
        test_pred[:, folder_counter] = model.predict(X_test_n)
   
    # 폴드 세트 내에서 원본 테스트 데이터를 예측한 데이터를 평균하여 테스트 데이터로 생성 
    test_pred_mean = np.mean(test_pred, axis=1).reshape(-1,1)    

    #train_fold_pred는 최종 메타 모델이 사용하는 학습 데이터, test_pred_mean은 테스트 데이터
    return train_fold_pred , test_pred_mean

X_train_n = X_train_over.reset_index(drop=True).values
X_test_n = X_test.reset_index(drop=True).values
y_train_n = y_train_over.reset_index(drop=True).values

xgb_train, xgb_test = get_stacking_base_datasets(xgb, X_train_n, y_train_n, X_test_n, 7)
lgbm_train, lgbm_test = get_stacking_base_datasets(lgbm, X_train_n, y_train_n, X_test_n, 7)
ngb_train, ngb_test = get_stacking_base_datasets(ngb, X_train_n, y_train_n, X_test_n,  7)   

Stack_final_X_train = np.concatenate((xgb_train, lgbm_train, ngb_train), axis=1)
Stack_final_X_test = np.concatenate((xgb_test, lgbm_test, ngb_test), axis=1)
print('원본 학습 피처 데이터 Shape:',X_train.shape, '원본 테스트 피처 Shape:',X_test.shape)
print('스태킹 학습 피처 데이터 Shape:', Stack_final_X_train.shape,
      '스태킹 테스트 피처 데이터 Shape:',Stack_final_X_test.shape)

In [None]:
xgb_final.fit(Stack_final_X_train, y_train)
stack_final = xgb_final.predict(Stack_final_X_test)

print('최종 메타 모델의 예측 정확도: {0:.4f}'.format(accuracy_score(y_test, stack_final)))
print('최종 메타 모델의 macro f1 score :', f1_score(y_test, stack_final, average = 'macro'))

In [None]:
stack_final_proba = xgb_final.predict_proba(Stack_final_X_test)[:, 1]
get_clf_eval(y_test, stack_final, stack_final_proba)

In [None]:
#feature 중요도도 그려볼 수 있다. 
from xgboost import plot_importance
import matplotlib.pyplot as plt
%matplotlib inline

fig, ax = plt.subplots(figsize=(12, 15))

# 사이킷런 래퍼 클래스를 입력해도 무방. 
plot_importance(xgb, ax=ax)
plt.rc('font', size=20)        # 기본 폰트 크기
plt.rc('axes', labelsize=20)   # x,y축 label 폰트 크기
plt.rc('xtick', labelsize=20)  # x축 눈금 폰트 크기 
plt.rc('ytick', labelsize=20)  # y축 눈금 폰트 크기
plt.rc('legend', fontsize = 30)
plt.show()