# Ensemble Learning Tutorial with Python

---

본 튜토리얼은 Ensemble Learning의 일부분만 다루고 있습니다. 

전체적인 개념을 알고 싶으시다면 고려대학교 강필성 교수님의 [비즈니스 애널리틱스 수업 영상](https://www.youtube.com/watch?v=1OEeguDBsLU)을 참고해주세요! 😉

## 🙄 Ensemble Learning이란?

<br>

모든 경우에서 우월한 하나의 알고리즘이 존재할까요?
<br>

No Free Lunch Theorem에 따르면 정답은 No! 입니다. 특정 문제에서 잘 작동할 수는 있어도 모든 문제에서 우월할 수는 없는 것이죠~

<br>

![image-3.png](attachment:image-3.png)

실제 연구에서도 개별 알고리즘을 섞어봤을 때의 결과가 개별 알고리즘의 성능보다 좋은 것으로 나왔습니다.


<br>

![image-2.png](attachment:image-2.png)

<br>

결론적으로 **Ensembles almost always work better (than the single best model)**! 😙

## 💡 Ensemble의 목적

Ensemble의 목적은 **다수의 모델을 학습하여 오류의 감소를 추구**하는 것입니다.
<br>

![image.png](attachment:image.png)

<br>

Ensemble의 대표적인 예시로는 Bagging과 Random Forest, Boosting이 있습니다. <br>
오늘은 저와 함께 **Random Forest, Boosting** 개념을 살펴보고 성능 비교를 해보도록 하죠!

## Model 1️⃣ : Random Forest 

![image.png](attachment:image.png)

<br>

Random Forest는 Decision Tree 기반 앙상블입니다. 
<br>
하나의 Decision Tree가 모든 feature를 변수로 사용해서 y값을 예측하면 오버피팅 문제가 발생하기 때문에 Random Forest는 **feature나 data를 무작위로 뽑아서** 여러 개의 작은 트리를 만들고 그 트리들을 결합합니다. 😀

## Model 2️⃣ : AdaBoost



![image-5.png](attachment:image-5.png)

<br>

**AdaBoost**는 예측 성능이 조금 낮은 Weak 모델을 다량 구축 및 조합하여 가중치 수정을 통해 좀 더 나은 성능을 발휘하는 하나의 Strong model을 합성하는 방법의 알고리즘입니다. 즉, 현재 모델이 잘 해결하지 못하는 어려운 케이스에 집중을 하는 것이죠! 여기서 **Weak 모델**이란 랜덤 모델에 비해 약간의 성능 개선이 있는 모델, 적절한 조치를 취함으로 인해 성능이 우수한 모델로 boosted 될 수 모델을 의미합니다.  😏

<br>

약한 분류기의 실수를 통해 가중치를 반복적으로 수정하고 결합하여 정확도를 높일 수 있으며 **학습 데이터에 과적합(overfitting) 현상이 적게 발생하여 예측 성능을 저하하지 않는 장점**이 있습니다~! 😜







## Model 3️⃣ : Gradient Boosting Machine

![image.png](attachment:image.png)

<br> 

GBM(Gradient Boosting Machine)은 AdaBoost와 유사하지만, **경사 하강법(Gradient Descent)을 이용해 가중치를 업데이트**한다는 점에서 차이가 있습니다! Negative Gradient (Residual)을 계속 줄여나가는 방향으로 학습시킨다고 하네요~ 
<br>

AdaBoost와 달리 weak learner로 Stump가 아닌 Tree를 사용하여 더 복잡한 weak learner를 사용하기 때문에 Overfitting의 위험이 있다는 단점이 있습니다. 😂
<br> 
Gradient Boosting은 XGBoost, LightGBM을 파생시킨 알고리즘이기도 합니다 ㅎㅎ

## Model 4️⃣ : XGBoost

XGBoost는 Extreme Gradient Boosting의 약자로 Gradient Boosting의 **Overfitting 문제를 보완**하기 위해 나온 알고리즘입니다! <br>
Gradient Boosting + Regularization으로 더하여 다양한 Loss Function을 지원합니다. 또한, **병렬 학습이 지원**되도록 구현하여 성능과 자원 효율이 좋아 인기 있게 사용된다고 합니다! 😜

## Model 5️⃣ : LightGBM

![image.png](attachment:image.png)

<br>

기존의 tree기반 알고리즘은 level wise(균형 트리 분할) 방식을 사용합니다. 즉, 최대한 균형이 잡힌 트리를 유지하면서 분할하기 때문에 tree의 깊이가 최소화가 될 수 있지만 균형을 맞추기 위한 시간이 필요하다는 것을 의미하기도 합니다! 

<br>

LightGBM의 **leaf wise tree분할** 방식은 tree의 균형을 고려하지 않고 최대 손실 값(max data loss)를 가지는 leaf node를 지속적으로 분할하면서 tree의 깊이가 깊어지고 비대칭적인 tree가 생성됩니다. 이와같이 최대 손실값을 가지는 leaf node를 반복 분할하는 방식은 level wise tree분할 방식보다 **예측 오류 손실을 최소화**할 수 있다고 합니다! 😏

<br>

따라서 학습하는데 **걸리는 시간이 적고, 메모리 사용량이 상대적으로 적은** 편입니다. 하지만 적은 **dataset(10000개 이하의 데이터)을 사용할 경우 과적합 가능성**이 크다고 하네요~

## Model 6️⃣ : CatBoost

CatBoost는 기존의 부스팅 과정과 전체적인 양상은 비슷하되, 조금 다릅니다. <Br> 
기존의 부스팅 모델이 일괄적으로 모든 훈련 데이터를 대상으로 잔차계산을 했다면, Catboost 는 일부만 가지고 잔차계산을 한 뒤, 이걸로 모델을 만들고, 그 뒤에 데이터의 잔차는 이 모델로 예측한 값을 사용합니다. 
    
<br>
    
**범주형 변수에 효과적**이고, 학습 속도를 개선하고 과적합을 방지합니다. 또한, 튜닝할 필요없이 기본 파라미터로도 좋은 성능을 낼 수 있다고 하는데요. 대신 수치형 변수에서는 성능이 떨어진다고 합니다. 이 부분은 뒤에서 확인해보도록 하죠! 

---

## 성능 비교 실험  📊
### 총 6가지의 데이터셋으로 앞서 설명드린 6가지 모델들의 성능을 비교해보겠습니다! 😁

먼저, 필요한 라이브러리를 불러와줍니다.

In [194]:
import numpy as np
import pandas as pd
import random
import time
from datetime import datetime

import matplotlib.pyplot as plt
import seaborn as sns

# Models
from sklearn.tree import DecisionTreeClassifier
from lightgbm import LGBMClassifier
from xgboost import XGBClassifier
from catboost import CatBoostClassifier
from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier, GradientBoostingClassifier

from lightgbm.plotting import plot_importance
import lightgbm
import xgboost as xgb
import catboost
from xgboost import plot_tree

from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import KFold, cross_val_score
from sklearn.metrics import confusion_matrix,classification_report,accuracy_score,f1_score,precision_score, recall_score, roc_auc_score
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import LabelEncoder
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import scale
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import RobustScaler

import warnings
warnings.filterwarnings(action="ignore")

다음으로 전처리, 학습과 예측에 필요한 함수를 생성했습니다.😉

In [232]:
# 전처리 코드
def preprocess(df, num) :
    name = data_list[num]
    
    
    labelencoder = LabelEncoder()
    
      
    if name == 'wine_df' :
        df.rename(columns={'style' : 'target'},inplace=True)
        
        
    elif name == 'covid_df' :
        df.rename(columns={'CLASIFFICATION_FINAL' : 'target'},inplace=True)
        df.drop(['DATE_DIED'],axis=1,inplace =True)
        
       
    elif name == 'card_df' :   
        df.rename(columns={'Class' : 'target'},inplace=True)
        df.drop(['Time'],axis=1,inplace =True)
        
         
    elif name == 'mush_df' :
        df.rename(columns={'class' : 'target'},inplace=True)
        
        
    elif name == 'oil' :
        df.drop(['f_1'],axis=1,inplace =True)
        
        
    else :
        df.rename(columns={'Class' : 'target'},inplace=True)
    
    df['target'] = labelencoder.fit_transform(df['target'])
    
    # X,y 나누기
    X = df.drop('target', axis = 1)
    y = df['target']
    
    # 변수 유형 저장
    numerical_feats = X.dtypes[X.dtypes != "object"].index.tolist()
    categorical_feats = X.dtypes[X.dtypes == "object"].index.tolist()    
    print("Number of Numerical features: ", len(numerical_feats))
    print("Number of Categorical features: ", len(categorical_feats))
    
    # train/test set 나누기
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 42)
    
    # scaling
    
    if len(numerical_feats) != 0 :
        scaler = StandardScaler()
        X_train[numerical_feats] = scaler.fit_transform(X_train[numerical_feats])
        X_test[numerical_feats] = scaler.transform(X_test[numerical_feats])
    
    if len(categorical_feats) != 0 :
        # categorical 인코딩
        encoder = LabelEncoder()
        for col in categorical_feats:
            X_train[col] = encoder.fit_transform(X_train[col])
            X_test[col] = encoder.transform(X_test[col])
    
    return X_train.reset_index(drop=True), X_test.reset_index(drop=True), y_train.reset_index(drop=True), y_test.reset_index(drop=True)
   

# 학습 및 예측
def Train(clf, X_train, y_train, X_test, y_test):
    # Train
    kf = KFold(n_splits = 10)
    
    prediction_times = []
    training_times = []
    
    accuracy_list = []
    precision_list= []
    recall_list = []
    f1score_list = []
    n_iter = 0
    
    # split 개수 스텝 만큼 train, test 데이터셋을 매번 분할
    if len(y_test.value_counts()) > 2 : 
        for train_index, valid_index in kf.split(X_train,y_train):
            n_iter += 1
            train_x, valid_x = X_train.loc[train_index, :], X_train.loc[valid_index, :]
            train_y, valid_y = y_train[train_index], y_train[valid_index]


            start = time.time()
            model = clf.fit(train_x,train_y)
            end = time.time()
            training_times.append(end - start)

            # Predict
            start = time.time()
            y_pred = model.predict(X_test)
            end = time.time()
            prediction_times.append(end - start)

            accuracy_list.append(accuracy_score(y_test,y_pred))
            precision_list.append(precision_score(y_test,y_pred,average='macro'))
            recall_list.append(recall_score(y_test,y_pred,average='macro'))
            f1score_list.append(f1_score(y_test,y_pred,average='macro'))
    
            
    else :
        for train_index, valid_index in kf.split(X_train,y_train):
            n_iter += 1
            train_x, valid_x = X_train.loc[train_index, :], X_train.loc[valid_index, :]
            train_y, valid_y = y_train[train_index], y_train[valid_index]


            start = time.time()
            model = clf.fit(train_x,train_y)
            end = time.time()
            training_times.append(end - start)

            # Predict
            start = time.time()
            y_pred = model.predict(X_test)
            end = time.time()
            prediction_times.append(end - start)

            accuracy_list.append(accuracy_score(y_test,y_pred))
            precision_list.append(precision_score(y_test,y_pred))
            recall_list.append(recall_score(y_test,y_pred))
            f1score_list.append(f1_score(y_test,y_pred))
          
        
    return model, [str(clf),np.mean(accuracy_list),np.mean(precision_list),np.mean(recall_list),np.mean(f1score_list),np.mean(training_times),np.mean(prediction_times)]


# 파라미터 튜닝
def GridSearch(clf, params, X_train, y_train, X_test, y_test):
    print(f'=======================모델 : {clf} ')
    # Train
    start = time.time()
    model = GridSearchCV(clf, params, scoring='accuracy', n_jobs=-1, cv=10).fit(X_train,y_train).best_estimator_
    end = time.time()
    print('Training time: ')
    print(end - start)

    # Predict
    start = time.time()
    y_pred = model.predict(X_test)
    end = time.time()
    print('Prediction time: ')
    print(end - start)
    print('----------------------')
    print("accuracy :",accuracy_score(y_test,y_pred))
    print("precision :",precision_score(y_test,y_pred))
    print("recall :",recall_score(y_test,y_pred))
    print("f1 score :",f1_score(y_test,y_pred))
    print("============================================================")
    return model


6개의 데이터셋을 불러옵니다~

In [196]:
# 데이터 불러오기
wine_df = pd.read_csv('wine_dataset.csv')
covid_df = pd.read_csv('Covid Data.csv')
card_df = pd.read_csv('creditcard.csv')
mush_df = pd.read_csv('mushrooms.csv')
oil = pd.read_csv('oil_spill.csv')
raisin= pd.read_csv('raisin_Dataset.csv')

data_list = ['wine_df','covid_df','card_df', 'mush_df','oil','raisin']

## Data 1. Wine 분류 데이터 🍷
* 샘플 수 : 6497
* feature 수 : 12
* target : 와인 종류가 Red인지 White인지 분류

In [197]:
X_train, X_test, y_train, y_test = preprocess(wine_df,0)

Number of Numerical features:  12
Number of Categorical features:  0


In [198]:
randomforest,w1 = Train(RandomForestClassifier(n_estimators=50, max_depth=5, random_state=42), X_train, y_train, X_test, y_test)
adaboost,w2 = Train(AdaBoostClassifier(n_estimators=50,random_state=42), X_train, y_train, X_test, y_test)
GradientB,w3= Train(GradientBoostingClassifier(n_estimators=50, max_depth=5, random_state=42), X_train, y_train, X_test, y_test)
xgboost,w4 = Train(XGBClassifier(n_estimators=50, max_depth=5, random_state=42), X_train, y_train, X_test, y_test)
LGBM,w5 = Train(LGBMClassifier(n_estimators=50, max_depth=5, random_state=42), X_train, y_train, X_test, y_test)
catboost,w6 = Train(CatBoostClassifier(n_estimators=50, verbose=False, max_depth=6), X_train, y_train, X_test, y_test)

In [199]:
wine_result = pd.DataFrame(columns = ['Model', 'Accuracy', 'Precision', 'Recall', 'F1 score', 'Training Time','Prediction Time'])
wine_result.loc[len(wine_result)] = w1
wine_result.loc[len(wine_result)] = w2
wine_result.loc[len(wine_result)] = w3
wine_result.loc[len(wine_result)] = w4
wine_result.loc[len(wine_result)] = w5
wine_result.loc[len(wine_result)] = w6
wine_result

Unnamed: 0,Model,Accuracy,Precision,Recall,F1 score,Training Time,Prediction Time
0,"RandomForestClassifier(max_depth=5, n_estimato...",0.990308,0.988844,0.998123,0.993462,0.127294,0.005793
1,AdaBoostClassifier(random_state=42),0.991462,0.992622,0.995829,0.994222,0.160939,0.011511
2,"GradientBoostingClassifier(max_depth=5, n_esti...",0.990846,0.990675,0.996976,0.993815,0.467457,0.001401
3,"XGBClassifier(base_score=0.5, booster='gbtree'...",0.994462,0.993673,0.998853,0.996256,0.062247,0.006038
4,"LGBMClassifier(max_depth=5, n_estimators=50, r...",0.992077,0.991097,0.998227,0.994649,0.030512,0.000698
5,<catboost.core.CatBoostClassifier object at 0x...,0.992615,0.992328,0.997706,0.995009,0.095402,0.001961


### [결과]
10 fold cross validation을 하여 평균 성능을 확인해보았습니다! 
<br> 
 - 간단한 데이터여서 그런지 모든 모델의 성능이 좋습니다. 
 - Training Time을 보면 앞서 설명드린 개념대로 Gradient Boosting Machine의 속도가 가장 느리고, LightGBM이 가장 빠르네요 😊

## Data 2. 코로나 데이터 😷

Mexican government에서 제공된 데이터셋으로 코로나 환자들의 전조 증상들이 주어집니다.
* 샘플 수 : 1048575
* feature 수 : 20
* target : 1,2,3,4,5,6,7 ==> 코로나 test 결과를 의미 (1~3은 코로나로 진단된 경우, 4이상은 보균자거나 검사 결과가 불확실한 경우)

In [200]:
X_train, X_test, y_train, y_test = preprocess(covid_df,1)

Number of Numerical features:  19
Number of Categorical features:  0


In [202]:
randomforest,c1 = Train(RandomForestClassifier(n_estimators=50, max_depth=5, random_state=42), X_train, y_train, X_test, y_test)
adaboost,c2 = Train(AdaBoostClassifier(n_estimators=50,random_state=42), X_train, y_train, X_test, y_test)
#GradientB,c3= Train(GradientBoostingClassifier(n_estimators=50, max_depth=5, random_state=42), X_train, y_train, X_test, y_test) 한시간
xgboost,c4 = Train(XGBClassifier(n_estimators=50, max_depth=5, random_state=42), X_train, y_train, X_test, y_test)
LGBM,c5 = Train(LGBMClassifier(n_estimators=50, max_depth=5, random_state=42), X_train, y_train, X_test, y_test)
catboost,c6 = Train(CatBoostClassifier(n_estimators=50, verbose=False, max_depth=6), X_train, y_train, X_test, y_test)

In [204]:
covid_result = pd.DataFrame(columns = ['Model', 'Accuracy', 'Precision', 'Recall', 'F1 score', 'Training Time','Prediction Time'])
covid_result.loc[len(covid_result)] = c1
covid_result.loc[len(covid_result)] = c2
#covid_result.loc[len(covid_result)] = c3
covid_result.loc[len(covid_result)] = c4
covid_result.loc[len(covid_result)] = c5
covid_result.loc[len(covid_result)] = c6
covid_result

Unnamed: 0,Model,Accuracy,Precision,Recall,F1 score,Training Time,Prediction Time
0,"RandomForestClassifier(max_depth=5, n_estimato...",0.538233,0.27583,0.178465,0.167554,12.948445,0.803628
1,AdaBoostClassifier(random_state=42),0.529585,0.239258,0.192355,0.168589,24.933278,2.346326
2,"XGBClassifier(base_score=0.5, booster='gbtree'...",0.549607,0.276256,0.188853,0.184387,38.615946,0.1652
3,"LGBMClassifier(max_depth=5, n_estimators=50, r...",0.549259,0.321779,0.188271,0.18345,4.941407,0.478554
4,<catboost.core.CatBoostClassifier object at 0x...,0.55019,0.265754,0.190456,0.186936,11.706437,0.062693


### [결과]
 
 - target 변수가 7개의 class로 이루어져 있어서 성능이 대체로 좋지 않습니다.😂
 - 샘플 수가 많아서 학습도 오래걸리네요 ㅜㅜ Gradient Boosting Machine 같은 경우, 1시간 넘게 학습을 하여 결과에서는 제외시켰습니다.
 - Training Time은 Wine Dataset과 다른 부분이 있네요! XGBoost가 가장 오래 걸렸습니다. LGBM은 역시 가장 빠르네요~

## Data 3. credit card 데이터  💳
* 샘플 수 : 284807 
* feature 수 : 30
* target : 고객의 신용 카드 내역을 보고 이탈 할 것인지 예측 (0,1)
* 특징 : **불균형한 class**를 가진 target

In [205]:
X_train, X_test, y_train, y_test = preprocess(card_df,2)

Number of Numerical features:  29
Number of Categorical features:  0


In [207]:
randomforest,d1 = Train(RandomForestClassifier(n_estimators=50, max_depth=5, random_state=42), X_train, y_train, X_test, y_test)
adaboost,d2 = Train(AdaBoostClassifier(n_estimators=50,random_state=42), X_train, y_train, X_test, y_test)
#GradientB,d3= Train(GradientBoostingClassifier(n_estimators=50, max_depth=5, random_state=42), X_train, y_train, X_test, y_test)
xgboost,d4 = Train(XGBClassifier(n_estimators=50, max_depth=5, random_state=42), X_train, y_train, X_test, y_test)
LGBM,d5 = Train(LGBMClassifier(n_estimators=50, max_depth=5, random_state=42), X_train, y_train, X_test, y_test)
catboost,d6 = Train(CatBoostClassifier(n_estimators=50, verbose=False, max_depth=6), X_train, y_train, X_test, y_test)

In [208]:
card_result = pd.DataFrame(columns = ['Model', 'Accuracy', 'Precision', 'Recall', 'F1 score', 'Training Time','Prediction Time'])
card_result.loc[len(card_result)] = d1
card_result.loc[len(card_result)] = d2
#card_result.loc[len(card_result)] = d3
card_result.loc[len(card_result)] = d4
card_result.loc[len(card_result)] = d5
card_result.loc[len(card_result)] = d6
card_result

Unnamed: 0,Model,Accuracy,Precision,Recall,F1 score,Training Time,Prediction Time
0,"RandomForestClassifier(max_depth=5, n_estimato...",0.9994,0.93345,0.70102,0.800642,18.550235,0.098247
1,AdaBoostClassifier(random_state=42),0.999263,0.828436,0.721429,0.770896,35.952961,0.360573
2,"XGBClassifier(base_score=0.5, booster='gbtree'...",0.999624,0.970829,0.806122,0.88072,7.810538,0.015755
3,"LGBMClassifier(max_depth=5, n_estimators=50, r...",0.997876,0.445244,0.618367,0.509879,0.55052,0.031682
4,<catboost.core.CatBoostClassifier object at 0x...,0.999616,0.974037,0.797959,0.877089,1.182995,0.009929


### [결과]
 
 - 불균형한 데이터이므로 f1 score를 확인해보겠습니다!
 - Random Forest, XGBoost, CatBoost의 성능이 좋네요!  😜
 - LGBM의 성능이 가장 좋지 않네요. 데이터셋은 충분히 많은데 왜 좋지 않을까요?😂 아마도 불균형한 데이터셋이라는 이유가 가장 클 것 같습니다.
 

## Data 4. 버섯 데이터 🍄
* 샘플 수 : 8124  
* feature 수 : 22
* target : 버섯의 특성을 보고 먹을 수 있는지, 독성이 있는지 분류 (e(edible) & p(poisonous))
* 특징 : **범주형 변수로만** 이루어진 데이터

In [213]:
X_train, X_test, y_train, y_test = preprocess(mush_df,3)

Number of Numerical features:  0
Number of Categorical features:  22


In [214]:
randomforest,m1 = Train(RandomForestClassifier(n_estimators=50, max_depth=5, random_state=42), X_train, y_train, X_test, y_test)
adaboost,m2 = Train(AdaBoostClassifier(n_estimators=50,random_state=42), X_train, y_train, X_test, y_test)
GradientB,m3= Train(GradientBoostingClassifier(n_estimators=50, max_depth=5, random_state=42), X_train, y_train, X_test, y_test)
xgboost,m4 = Train(XGBClassifier(n_estimators=50, max_depth=5, random_state=42), X_train, y_train, X_test, y_test)
LGBM,m5 = Train(LGBMClassifier(n_estimators=50, max_depth=5, random_state=42), X_train, y_train, X_test, y_test)
catboost,m6 = Train(CatBoostClassifier(n_estimators=50, verbose=False, max_depth=6), X_train, y_train, X_test, y_test)

In [215]:
mush_result = pd.DataFrame(columns = ['Model', 'Accuracy', 'Precision', 'Recall', 'F1 score', 'Training Time','Prediction Time'])
mush_result.loc[len(mush_result)] = m1
mush_result.loc[len(mush_result)] = m2
mush_result.loc[len(mush_result)] = m3
mush_result.loc[len(mush_result)] = m4
mush_result.loc[len(mush_result)] = m5
mush_result.loc[len(mush_result)] = m6
mush_result

Unnamed: 0,Model,Accuracy,Precision,Recall,F1 score,Training Time,Prediction Time
0,"RandomForestClassifier(max_depth=5, n_estimato...",0.990769,1.0,0.980818,0.990316,0.081511,0.007813
1,AdaBoostClassifier(random_state=42),1.0,1.0,1.0,1.0,0.137205,0.013793
2,"GradientBoostingClassifier(max_depth=5, n_esti...",1.0,1.0,1.0,1.0,0.260431,0.007046
3,"XGBClassifier(base_score=0.5, booster='gbtree'...",1.0,1.0,1.0,1.0,0.063804,0.001995
4,"LGBMClassifier(max_depth=5, n_estimators=50, r...",1.0,1.0,1.0,1.0,0.033109,0.000199
5,<catboost.core.CatBoostClassifier object at 0x...,1.0,1.0,1.0,1.0,0.134662,0.002759


### [결과]
 
 - 단순한 데이터여서 그런지 성능이 다 좋게 나오네요!

## Data 5. oil 데이터 ⛽
* 샘플 수 : 937 
* feature 수 : 49
* target : 기름이 유출 되었는지(1) 유출되지 않았는지(0) 분류
* 특징 : 불균형 데이터셋이다.

In [216]:
X_train, X_test, y_train, y_test = preprocess(oil,4)

Number of Numerical features:  48
Number of Categorical features:  0


In [217]:
randomforest,o1 = Train(RandomForestClassifier(n_estimators=50, max_depth=5, random_state=42), X_train, y_train, X_test, y_test)
adaboost,o2 = Train(AdaBoostClassifier(n_estimators=50,random_state=42), X_train, y_train, X_test, y_test)
GradientB,o3= Train(GradientBoostingClassifier(n_estimators=50, max_depth=5, random_state=42), X_train, y_train, X_test, y_test)
xgboost,o4 = Train(XGBClassifier(n_estimators=50, max_depth=5, random_state=42), X_train, y_train, X_test, y_test)
LGBM,o5 = Train(LGBMClassifier(n_estimators=50, max_depth=5, random_state=42), X_train, y_train, X_test, y_test)
catboost,o6 = Train(CatBoostClassifier(n_estimators=50, verbose=False, max_depth=6), X_train, y_train, X_test, y_test)

In [218]:
oil_result = pd.DataFrame(columns = ['Model', 'Accuracy', 'Precision', 'Recall', 'F1 score', 'Training Time','Prediction Time'])
oil_result.loc[len(oil_result)] = o1
oil_result.loc[len(oil_result)] = o2
oil_result.loc[len(oil_result)] = o3
oil_result.loc[len(oil_result)] = o4
oil_result.loc[len(oil_result)] = o5
oil_result.loc[len(oil_result)] = o6
oil_result

Unnamed: 0,Model,Accuracy,Precision,Recall,F1 score,Training Time,Prediction Time
0,"RandomForestClassifier(max_depth=5, n_estimato...",0.978191,1.0,0.316667,0.469048,0.06529,0.00256
1,AdaBoostClassifier(random_state=42),0.973936,0.592976,0.566667,0.574482,0.110528,0.006092
2,"GradientBoostingClassifier(max_depth=5, n_esti...",0.979787,0.69131,0.683333,0.678655,0.305088,0.001092
3,"XGBClassifier(base_score=0.5, booster='gbtree'...",0.979787,0.698095,0.683333,0.684429,0.055481,0.004687
4,"LGBMClassifier(max_depth=5, n_estimators=50, r...",0.977128,0.667619,0.6,0.62641,0.024871,0.001795
5,<catboost.core.CatBoostClassifier object at 0x...,0.975532,0.63,0.533333,0.574545,0.168918,0.001961


### [결과]
 
 - 불균형한 데이터셋이므로 f1 score가 낮습니다.
 - XGBoost, GBM, LGBM 순으로 성능이 좋네요.

## Data 6. raisin 데이터 🍇
* 샘플 수 : 900
* feature 수 : 7
* target : 건포도 종류 분류 (Kecimen & Besni) 

In [222]:
X_train, X_test, y_train, y_test = preprocess(raisin,5)

Number of Numerical features:  7
Number of Categorical features:  0


In [223]:
randomforest,r1 = Train(RandomForestClassifier(n_estimators=50, max_depth=5, random_state=42), X_train, y_train, X_test, y_test)
adaboost,r2 = Train(AdaBoostClassifier(n_estimators=50,random_state=42), X_train, y_train, X_test, y_test)
GradientB,r3= Train(GradientBoostingClassifier(n_estimators=50, max_depth=5, random_state=42), X_train, y_train, X_test, y_test)
xgboost,r4 = Train(XGBClassifier(n_estimators=50, max_depth=5, random_state=42), X_train, y_train, X_test, y_test)
LGBM,r5 = Train(LGBMClassifier(n_estimators=50, max_depth=5, random_state=42), X_train, y_train, X_test, y_test)
catboost,r6 = Train(CatBoostClassifier(n_estimators=50, verbose=False, max_depth=6), X_train, y_train, X_test, y_test)

In [224]:
raisin_result = pd.DataFrame(columns = ['Model', 'Accuracy', 'Precision', 'Recall', 'F1 score', 'Training Time','Prediction Time'])
raisin_result.loc[len(raisin_result)] = r1
raisin_result.loc[len(raisin_result)] = r2
raisin_result.loc[len(raisin_result)] = r3
raisin_result.loc[len(raisin_result)] = r4
raisin_result.loc[len(raisin_result)] = r5
raisin_result.loc[len(raisin_result)] = r6
raisin_result

Unnamed: 0,Model,Accuracy,Precision,Recall,F1 score,Training Time,Prediction Time
0,"RandomForestClassifier(max_depth=5, n_estimato...",0.856667,0.854691,0.874468,0.864379,0.055463,0.005218
1,AdaBoostClassifier(random_state=42),0.851111,0.857046,0.858511,0.857625,0.061882,0.003723
2,"GradientBoostingClassifier(max_depth=5, n_esti...",0.851111,0.853384,0.86383,0.858394,0.092764,0.001664
3,"XGBClassifier(base_score=0.5, booster='gbtree'...",0.850556,0.872631,0.83617,0.853847,0.035926,0.0
4,"LGBMClassifier(max_depth=5, n_estimators=50, r...",0.855556,0.85957,0.864894,0.86216,0.015621,0.0
5,<catboost.core.CatBoostClassifier object at 0x...,0.858889,0.862078,0.869149,0.865477,0.073419,0.004688


### [결과]
 
 - 성능은 다 비슷합니다! 

## 💡 최종 결과
* 6개의 데이터셋으로 실험을 해보았을 때, XGBoost가 모든 경우에서 성능이 좋았고 학습 속도도 빠른 편에 속했습니다!
* XGBoost가 왜 인기있는 알고리즘인지 이해가 되는 결과였습니다! 😉
* LightGBM 역시 가장 빠른 학습 속도를 보이면서 좋은 결과를 대부분 보여주었습니다.
* Gradient Boosting Machine은 다른 모델들이 해당 모델을 보완하기 위해 개발 되었기 때문인지 학습 속도가 무척 느렸습니다. 이 모델은 사용하지 않을 것 같네요. 😂

---

## [추가 실험] xgboost, light gbm는 파라미터 튜닝에 민감하다는 것이 사실일까? 🙄

xgboost, light gbm은 파라미터 튜닝에 민감하다는데 이 내용이 사실인지 궁금하여 파라미터 튜닝을 해보도록 하겠습니다!
<br>
Raisin 데이터를 사용하여 파라미터 튜닝에 민감하지 않다는 CatBoost와 성능을 비교해보겠습니다.

파라미터를 설정해주고,

In [251]:
# XGBoost , LightGBM 
param_grid=[{'max_depth':[i for i in range(6,17)],
           'n_estimators':[50,100, 150, 300],
           'colsample_bytree':[0.5, 0.7, 0.8,]}]
# CatBoost 
param_grid2=[{'n_estimators':[50, 70, 100, 150,300],
            'learning_rate':[0.05,0.1,0.01],
            'rsm':[0.5,0.8]}]

세개의 모델을 grid search를 통해 최적의 모델을 찾아 예측 성능을 비교해보겠습니다.

In [252]:
xgboost_gs = GridSearch(XGBClassifier(random_state=42), param_grid, X_train, y_train, X_test, y_test)
lgb_gs = GridSearch(LGBMClassifier(random_state=42), param_grid, X_train, y_train, X_test, y_test)
cat_gs = GridSearch(CatBoostClassifier(random_state=42, silent = True, bootstrap_type = 'Bernoulli'), param_grid2, X_train, y_train, X_test, y_test)

              colsample_bylevel=None, colsample_bynode=None,
              colsample_bytree=None, early_stopping_rounds=None,
              enable_categorical=False, eval_metric=None, feature_types=None,
              gamma=None, gpu_id=None, grow_policy=None, importance_type=None,
              interaction_constraints=None, learning_rate=None, max_bin=None,
              max_cat_threshold=None, max_cat_to_onehot=None,
              max_delta_step=None, max_depth=None, max_leaves=None,
              min_child_weight=None, missing=nan, monotone_constraints=None,
              n_estimators=100, n_jobs=None, num_parallel_tree=None,
              predictor=None, random_state=42, ...) 
Training time: 
14.282113552093506
Prediction time: 
0.004019498825073242
----------------------
accuracy : 0.8722222222222222
precision : 0.9080459770114943
recall : 0.8404255319148937
f1 score : 0.87292817679558
Training time: 
9.941726446151733
Prediction time: 
0.0
----------------------
accuracy : 0.8666

![image.png](attachment:image.png)
* 앞의 실험 결과와 비교했을 때 XGBoost, LightGBM은 성능이 올라가는 것을 확인했습니다 ㅎㅎ
* CatBoost는 파라미터 튜닝 전과 같은 결과를 보이네요!
* 좀더 세부적으로 파라미터 튜닝을 한다면 성능이 증가할 것으로 보입니다.
* xgboost, light gbm는 파라미터 튜닝에 민감하고 CatBoost는 상관이 없는 것을 어느 정도 알 수 있는 결과였습니다! 😎

---

## 참조
* http://www.incodom.kr/Adaboost
* https://hong-yp-ml-records.tistory.com/30
* https://wooono.tistory.com/97
* https://mac-user-guide.tistory.com/79
* https://dailyheumsi.tistory.com/136
* https://www.kaggle.com/code/lavanyashukla01/battle-of-the-boosting-algos-lgb-xgb-catboost