# chapter 4. Classification

## XGBoost

### XGBoost 개요

**XGBoost**는 트리 기반의 앙상블 학습에서 가장 각광받고 있는 알고리즘 중 하나이다. <br>
분류에 있어서 일반적으로 다른 머신러닝보다 **뛰어난 예측 성능**을 나타낸다. <br>
XGBoost는 **GBM에 기반**하고 있지만, **GBM의 단점인 느린 수행 시간 및 과적합 규제 부재 등의 문제를 해결**할 수 있다. <br>
XGBoost는 **병렬 CPU 환경에서 병렬 학습이 가능**해 기존 GBM보다 빠르게 학습을 완료할 수 있다. <br>

**XGBoost 장점**

**뛰어난 예측 성능**, 일반적으로 분류와 회귀 영역에서 뛰어난 예측 성능을 발휘한다. <br>
**GBM 대비 빠른 수행시간**, 병렬 수행 및 다양한 기능으로 GBM에 비해 빠른 성능을 보장한다. <br>
**과적합 규제**, 자체 과적합 규제 기능으로 좀 더 강한 내구성을 가질 수 있다. <br>
**Tree Pruning**, 더 이상 긍정 이득이 없는 분할을 가지치기 해서 분할 수를 더 줄이는 추가적인 장점을 가지고 있다. <br>
**자체 내장된 교차 검증**, XGBoost는 반복 수행마다 내부적으로 학습 데이터 세트와 평가 데이터 세트에 대한 교차 검증을 수행해 최적화된 반복 수행 횟수를 가질 수 있다. <br>

XGBoost의 핵심 라이브러리는 C / C++로 작성 되어있다. <br>
XGBoost는 파이썬에서도 XGBoost를 구동할 수 있도록 파이썬 패키지를 제공하고, 이 패키지의 역할은 C / C++ 핵심 라이브러리를 호출하는 것이다. <br>
**XGBoost의 파이썬 패키지명은 xgboost**이다. <br>
XGBoost 패키지의 사이킷런 래퍼 클래스는 **XGBClassifier**와 **XGBRegressor**이다. <br>
사이킷런은 estimator가 학습을 위해 사용하는 fit()과 predict()와 같은 표준 사이킷런 개발 프로세스 및 다양한 유틸리티를 활용할 수 있다. 

In [2]:
%%html
<style>
table {float:left}
</style>

In [4]:
import xgboost as xgb
from xgboost import XBGClassifier

ImportError: cannot import name 'XBGClassifier' from 'xgboost' (/Users/1001l1000/opt/anaconda3/envs/J/lib/python3.9/site-packages/xgboost/__init__.py)

### 파이썬 래퍼 XGBoost 하이퍼 파라미터 

파이썬 래퍼 XGBoost 하이퍼 파라미터 유형

- 일반 파라미터 : 일반적으로 실행 시 스레드의 개수나 silent 모드 등 선택을 위한 파라미터로서 디폴트 파라미터 값을 바꾸는 경우는 거의 없다. 
- 부스터 파라미터 : 트리 최적화, 부스팅, reaularization 등과 관련 파라미터를 지칭한다.
- 학습 태스크 파라미터 : 학습 수행시의 객체 함수, 평가를 위한 지표 등을 설정하는 파라미터이다. 

    
|주요 일반 파라미터|내용|
|:------|:---|
|booster|gbtree, gblinear 선택. 디폴트는 gbtree이다.|
|silent|디폴트는 0이며 출력 메시지를 나타내고 싶지 않을 경우 1로 설정한다.|
|nthread|CPU의 실행 스레드 개수를 조정하며, 디폴트는 CPU의 전체 스레드를 다 사용하는 것이다. |

|주요 부스터 파라미터|내용|
|:------|:---|
|eta[default = 0.3, alias : learning_rate]|GBM의 학습률과 같은 파라미터이다.|
|num_boost_rounds|GBM의 n_estimators와 같은 파라미터이다. |
|min_child_weight[default = 1]|트리에서 추가적으로 가지를 나눌지 결정하기 위해 필요한 데이터의 weight 총합|
|gamma[default = 0, alias : min_split_loss]|트리의 리프 노드를 추가적으로 나눌지를 결정할 최소 손실 감소값이다. |
|max_depth[default = 6]|트리 기반알고리즘의 max_depth와 같다. |
|sub_sample[default = 1]|GBM의 subsample과 동일하다. |
|colsample_bytree[default = 1]|GBM의 max_feature와 유사하다. |
|lambda[default = 1, alias : reg_lambda]|L2 Regularization 적용값이다. |
|alpha[default = 0, ailas : reg_alpha]|L1 Regularization 적용 값이다. |
|scale_pos_weight[default = 1]|특정 값으로 치우친 비대칭한 클래스로 구성된 데이터 세트의 균형을 유지하기 위한 파라미터이다. |

|학습 태스크 파라미터|내용|
|:------|:---|
|objective|최솟값을 가져야할 손실 함수를 정의한다. |
|binary : logistic|이진 분류일 때 적용한다. |
|multi : softmax|다중 분류일 때 적용한다. |
|multi : softprob|multi : softmax와 유사하나 개별 레이블 클래스의 해당되는 에측 확률을 반환한다. |
|eval_metric|검증에 사용되는 함수를 정의한다. |


**과적합 문제가 심각할 때 적용할 방법**

- eta 값을 낮춘다. eta 값을 낮출 경우 num_round 는 반대로 높여줘야 한다. 
- max_depth 값을 낮눈다.
- min_child_weight 값을 높인다. 
- gamma 값을 높인다. 
- subsample과 colsample_bytree를 조정하는 것도 트리가 너무 복잡하게 생성되는 것을 막아 과적합 문제에 도움이 될 수 있다. 

**XGBoost 자체적으로 교차 검증, 평가, 피처 중요도 등의 시각화 기능**을 가지고 있다. <br>
수행 속도를 향상시키기 위해 대표적인 기능으로 조기 중간 기능이 있다. <br>
기본 GBM의 경우 n_estimators에 지정된 횟수만큼 반복적으로 학습 오류를 감소시키며 학습 진행을 하면서 중간에 반복을 멈출 수 없고 n_estimators에 지정된 횟수를 다 완료해야 한다. <br>

**XGBoost는 부스팅 반복 횟수에 도달하지 않더라도 예측 오류가 더 이상 개선되지 않으면 반복을 끝까지 수행하지 않고 중지해 수행 시간을 개선할 수 있다.** 

In [5]:
import xgboost
print(xgboost.__version__)

1.5.0


### 파이선 래퍼 XGBoost 적용 - 위스콘신 유방암 예측

xgboost 패키지는 피처의 중요도를 시각화해주는 모듈인 plot_importance를 함께 제공하고 있다. 

In [7]:
import xgboost as xgb
from xgboost import plot_importance
import pandas as pd
import numpy as np
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
import warnings
warnings.filterwarnings('ignore')

dataset = load_breast_cancer()
features = dataset.data
labels = dataset.target

cancer_df = pd.DataFrame(data = features, columns = dataset.feature_names)
cancer_df['target'] = labels
cancer_df.head(3)

Unnamed: 0,mean radius,mean texture,mean perimeter,mean area,mean smoothness,mean compactness,mean concavity,mean concave points,mean symmetry,mean fractal dimension,...,worst texture,worst perimeter,worst area,worst smoothness,worst compactness,worst concavity,worst concave points,worst symmetry,worst fractal dimension,target
0,17.99,10.38,122.8,1001.0,0.1184,0.2776,0.3001,0.1471,0.2419,0.07871,...,17.33,184.6,2019.0,0.1622,0.6656,0.7119,0.2654,0.4601,0.1189,0
1,20.57,17.77,132.9,1326.0,0.08474,0.07864,0.0869,0.07017,0.1812,0.05667,...,23.41,158.8,1956.0,0.1238,0.1866,0.2416,0.186,0.275,0.08902,0
2,19.69,21.25,130.0,1203.0,0.1096,0.1599,0.1974,0.1279,0.2069,0.05999,...,25.53,152.5,1709.0,0.1444,0.4245,0.4504,0.243,0.3613,0.08758,0


In [8]:
print(dataset.target_names)
print(cancer_df['target'].value_counts())

['malignant' 'benign']
1    357
0    212
Name: target, dtype: int64


1 값인 양성이 benign이 357개, 악성 malignant가 212개로 구성되어있다. 

In [10]:
# cancer_df에서 feature용 DataFrame과 Label용 Series 객체 추출
# 맨 마지막 colunm이 Label이다. feature용 DataFrame은 cancer_df의 첫번째 column에서 맨 마지막 두번째 column까지를 :-1 슬라이싱으로 추출한다.

X_features = cancer_df.iloc[:, :-1]
Y_label = cancer_df.iloc[:, -1]

# 전체 데이터 중 80%는 학습용 데이터, 20%는 테스트용 데이터 추출
X_train, X_test, Y_train, Y_test = train_test_split(X_features, Y_label, test_size = 0.2, random_state = 156)
                                         
# X_train, Y_train을 다시 쪼개 90%은 학습과 10%은 검증용 데이터로 분리 
X_tr, X_val, Y_tr, Y_val = train_test_split(X_train, Y_train, test_size = 0.1, random_state = 156)

print(X_train.shape, X_test.shape)
print(X_tr.shape, X_val.shape)

(455, 30) (114, 30)
(409, 30) (46, 30)


파이썬 래퍼 XGBoost는 사이킷런과 여러 가지 차이가 있지만, 먼저 눈에 띄는 차이는 XGBoost만의 전용 데이터 객체인 DMatrix를 사용한다는 점이다. <br>
**DMatrix의 주요 입력 파라미터는 data와 label**이다. <br>
data는 피처 데이터 세트, label은 분류의 경우에는 레이블 데이터 세트, 회귀의 경우는 숫자형 종속 값 데이터 세트이다. <br>
DMatrix는 Numpy, DataFrame, Series 외에 libsvm txt 포맷 파일, xgboost 이진 버퍼 파일을 파라미터로 입력 받아 변환할 수 있다. 

In [11]:
# 만약 구버전 XGBoost에서 DataFrame으로 DMatrix 생성이 안될 경우 X_train.value로 Numpy 변환
# 학습, 검증, 테스트용 DMatrix를 생성한다. 

dtr = xgb.DMatrix(data = X_tr, label = Y_tr)
dval = xgb.DMatrix(data = X_val, label = Y_val)
dtest = xgb.DMatrix(data = X_test, label = Y_test)

파이썬 래퍼 XGBoost 모듈인 xgboost를 이용해 학습을 수행하기 전에 먼저 XGBoost의 하이퍼 파라미터를 설정한다. <br>
XGBoost의 하이퍼 파라미터는 주로 딕셔너리 형태로 입력한다. 

In [15]:
params = {'max_depth' : 3,
         'eta' : 0.05, 
         'objective' : 'binary:logistic', 
         'eval_metric' : 'logloss'
         }

num_rounds = 400

조기 중단의 성능 평가는 주로 별도의 검증 데이터 세트를 이용한다. <br>
조기 중단은 xgboost의 train() 함수의 early_stopping_rounds 파라미터를 입력해 설정한다. <br>
반드시 평가용 데이터 세트 지정과 eval_metric을 함께 설정해야 한다. 

xgboost 모듈의 train() 함수를 호출하며 학습을 수행한다. 

In [16]:
# gㅏㄱ습 데이터 셋은 'train' 또는 평가 데이터 셋은 'eval'로 지정한다. 
eval_list = [(dtr, 'train'), (dval, 'eval')] 
# 혹은 eval_list = [(dval, 'eval')]로만 지정해도 된다. 

# 하이퍼 파라미터와 early stopping 파라미터를 train() 함수의 파라미터로 전달한다. 
xgb_model = xgb.train(params, dtrain = dtr, num_boost_round = num_rounds, \
                      early_stopping_rounds = 50, evals = eval_list)

[0]	train-logloss:0.65016	eval-logloss:0.66183
[1]	train-logloss:0.61131	eval-logloss:0.63609
[2]	train-logloss:0.57563	eval-logloss:0.61144
[3]	train-logloss:0.54310	eval-logloss:0.59204
[4]	train-logloss:0.51323	eval-logloss:0.57329
[5]	train-logloss:0.48447	eval-logloss:0.55037
[6]	train-logloss:0.45796	eval-logloss:0.52929
[7]	train-logloss:0.43436	eval-logloss:0.51534
[8]	train-logloss:0.41150	eval-logloss:0.49718
[9]	train-logloss:0.39027	eval-logloss:0.48154
[10]	train-logloss:0.37128	eval-logloss:0.46990
[11]	train-logloss:0.35254	eval-logloss:0.45474
[12]	train-logloss:0.33528	eval-logloss:0.44229
[13]	train-logloss:0.31893	eval-logloss:0.42961
[14]	train-logloss:0.30439	eval-logloss:0.42065
[15]	train-logloss:0.29000	eval-logloss:0.40958
[16]	train-logloss:0.27651	eval-logloss:0.39887
[17]	train-logloss:0.26389	eval-logloss:0.39050
[18]	train-logloss:0.25210	eval-logloss:0.38254
[19]	train-logloss:0.24123	eval-logloss:0.37393
[20]	train-logloss:0.23076	eval-logloss:0.36789
[2

[170]	train-logloss:0.01312	eval-logloss:0.26133
[171]	train-logloss:0.01304	eval-logloss:0.26148
[172]	train-logloss:0.01297	eval-logloss:0.26157
[173]	train-logloss:0.01285	eval-logloss:0.26253
[174]	train-logloss:0.01278	eval-logloss:0.26229
[175]	train-logloss:0.01267	eval-logloss:0.26086
[176]	train-logloss:0.01258	eval-logloss:0.26103


파이썬 래퍼 XGBoost는 train() 함수를 호출해 학습이 완료된 모데르 객체를 반환하게 되는데, 이 모델 객체는 예측을 위해 predict() 메서드를 이용한다. <br> 
유의해야 하는 점은 **사이킷런의 predict() 메서드는 예측 결과를 클래스 값(0, 1)을 반환하는데 반해 xgboost의 predict()는 예측 결과값이 아닌 
예측 결과를 추정할 수 있는 확률 값을 반환한다는 것**이다. 

In [19]:
pred_probs = xgb_model.predict(dtest)
print('predict() 수행 결과값을 10개만 표시, 예측 확률 값으로 표시된다.')
print(np.round(pred_probs[:10], 3))

# 예측 확률이 0.5보다 크면 1, 그렇지 않으면 0으로 예측 값을 결정해 List 객체인 preds에 저장한다.
preds = [1 if x > 0.5 else 0 for x in pred_probs]
print('예측값 10개만 표시 : ', preds[:10])

predict() 수행 결과값을 10개만 표시, 예측 확률 값으로 표시된다.
[0.845 0.008 0.68  0.081 0.975 0.999 0.998 0.998 0.996 0.001]
예측값 10개만 표시 :  [1, 0, 1, 0, 1, 1, 1, 1, 1, 0]


테스트 실제 레이블 값을 가지는 Y_test와 예측 레이블인 preds, 그리고 예측 확률인 pred_proba를 인자로 입력한다.

In [34]:
# 이전 get_clf_eval() Data

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import accuracy_score, precision_score, recall_score, confusion_matrix
from sklearn.preprocessing import Binarizer
from sklearn.metrics import f1_score
from sklearn.metrics import accuracy_score, precision_score, recall_score, roc_auc_score

def get_clf_eval(Y_test, pred = None, pred_proba = None):
    confusion = confusion_matrix(Y_test, pred)
    accuracy = accuracy_score(Y_test, pred)
    precision = precision_score(Y_test, pred)
    recall = recall_score(Y_test, pred)
    f1 = f1_score(Y_test, pred)
    
    # F1 스코어 추가
    f1 = f1_score(Y_test, pred)
     
    # ROC-AUC 추가
    roc_auc = roc_auc_score(Y_test, pred_proba)
    print('오차 행렬')
    print(confusion)
    
    # ROC-AUC print 추가
    print('정확도 : {0:.4f}, 정밀도 : {1:.4f}, 재현율 : {2:.4f}, F1 : {3:.4f}, AUC : {4:.4f}'.format(accuracy, precision, recall, f1, roc_auc))

In [35]:
get_clf_eval(Y_test, preds, pred_probs)

오차 행렬
[[34  3]
 [ 2 75]]
정확도 : 0.9561, 정밀도 : 0.9615, 재현율 : 0.9740, F1 : 0.9677, AUC : 0.9937


파이썬 래퍼 XGBoost는 사이킷런의 GridSearchCV와 유사하게 데이터 세트에 대한 교차 검증 수행 후 최적 파라미터를 구할 수 있는 방법을 cv() API로 제공한다. 

### 사이킷런 래퍼 XGBoost의 개요 및 적용

사이킷런 전용 XGBoost는 기본 Estimator를 그대로 상속해 만들었기 때문에 다른 Estimator와 동일하게 fit()과 predict()만으로 학습과 예측이 가능하고, 사이킷런의 유틸리티를 그대로 사용할 수 있다. <br>
**분류를 위한 래퍼 클래스인 XGBClassifier**와 **회귀를 위한 래퍼 클래스인 XGBRegressor**로 나눌 수 있다. 

In [38]:
# 사이킷런 래퍼 XGBoost 래퍼 클래스인 XBGClassifier import
from xgboost import XGBClassifier

# Warning 메시지를 없애기 위해 eval_metric 값을 XGBClassifier 생성 인자로 입력한다. 
xgb_wrapper = XGBClassifier(n_estimators = 400, learning_rate = 0.05, max_depth = 3, eval_metric = 'logloss')
xgb_wrapper.fit(X_train, Y_train, verbose = True)
w_preds = xgb_wrapper.predict(X_test)
w_pred_proba = xgb_wrapper.predict_proba(X_test)[:, 1]

In [39]:
get_clf_eval(Y_test, w_preds, w_pred_proba)

오차 행렬
[[34  3]
 [ 1 76]]
정확도 : 0.9649, 정밀도 : 0.9620, 재현율 : 0.9870, F1 : 0.9744, AUC : 0.9954


In [42]:
from xgboost import XGBClassifier

xgb_wrapper = XGBClassifier(n_estimators = 400, learning_rate = 0.05, max_depth = 3)
evals = [(X_tr, Y_tr), (X_val, Y_val)]
xgb_wrapper.fit(X_tr, Y_tr, early_stopping_rounds = 50, eval_metric = 'logloss', eval_set = evals, verbose = True)
ws50_preds = xgb_wrapper.predict(X_test)
ws50_pred_proba = xgb_wrapper.predict_proba(X_test)[:, 1]

[0]	validation_0-logloss:0.65016	validation_1-logloss:0.66183
[1]	validation_0-logloss:0.61131	validation_1-logloss:0.63609
[2]	validation_0-logloss:0.57563	validation_1-logloss:0.61144
[3]	validation_0-logloss:0.54310	validation_1-logloss:0.59204
[4]	validation_0-logloss:0.51323	validation_1-logloss:0.57329
[5]	validation_0-logloss:0.48447	validation_1-logloss:0.55037
[6]	validation_0-logloss:0.45796	validation_1-logloss:0.52929
[7]	validation_0-logloss:0.43436	validation_1-logloss:0.51534
[8]	validation_0-logloss:0.41150	validation_1-logloss:0.49718
[9]	validation_0-logloss:0.39027	validation_1-logloss:0.48154
[10]	validation_0-logloss:0.37128	validation_1-logloss:0.46990
[11]	validation_0-logloss:0.35254	validation_1-logloss:0.45474
[12]	validation_0-logloss:0.33528	validation_1-logloss:0.44229
[13]	validation_0-logloss:0.31893	validation_1-logloss:0.42961
[14]	validation_0-logloss:0.30439	validation_1-logloss:0.42065
[15]	validation_0-logloss:0.29000	validation_1-logloss:0.40958
[1

[130]	validation_0-logloss:0.01886	validation_1-logloss:0.25712
[131]	validation_0-logloss:0.01863	validation_1-logloss:0.25609
[132]	validation_0-logloss:0.01839	validation_1-logloss:0.25649
[133]	validation_0-logloss:0.01816	validation_1-logloss:0.25789
[134]	validation_0-logloss:0.01802	validation_1-logloss:0.25811
[135]	validation_0-logloss:0.01785	validation_1-logloss:0.25794
[136]	validation_0-logloss:0.01763	validation_1-logloss:0.25876
[137]	validation_0-logloss:0.01748	validation_1-logloss:0.25884
[138]	validation_0-logloss:0.01732	validation_1-logloss:0.25867
[139]	validation_0-logloss:0.01719	validation_1-logloss:0.25876
[140]	validation_0-logloss:0.01696	validation_1-logloss:0.25987
[141]	validation_0-logloss:0.01681	validation_1-logloss:0.25960
[142]	validation_0-logloss:0.01669	validation_1-logloss:0.25982
[143]	validation_0-logloss:0.01656	validation_1-logloss:0.25992
[144]	validation_0-logloss:0.01638	validation_1-logloss:0.26035
[145]	validation_0-logloss:0.01623	valid

In [43]:
get_clf_eval(Y_test, ws50_preds, ws50_pred_proba)

오차 행렬
[[34  3]
 [ 2 75]]
정확도 : 0.9561, 정밀도 : 0.9615, 재현율 : 0.9740, F1 : 0.9677, AUC : 0.9933


하지만 조기 중단 값을 너무 급격하게 줄이면 예측 성능이 저하될 수 있다. 

In [45]:
# early_stopping_rounds를 10으로 설정하고 재학습
xgb_wrapper = XGBClassifier(n_estimators = 400, learning_rate = 0.05, max_depth = 3)
evals = [(X_tr, Y_tr), (X_val, Y_val)]
xgb_wrapper.fit(X_tr, Y_tr, early_stopping_rounds = 10, eval_metric = 'logloss', eval_set = evals, verbose = True)
ws50_preds = xgb_wrapper.predict(X_test)
ws50_pred_proba = xgb_wrapper.predict_proba(X_test)[:, 1]

get_clf_eval(Y_test, ws50_preds, ws50_pred_proba)

[0]	validation_0-logloss:0.65016	validation_1-logloss:0.66183
[1]	validation_0-logloss:0.61131	validation_1-logloss:0.63609
[2]	validation_0-logloss:0.57563	validation_1-logloss:0.61144
[3]	validation_0-logloss:0.54310	validation_1-logloss:0.59204
[4]	validation_0-logloss:0.51323	validation_1-logloss:0.57329
[5]	validation_0-logloss:0.48447	validation_1-logloss:0.55037
[6]	validation_0-logloss:0.45796	validation_1-logloss:0.52929
[7]	validation_0-logloss:0.43436	validation_1-logloss:0.51534
[8]	validation_0-logloss:0.41150	validation_1-logloss:0.49718
[9]	validation_0-logloss:0.39027	validation_1-logloss:0.48154
[10]	validation_0-logloss:0.37128	validation_1-logloss:0.46990
[11]	validation_0-logloss:0.35254	validation_1-logloss:0.45474
[12]	validation_0-logloss:0.33528	validation_1-logloss:0.44229
[13]	validation_0-logloss:0.31893	validation_1-logloss:0.42961
[14]	validation_0-logloss:0.30439	validation_1-logloss:0.42065
[15]	validation_0-logloss:0.29000	validation_1-logloss:0.40958
[1