# Ensemble - Boosting Model
- 부스팅(Boosting)이란? 
    - 단순하고 약한 학습기(Weak Learner)들을 결합해 강력한 학습기(Strong Learner)를 만드는 방식
    - 정확도가 낮은 하나의 모델을 만들어 학습 시킨뒤, 모델의 예측 오류는 두번째 모델이 보완, 이 두 모델을 합치면 처음보다 정확한 모델이 만들어짐
    - 합쳐진 모델의 예측 오류는 다음 모델에서 보완하여 계속 더하는 과정을 반복
    - **약한 학습기들은 앞 학습기가 만든 오류를 줄이는 방향으로 학습**


## GradientBoosting
- 개별 모델로 DecisionTree를 사용
- depth가 깊지 않은 트리를 많이 연결해 이전 트리의 오차를 보정하는 방식
- 각 모델들은 아의 모델이 틀린 오차를 학습해 전체 오차가 감소하도록 학습
- 얕은 트리를 많이 연결하여 각각의 트리가 데이터의 일부에 대해 예측을 잘 수행하도록 하고 그런 트리들이 모여 전체 성능을 높이는 것이 기본 아이디어
- 분류와 회귀 둘다 지원(GradientBoostingClassifier, GradientBoostingRegressor)
- 훈련시간이 많이 걸리고, 트리기반 모델의 특성상 희소한 고차원 데이터에서는 성능이 떨어지는 단점이 있다

### GradientBoosting 학습 및 추론 프로세스
**학습데이터**
![image](https://blog.kakaocdn.net/dn/ccTuma/btqy7qdVwBg/TeNk9QgE03gu6AWt9VWjl1/img.png)
- 키, 좋아하는 색, 성별로 몸무게를 예측하는 모델을 생성
    - Feature: Height(m), Favorite Color, Gender
    - Target: Weight(kg)

![image](https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FSsgry%2Fbtqxmv2OFmy%2FXUPZ3FfKyQHOywaZ9sF9P0%2Fimg.png)
![image](https://blog.kakaocdn.net/dn/bM5ezy/btqxonpsQPx/fCYzXJ0Yh2R0oq59PCAu90/img.png)
- 평균으로 예측
- Residual(잔차)을 계산
    - Residual(잔차): 정답과 예측결과 간의 차이
    - 여기서는 정답과 평균으로 예측한 결과간의 차이를 계산

![image](https://blog.kakaocdn.net/dn/ckdStN/btqxmMDggSx/26GkeR7fyKMLKjvrrxdBtk/img.png)
![image](https://blog.kakaocdn.net/dn/YzhKx/btqxpAVVNtU/PKVP5RKXUnzWViVOBJLISk/img.png)
- 첫번째 DecisionTree 모델은 잔차를 예측하도록 학습한다.
    - Features를 입력으로 받아 잔차(Residual)를 예측

![image](https://blog.kakaocdn.net/dn/Em0mM/btqxmLdgX2u/vArI6Ceu4l81siY2bXkmo1/img.png)
- 위 그림에서 첫 모델이 예측한 첫번째 Datapoint에 대한 잔차 에측결과는 16.8이 나온다
- 그것을 첫 번째 예측 값인 71.2에 더하면 정답인 88이 나온다

![image](https://blog.kakaocdn.net/dn/tSgXA/btqxpziqfgF/0U5j1866oknp2wHiPdQPeK/img.png)
- 예측한 잔차를 그래로 더하면 학습데이터의 값은 100% 예측하겠지만 새로운 데이터에는 맞지 않을 가능성이 높다(Overfitting)
- **모델이 예측한 잔차(오차)에 학습율을 곱한 값을 예측 값에 더한다**
- **학습율(Learning Rate)**
    - 하이퍼파라미터로 오차를 보정하는 비율
- 위 예를 보면 처음 예측한 71.2가 72.9로 실제 값에 좀 더 가까이 예측

![image](https://blog.kakaocdn.net/dn/ogU9k/btqxoQZeUx6/zUcRNzNizYWvhN2IccRdu0/img.png)
- 두번째 DecisionTree 모델은 남은 잔차를 예측하도록 학습
- 각 DecisionTree 모델들은 아의 모델들까지 예측한 결과에 대한 잔차를 예측하도록 학습
    - 앞의 모델까지 예측한 값에 현재 모델이 예측한 잔차*학습율의 값을 더해 계속 보정해 나간다
        - 앞 모델까지 예측한 값 + 학습율*잔차 예측값 = 새 예측값
- 위 작업을 반복하여 잔차를 줄인다

![image](https://blog.kakaocdn.net/dn/mLlRQ/btqxpA2H9B6/FUbeNKDOBriocbys3V3nTk/img.png)
- 새로운 데이터 예측
    - 생성된 트리 모델들을 거치면서 마지막에 출력된 결과가 예측 값이 된다

### 주요 파라미터
- **DecisionTree의 가지치기 관련 매개변수**
    - 각각의 DecisionTree가 복잡한 모델이 되지 않도록 한다
- **learning rate**
    - 이전 DecisionTree의 오차를 얼마나 강하게 보정할 것인지 제어하는 값
    - 값이 크면 보정을 강하게 하여 복잡한 모델을 만든다. 학습데이터의 정확도는 올라가지만 과대적합이 날 수 있다
    - 값을 작게 하면 보정을 약하게 하여 모델의 복잡도를 줄인다. 과대적합을 줄일 수 있지만 성능 자체가 낮아질 수 있다
    - 기본값 : 0.1
- **n_estimators**
    - DecisionTree의 개수 지정. 많을수록 복잡한 모델
- **n_iter_no_change, validation_fraction**
    - validation_fraction에 지정한 비율만큼 n_iter_no_change에 지정한 반복 횟수동안 검증점수가 좋아지지 않으면 훈련을 조기 종료
- **보통 max_depth를 낮춰 개별 DecisionTree의 복잡도를 낮춘다. 보통 5가 넘지 않게 설정. n_estimators를 가용시간, 메모리 한도에 맞게 크게 설정하고 적절한 learning_rate를 찾는다**

### 위스콘신 유방암 데이터

In [1]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split

X, y = load_breast_cancer(return_X_y = True)
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify = y, random_state = 0)

### GradientBoostingClassifier 모델 생성, 학습, 평가

In [2]:
from sklearn.ensemble import GradientBoostingClassifier

gb = GradientBoostingClassifier(random_state = 0)
gb.fit(X_train, y_train)

train_pred = gb.predict(X_train)
test_pred = gb.predict(X_test)

train_proba = gb.predict_proba(X_train)[:, 1]
test_proba = gb.predict_proba(X_test)[:, 1]

In [3]:
# 평가 
from metrics import print_metrics_classification as pmc1, print_metrics_classification2 as pmc2

pmc1(y_train, train_pred, 'Train set')
print('='*30)
pmc1(y_test, test_pred, 'Test set')

Train set
정확도(accuracy): 1.0
재현율/민감도(recall): 1.0
정밀도(precision): 1.0
F1-score: 1.0
Test set
정확도(accuracy): 0.958041958041958
재현율/민감도(recall): 0.9555555555555556
정밀도(precision): 0.9772727272727273
F1-score: 0.9662921348314608


In [4]:
pmc2(y_train, train_proba, 'Train set')
print('=' * 30)
pmc2(y_test, test_proba, 'test set')

Train set
Average Precision: 1.0
roc_auc: 1.0
test set
Average Precision: 0.9741338688529869
roc_auc: 0.9776729559748428


### Feature 중요도 조회

In [5]:
import pandas as pd

pd.Series(gb.feature_importances_).sort_values(ascending = False)

22    0.494771
27    0.162170
20    0.131205
7     0.075635
21    0.043937
23    0.019981
13    0.013616
1     0.012091
26    0.009072
17    0.008441
11    0.006200
24    0.004643
15    0.004200
28    0.003383
10    0.002465
6     0.002308
8     0.001918
25    0.001776
14    0.001356
0     0.000240
2     0.000179
16    0.000160
3     0.000105
12    0.000058
18    0.000034
9     0.000023
29    0.000017
5     0.000013
4     0.000005
19    0.000000
dtype: float64

### learning rate 변화에 따른 성능 변화

In [6]:
max_depth = 1
n_estimators= 10000
lr1 = 0.0001
lr2 = 0.001
lr3 = 0.01
lr4 = 0.1
lr5 = 0.5

gb_lr1 = GradientBoostingClassifier(n_estimators = n_estimators, max_depth = max_depth, learning_rate = lr1, random_state=0)
gb_lr2 = GradientBoostingClassifier(n_estimators = n_estimators, max_depth = max_depth, learning_rate = lr2, random_state=0)
gb_lr3 = GradientBoostingClassifier(n_estimators = n_estimators, max_depth = max_depth, learning_rate = lr3, random_state=0)
gb_lr4 = GradientBoostingClassifier(n_estimators = n_estimators, max_depth = max_depth, learning_rate = lr4, random_state=0)
gb_lr5 = GradientBoostingClassifier(n_estimators = n_estimators, max_depth = max_depth, learning_rate = lr5, random_state=0)


gb_lr1.fit(X_train, y_train)
gb_lr2.fit(X_train, y_train)
gb_lr3.fit(X_train, y_train)
gb_lr4.fit(X_train, y_train)
gb_lr5.fit(X_train, y_train)

train_pred_lr1 = gb_lr1.predict(X_train)
train_pred_lr2 = gb_lr2.predict(X_train)
train_pred_lr3 = gb_lr3.predict(X_train)
train_pred_lr4 = gb_lr4.predict(X_train)
train_pred_lr5 = gb_lr5.predict(X_train)

test_pred_lr1 = gb_lr1.predict(X_test)
test_pred_lr2 = gb_lr2.predict(X_test)
test_pred_lr3 = gb_lr3.predict(X_test)
test_pred_lr4 = gb_lr4.predict(X_test)
test_pred_lr5 = gb_lr5.predict(X_test)

In [7]:
pmc1(y_train, train_pred_lr1, f'Train, LR : {lr1}')
print('='*30)
pmc1(y_test, test_pred_lr1, f'Test, LR : {lr1}')

Train, LR : 0.0001
정확도(accuracy): 0.9413145539906104
재현율/민감도(recall): 0.9887640449438202
정밀도(precision): 0.9230769230769231
F1-score: 0.9547920433996384
Test, LR : 0.0001
정확도(accuracy): 0.916083916083916
재현율/민감도(recall): 0.9888888888888889
정밀도(precision): 0.89
F1-score: 0.9368421052631579


In [8]:
pmc1(y_train, train_pred_lr2, f'Train, LR : {lr2}')
print('='*30)
pmc1(y_test, test_pred_lr2, f'Test, LR : {lr2}')

Train, LR : 0.001
정확도(accuracy): 0.9953051643192489
재현율/민감도(recall): 1.0
정밀도(precision): 0.9925650557620818
F1-score: 0.9962686567164178
Test, LR : 0.001
정확도(accuracy): 0.958041958041958
재현율/민감도(recall): 0.9666666666666667
정밀도(precision): 0.9666666666666667
F1-score: 0.9666666666666667


In [9]:
pmc1(y_train, train_pred_lr3, f'Train, LR : {lr3}')
print('='*30)
pmc1(y_test, test_pred_lr3, f'Test, LR : {lr3}')

Train, LR : 0.01
정확도(accuracy): 1.0
재현율/민감도(recall): 1.0
정밀도(precision): 1.0
F1-score: 1.0
Test, LR : 0.01
정확도(accuracy): 0.958041958041958
재현율/민감도(recall): 0.9555555555555556
정밀도(precision): 0.9772727272727273
F1-score: 0.9662921348314608


In [10]:
pmc1(y_train, train_pred_lr4, f'Train, LR : {lr4}')
print('='*30)
pmc1(y_test, test_pred_lr4, f'Test, LR : {lr4}')

Train, LR : 0.1
정확도(accuracy): 1.0
재현율/민감도(recall): 1.0
정밀도(precision): 1.0
F1-score: 1.0
Test, LR : 0.1
정확도(accuracy): 0.958041958041958
재현율/민감도(recall): 0.9555555555555556
정밀도(precision): 0.9772727272727273
F1-score: 0.9662921348314608


In [11]:
pmc1(y_train, train_pred_lr5, f'Train, LR : {lr5}')
print('='*30)
pmc1(y_test, test_pred_lr5, f'Test, LR : {lr5}')

Train, LR : 0.5
정확도(accuracy): 1.0
재현율/민감도(recall): 1.0
정밀도(precision): 1.0
F1-score: 1.0
Test, LR : 0.5
정확도(accuracy): 0.965034965034965
재현율/민감도(recall): 0.9666666666666667
정밀도(precision): 0.9775280898876404
F1-score: 0.9720670391061451


### GridSearchCV 이용해 최적의 하이퍼파라미터 찾기
#### RandomizedSearchCV 생성
- n_estimators
- learning_rate
- max_depth
- subsample

In [13]:
from sklearn.model_selection import RandomizedSearchCV

gb = GradientBoostingClassifier(random_state = 0)
params = {
    'n_estimators' : [1000, 2000, 3000, 4000, 5000],
    'learning_rate' : [0.001, 0.01, 0.05, 0.1, 0.5],
    'max_depth' : [1, 2, 3],
    'subsample' : [0.5, 0.6, 0.7, 0.8, 0.9, 1.0]
}

rs = RandomizedSearchCV(gb, params, n_iter = 60, scoring = 'accuracy', cv = 4, n_jobs = -1)
rs.fit(X_train, y_train)

RandomizedSearchCV(cv=4, estimator=GradientBoostingClassifier(random_state=0),
                   n_iter=60, n_jobs=-1,
                   param_distributions={'learning_rate': [0.001, 0.01, 0.05,
                                                          0.1, 0.5],
                                        'max_depth': [1, 2, 3],
                                        'n_estimators': [1000, 2000, 3000, 4000,
                                                         5000],
                                        'subsample': [0.5, 0.6, 0.7, 0.8, 0.9,
                                                      1.0]},
                   scoring='accuracy')

In [14]:
print('best_score:', rs.best_score_)
print('best_params:', rs.best_params_)

pd.DataFrame(rs.cv_results_).sort_values('rank_test_score').head(3)

best_score: 0.9742108975489332
best_params: {'subsample': 0.7, 'n_estimators': 5000, 'max_depth': 3, 'learning_rate': 0.1}


Unnamed: 0,mean_fit_time,std_fit_time,mean_score_time,std_score_time,param_subsample,param_n_estimators,param_max_depth,param_learning_rate,params,split0_test_score,split1_test_score,split2_test_score,split3_test_score,mean_test_score,std_test_score,rank_test_score
41,6.444808,0.120626,0.009245,0.003895,0.7,5000,3,0.1,"{'subsample': 0.7, 'n_estimators': 5000, 'max_...",0.953271,0.981308,0.981132,0.981132,0.974211,0.01209,1
44,2.565031,0.105345,0.003997,0.000707,0.6,1000,3,0.1,"{'subsample': 0.6, 'n_estimators': 1000, 'max_...",0.943925,0.990654,0.981132,0.981132,0.974211,0.017912,1
2,15.665778,1.014146,0.021236,0.022948,0.5,3000,2,0.05,"{'subsample': 0.5, 'n_estimators': 3000, 'max_...",0.953271,0.971963,0.981132,0.981132,0.971874,0.011374,3


#### Feature importance

In [15]:
best_model = rs.best_estimator_
fi = pd.Series(best_model.feature_importances_)

fi.sort_values(ascending= False)

22    0.430558
7     0.156076
27    0.101677
20    0.093673
23    0.056623
26    0.034179
21    0.025567
1     0.024364
13    0.016412
24    0.015846
6     0.011620
10    0.005720
16    0.004267
12    0.003865
11    0.003644
5     0.002104
0     0.001961
3     0.001849
25    0.001665
2     0.001515
9     0.001363
19    0.001280
18    0.001135
15    0.000969
28    0.000749
17    0.000556
8     0.000291
29    0.000209
14    0.000190
4     0.000070
dtype: float64

## XGBoost(Extra Gradient Boost)
- Gradient Boost 알고리즘을 기반으로 개선해서 분산환경에서도 실행할 수 있도록 구현된 모델
- Gradient Boost의 단점인 느린 수행 시간을 해결, 과적합을 제어할 수 있는 규제들을 제공하여 성능을 높임
- 회귀와 분류 모두 지원
- 두가지 개발 방법
    - Scikit-learn 래퍼 XGBoost 모듈 사용
    - 파이썬 래퍼 XGBoost 모듈 사용
- 설치
    - conda install -y -c anaconda py-xgboost
    - pip install xgboost

In [16]:
import xgboost

### Scikit-learn 래퍼 XGBoost
- XGBoost를 Scikit-learn 프레임워크와 연동할 수 있도록 개발
- Scikit-learn의 Estimator들과 동일한 패턴으로 코드를 작성할 수 있다
- GridSearchCV나 Pipeline 등 Scikit-learn이 제공하는 다양한 유틸리티들을 사용할 수 있다
- XGBClassifier: 분류
- XGBRegressor: 회귀

### 주요 매개변수
- learning_rate: 학습률, 보통 0.01 ~ 0.2 사이의 값 사용
- n_estimators: weak tree 개수
- DecisionTree관련 하이퍼파라미터들

### 예제

In [17]:
from xgboost import XGBClassifier

xgb = XGBClassifier(n_estimators = 500, learning_rate = 0.01, max_depth = 2, random_state = 0)
xgb.fit(X_train, y_train)

XGBClassifier(base_score=None, booster=None, callbacks=None,
              colsample_bylevel=None, colsample_bynode=None,
              colsample_bytree=None, early_stopping_rounds=None,
              enable_categorical=False, eval_metric=None, feature_types=None,
              gamma=None, gpu_id=None, grow_policy=None, importance_type=None,
              interaction_constraints=None, learning_rate=0.01, max_bin=None,
              max_cat_threshold=None, max_cat_to_onehot=None,
              max_delta_step=None, max_depth=2, max_leaves=None,
              min_child_weight=None, missing=nan, monotone_constraints=None,
              n_estimators=500, n_jobs=None, num_parallel_tree=None,
              predictor=None, random_state=0, ...)

#### feature importance

In [18]:
fi = pd.Series(xgb.feature_importances_)

fi.sort_values(ascending = False)

22    0.317715
7     0.191484
27    0.150696
20    0.077119
23    0.050489
11    0.037051
26    0.029967
21    0.025489
0     0.022118
13    0.016181
6     0.015403
1     0.013993
10    0.012032
8     0.011944
24    0.009557
29    0.005800
12    0.005580
28    0.005041
18    0.002342
16    0.000000
17    0.000000
19    0.000000
14    0.000000
9     0.000000
5     0.000000
4     0.000000
25    0.000000
3     0.000000
2     0.000000
15    0.000000
dtype: float32

In [19]:
pmc1(y_train, xgb.predict(X_train))
print('='*30)
pmc1(y_test, xgb.predict(X_test))

정확도(accuracy): 0.9953051643192489
재현율/민감도(recall): 0.9962546816479401
정밀도(precision): 0.9962546816479401
F1-score: 0.9962546816479401
정확도(accuracy): 0.951048951048951
재현율/민감도(recall): 0.9555555555555556
정밀도(precision): 0.9662921348314607
F1-score: 0.9608938547486034
