# Ensemble - Boosting Model
부스팅(Boosting)이란 단순하고 약한 학습기(Weak Learner)들를 결합해서 보다 정확하고 강력한 학습기(Strong Learner)를 만드는 방식.  
정확도가 낮은 하나의 모델을 만들어 학습 시킨뒤, 그 모델의 예측 오류는 두 번째 모델이 보완한다. 이 두 모델을 합치면 처음보다는 정확한 모델이 만들어 진다. 합쳐진 모델의 예측 오류는 다음 모델에서 보완하여 계속 더하는 과정을 반복한다. 즉 **약한 학습기들은 앞 학습기가 만든 오류를 줄이는 방향으로 학습한다**

# GradientBoosting
- 개별 모델로 Decision Tree 를 사용한다. 
- depth가 깊지 않은 트리를 많이 연결해서 이전 트리의 오차를 보정해 나가는 방식으로 실행한다.
- 오차를 보정할 때 경사하강법(Gradient descent)을 사용한다.
- 얕은 트리를 많이 연결하여 각각의 트리가 데이터의 일부에 대해 예측을 잘 수행하도록 하고 그런 트리들이 모여 전체 성능을 높이는 것이 기본 아이디어.
- 분류와 회귀 둘다 지원하는 모델 (GradientBoostingClassification, GrandientBoostingRegressor)
- 훈련시간이 많이 걸리고, 트리기반 모델의 특성상 희소한 고차원 데이터에서는 성능이 안 좋은 단점이 있다.

## GradientBoosting 학습 및 추론 프로세스

![image.png](attachment:image.png)

![image-2.png](attachment:image-2.png)

![image.png](attachment:image.png)

![image-2.png](attachment:image-2.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

이미지 참조: https://www.youtube.com/watch?v=3CC4N4z3GJc&list=PLblh5JKOoLUICTaGLRoHQDuF_7q2GfuJF&index=49

### 주요 파라미터
- **Decision Tree 의 가지치기 관련 매개변수**
    - 각각의 decision tree가 복잡한 모델이 되지 않도록 한다. 

- **learning rate**
    - 이전 decision tree의 오차를 얼마나 강하게 보정할 것인지 제어하는 값. 
    - 값이 크면 보정을 강하게 하여 복잡한 모델을 만든다. 학습데이터의 정확도는 올라가지만 과대적합이 날 수있다. 
    - 값을 작게 잡으면 보정을 약하게 하여 모델의 복잡도를 줄인다. 과대적합을 줄일 수 있지만 성능 자체가 낮아질 수있다.
    - 기본값 : 0.1

- **n_estimators**
    - decision tree의 개수 지정. 많을 수록 복잡한 모델이 된다.

- **n_iter_no_change, validation_fraction**
    - validation_fraction에 지정한 비율만큼 n_iter_no_change에 지정한 반복 횟수동안 검증점수가 좋아 지지 않으면 훈련을 조기 종료한다.

- **보통 max_depth를 낮춰 개별 decision tree의 복잡도를 낮춘다. 보통 5가 넘지 않게 설정한다. 그리고 n_estimators를 가용시간, 메모리 한도에 맞춰 크게 설정하고 적절한 learning_rate을 찾는다.**

### 예제

In [None]:
%%writefile metrics.py

# %%writefile 파일경로 - cell의 내용을 파일로 저장한다. 반드시 첫줄에 작성한다.

from sklearn.metrics import accuracy_score, recall_score, precision_score, f1_score
def print_classification_metrics(y, pred, title=None):
    acc = accuracy_score(y, pred)
    recall = recall_score(y, pred)
    precision = precision_score(y, pred)
    f1 = f1_score(y, pred)   
    
    if title:
        print(title)
    print(f'정확도: {acc}, recall: {recall}, Precision: {precision}, f1점수: {f1}')

##### import

In [None]:
from metrics import print_classification_metrics
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split

##### 위스콘신 유방암 데이터 loading, train/testset 분리

In [None]:
data = load_breast_cancer()
X, y = data['data'], data['target']

X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state=0)

##### GradientBoostingClassifier 모델 생성, 학습, 평가

In [None]:
from sklearn.ensemble import GradientBoostingClassifier

gb = GradientBoostingClassifier(random_state=0)

gb.fit(X_train, y_train)

pred_train = gb.predict(X_train)
pred_test = gb.predict(X_test)

print_classification_metrics(y_train, pred_train, title='Train')
print_classification_metrics(y_test, pred_test, title='Test')

##### 하이퍼파라미터 변경에 따른 성능 비교

In [None]:
gb = GradientBoostingClassifier(random_state=0, max_depth=1) #learning_rate: 0.1

gb.fit(X_train, y_train)
pred_train = gb.predict(X_train)
pred_test = gb.predict(X_test)

print_classification_metrics(y_train, pred_train, title='Train')
print_classification_metrics(y_test, pred_test, title='Test')

In [None]:
gb = GradientBoostingClassifier(random_state=0, max_depth=1, learning_rate=0.1, n_estimators=1000) #learning_rate 기본값: 0.1 => 0.001 (과소적합)

gb.fit(X_train, y_train)
pred_train = gb.predict(X_train)
pred_test = gb.predict(X_test)

print_classification_metrics(y_train, pred_train, title='Train')
print_classification_metrics(y_test, pred_test, title='Test')

##### Feature 중요도를 조회

In [None]:
gb.feature_importances_

In [None]:
import pandas as pd
fi = pd.Series(gb.feature_importances_, index=data['feature_names'])
fi.sort_values(ascending=False)

In [None]:
fi.sort_values().plot(kind='barh', figsize=(8,6))

### GridSearchCV 이용해 최적의 하이퍼파라미터 찾기

##### RandomizedSearchCV 생성

In [None]:
from sklearn.model_selection import RandomizedSearchCV

param = {
    'n_estimators':range(500, 1001, 100),
    'learning_rate':[0.001, 0.05, 0.01, 0.1, 0.5], 
    'max_depth':[1,2,3],
    'subsample':[0.5, 0.7, 0.9, 1]
}

rs = RandomizedSearchCV(GradientBoostingClassifier(random_state=0),
                        param,
                        cv=4, 
                        n_iter=60, 
                        scoring='accuracy', 
                        n_jobs=-1)

##### 학습, 평가

In [None]:
rs.fit(X_train, y_train)

##### 결과확인

In [None]:
result_df = pd.DataFrame(rs.cv_results_)

In [None]:
result_df.sort_values('rank_test_score').head()

In [None]:
rs.best_params_

In [None]:
rs.best_score_

##### best estimator 조회 및 Test set 최종평가

In [None]:
best_model = rs.best_estimator_
pred_test = best_model.predict(X_test)

In [None]:
print_classification_metrics(y_test, pred_test, "best_model")

##### Feature importance

In [None]:
import numpy as np
fi = pd.Series(best_model.feature_importances_, index=data['feature_names'])
fi.sort_values(ascending=False)

In [None]:
fi.sort_values().plot(kind='barh', figsize=(8,7))

# XGBoost(Extra Gradient Boost)
- https://xgboost.readthedocs.io/ 
- Gradient Boost 알고리즘을 기반으로 개선해서 분산환경에서도 실행할 수 있도록 구현 나온 모델.
- Gradient Boost의 단점인 느린수행시간을 해결하고 과적합을 제어할 수 있는 규제들을 제공하여 성능을 높임.
- 회귀와 분류 모두 지원한다.
- 캐글 경진대회에서 상위에 입상한 데이터 과학자들이 사용한 것을 알려저 유명해짐.
- 두가지 개발 방법
    - [Scikit-learn 래퍼 XGBoost 모듈 사용](https://xgboost.readthedocs.io/en/latest/python/python_api.html#module-xgboost.sklearn)
    - [파이썬 래퍼 XGBoost 모듈 사용](https://xgboost.readthedocs.io/en/latest/python/python_api.html#module-xgboost.training)
- 설치
``
conda install -y -c anaconda py-xgboost
``

## Scikit-learn 래퍼 XGBoost
- XGBoost를 Scikit-learn프레임워크와 연동할 수 있도록 개발됨.
- Scikit-learn의 Estimator들과 동일한 패턴으로 코드를 작성할 수 있다.
- GridSearchCV나 Pipeline 등 Scikit-learn이 제공하는 다양한 유틸리티들을 사용할 수 있다.
- XGBClassifier: 분류
- XGBRegressor : 회귀 

### 주요 매개변수
- learning_rate : 학습률, 보통 0.01 ~ 0.2 사이의 값 사용
- n_estimators : week tree 개수
- Decision Tree관련 하이퍼파라미터들

### 예제

In [None]:
from xgboost import XGBClassifier

xgb = XGBClassifier(n_estimators=500, learning_rate=0.01, max_depth=2, random_state=0)

In [None]:
xgb.fit(X_train, y_train)

In [None]:
pred_train = xgb.predict(X_train)
pred_test = xgb.predict(X_test)

In [None]:
print_classification_metrics(y_train, pred_train, "XGB Train")
print_classification_metrics(y_test, pred_test, 'XGB Test')

##### feature importance

In [None]:
pd.Series(xgb.feature_importances_, index=data.feature_names).sort_values().plot(kind='barh', figsize=(10,7))