## 05 GBM(Gradient Boosting Machine)

### 부스팅(Boosting)

+ 부스팅 알고리즘은 여러 개의 약한 학습기(weak learner)를 순차적으로 학습-예측하면서 잘못 예측한 데이터나 학습 트리에 가중치 부여를 통해 오류를 개선해 나가면서 학습하는 방식이다.

+ 부스팅의 대표적인 구현은 AdaBoost(Adaptive boosting)와 그래디언트 부스트가 있다. 

### 에이다 부스팅의 학습/예측 프로세스

![에이다 부스팅](https://user-images.githubusercontent.com/98722581/168078101-cc42f8dc-8439-42f8-8e8c-81d5398e0f04.png)

+ Step1은 첫 번째 약한 학습기(weak learner)가 분류 기준 1로 +와 -를 분류한 것이다. 동그라미로 표시된 +데이터는 +데이터가 잘못 분류된 오류 데이터이다.

+ Step 2에서는 이 오류데이터에 대해서 가중치 값을 부여한다. 가중치가 부여된 오류 + 데이터는 다음 약한 학습기가 더 잘 분류할 수 있게 크기가 커졌다.

+ Step 3은 두 번째 약한 학습기가 분류 기준 2로 +와 -를 분류했다. 마찬가지로 동그라미로 표시된 -데이터는 잘못 분류된 오류 데이터이다.

+ Step 4에서는 잘못 분류된 이 - 오류 데이터에 대해 다음 약한 학습기가 잘 분류할 수 있게 더 큰 가중치를 부여한다.

+ Step 5는 세 번째 약한 학습기가 분류 기준 3으로 +와 -를 분류하고 오류 데이터를 찾는다. 에이다부스트는 이렇게 약한 학습기가 순차적으로 오류 값에 대해 가중치를 부여한 예측 결정 기준을 모두 결합헤 예측을 수행한다.

+ 마지막으로 맨 아래에는 첫 번째, 두 번째, 세 번째 약한 학습기를 모두 결합한 결과 예측이다. 개별 약한 삭습기보다 훨씬 정확도가 높아졌음을 알 수 있다.

### GBM(Gradient Boost Machine) 개요

GBM(Gradient Boost Machine)도 에이다부스트와 유사한, 가중치 업데이트를 경사 하강법 (Gradient Descent)을 이용하는 것이 큰차이이다. 

오류 값은 실제 값 - 예측값이다. 분류의 실제 결괏값을 y, 피처를 x1, x2, ..., xn, 그리고 이 피처에 기반한 예측 함수를 F(x) 함수라고 하면 오류식 h(x) = y - F(x)이 된다. 이 오류식 h(x) = y - F(x)를 최소화하는 방향성을 가지고 반복적으로 가중치 값을 업데이트하는 것이 경사 하강법(Gradient Descent)이다.

경사 하강법은 반복 수행을 통해 오류를 최소화할 수 있도록 가중치의 업데이트 값을 도출하는 기법으로서 머신러닝에서 중요한 기법 중 하나이다.

In [None]:
from sklearn.ensemble import GradientBoostingClassifier
import time
import warnings
warnings.filterwarnings('ignore')

X_train, X_test, y_train, y_test = get_human_dataset()

# GBM 수행 시간 측정을 위함. 시작 시간 설정.
start_time = time.time()

gb_clf = GradientBoostingClassifier(random_state=0)
gb_clf.fit(X_train , y_train)
gb_pred = gb_clf.predict(X_test)
gb_accuracy = accuracy_score(y_test, gb_pred)

print('GBM 정확도: {0:.4f}'.format(gb_accuracy))
print("GBM 수행 시간: {0:.1f} 초 ".format(time.time() - start_time))

KeyboardInterrupt: 

### 사이킷런 GBM 주요 하이퍼 파라미터 및 튜닝

__사이킷런은 GBM 분류를 위해 GradientBoostingClassifier 클래스를 제공한다.__

+ __loss__ : 경사 하강법에서 사용할 비용 함수를 지정한다. 특별한 이유가 없으면 기본값인 'deviance'를 그대로 적용한다.

+ __learning_rate__ : GBM이 학습을 진행할 때마다 적용하는 학습률이다. Weak learner가 순차적으로 오류 값을 보정해 나가는데 적용하는 계수이다. 0~1 사이의 값을 지정할 수 있으며 기본값은 0.1이다. 너무 작은 값을 적용하면 업데이트 되는 값이 작아져서 최소 오류 값을 찾아 예측 서능이 높아질 가능성이 높다. 하지만 많은 weak_learner는 순차적인 반복이 필요해서 수행 시간이 오래 걸리고, 또 너무 작게 설정하면 모든 weak learner의 반복이 완료돼도 최소 율 값을 차지 못할 수 있다. 반대로 큰 값을 적용하면 최소 오류 값을 차지 못하고 그냥 지나쳐 버려 예측 성능이 떨어질 가능성이 높아지지만, 빠른 수행이 가능하다.

+ __n_estimators__ : weak learner의 개수이다. weak_learner가 순차적으로 오류를 보정하므로 개수가 많을 수록 예측 성능이 일정 수준까지 좋아질 수 있다. 하지만 개수가 많을 수록 수행 시간이 오래 걸린다. 기본값은 100이다.

+ __subsample__ : weak learner가 학습에 사용하는 데이터의 샘플링 비요이다. 기본값은 1이며, 이는 전체 학습 데이터를 기반으로 학습한다는 의미이다. (0.5이면 학습 데이터의 50%) 과적합이 염려되는 경우 subsample을 1보다 작은 값으로 설정한다.