# 05. GBM(Gradient Boosting Machine)

<br>

# 1. GBM의 개요 및 실습

## 1.1 부스팅 알고리즘

- 여러 개의 약한 학습기(weak learner)를 순차적으로 학습-예측
- 잘못 예측한 데이터에 가중치 부여를 통해 오류를 개선해 나가면서 학습하는 방식  
  
  
- 부스팅의 대표적인 구현 : 에이다 부스트(AdaBoost), 그래디언트 부스트(GBM)

<br>

## 1.2 AdaBoost(Adaptive boosting)

- 오류 데이터에 가중치를 부여하면서 부스팅을 수행하는 대표적인 알고리즘

<br>

### 1.2.1 AdaBoost 학습 진행 방법

<div style="text-align: left; margin-left: 10px;">
    <img src="./images/Ch04/05/img001.jpg" width="600px"/>
</div>

- 피처 데이터 세트 : + 와 - 로 구성

**1) Step1**

- 첫 번째 약한 학습기(weak learner)가 **분류 기준 1**로 +와 -를 분류
- 동그라미로 표시된 $\oplus$ 데이터는 + 데이터가 잘못 분류된 오류 데이터

**2) Step2**

- 이 오류 데이터에 가중치 부여
- 가중치가 부여된 오류 + 데이터는 다음 약한 학습기가 더 잘 분류할 수 있게 크기가 커짐

**3) Step3**

- 두 번째 약한 학습기가 **분류 기준 2**로 +와 -를 분류
- 동그라미로 표시된 $\ominus$ 데이터는 - 데이터가 잘못 분류된 오류 데이터

**4) Step4**

- 잘못 불뉴된 오류 - 데이터에 대해 다음 약한 학습기가 잘 분류할 수 있게 더 큰 가중치를 부여

**5) Step5**

- 세 번째 약한 학습기가 **분류 기준 3**으로 +와 -를 분류하고 오류 데이터를 찾음

에이다부스트는 약한 학습기가 순차적으로 오류 값에 대해 가중치를 부여한 예측 결정 기준을 모두 결합해 예측을 수행  
마지막으로 맨 아래에는 첫 번째, 두 번째, 세 번째 약한 학습기를 모두 결합한 결과 예측  
개별 약한 학습기보다 훨씬 정확도가 높아졌음을 알 수 있다.

<br>

### 1.2.2 가중치 부여 방법

- 개별 약한 학습기는 다음 그림과 같이 각각 가중치를 부여해 결합

<div style="text-align: left; margin-left: 10px;">
    <img src="./images/Ch04/05/img002.jpg" width="600px"/>
</div>

- 첫 번째 학습기에 가중치 0.3 부여
- 두 번째 학습기에 가중치 0.5 부여
- 세 번째 학습기에 가중치 0.8 부여
- 세 가지를 모두 결합해 예측을 수행

<br>

## 1.3 GBM(Gradient Boosting Machine)

- 에이다부스트와 유사
- 가중치 업데이트를 **경사 하강법(Gradient Descent)**을 이용하는 것이 큰 차이    

### 1.3.1 경사 하강법(Gradient Descent)

- 오류값 = 실제값 - 예측값
- $y$ : 분류의 실제 결괏값
- $x_1, x_2, \cdots, x_n$ : 피처
- $F(x)$ : 피처들에 기반한 예측 함수  
$\Rightarrow$ 오류식 $h(x) = y - F(x)$
- 이 오류식을 최소화하는 방향성을 가지고 반복적으로 가중치를 업데이트 하는 것이 경사 하강법이다.
- **경사 하강법 : "반복 수행을 통해 오류를 최소화할 수 있도록 가중치의 업데이트 값을 도출하는 기법"**

<br>

### 1.3.2 `GradientBoostingClassifier`

- GBM은 CART 기반의 다른 알고리즘과 마찬가지로 분류와 회귀 모두 가능
- 사이킷런은 GBM 기반의 분류를 위해 `GradientBoostingClassifier` 클래스 제공

<br>

### 1.3.3 사용자 행동 데이터 세트 예측 분류 - GBM 이용

In [1]:
import pandas as pd

def get_human_dataset() :
    
    # 각 데이터 파일들을 공백으로 분리 -> read_csv에서 공백 문자를 sep으로 할당
    feature_name_df = pd.read_csv('./data/human_activity/features.txt', sep='\s+',
                                  header=None, names=['column_index', 'column_name'])
    
    # DataFrame에 피처명을 컬럼으로 부여하기 위해 리스트 객체로 변환
    feature_name = feature_name_df.iloc[:,1].values.tolist()
    
    # 학습 피처 데이터 세트와 테스트 피처 데이터를 DataFrame으로 로딩. 컬럼명은 feature_name 적용
    X_train = pd.read_csv('./data/human_activity/train/X_train.txt', sep='\s+', names=feature_name)
    X_test = pd.read_csv('./data/human_activity/test/X_test.txt', sep='\s+', names=feature_name)
    
    # 학습 레이블과 테스트 레이블 데이터를 DataFrame으로 로딩하고 컬럼명은 action으로 부여
    y_train = pd.read_csv('./data/human_activity/train/y_train.txt', sep='\s+', header=None, names=['action'])
    y_test = pd.read_csv('./data/human_activity/test/y_test.txt', sep='\s+', header=None, names=['action'])
    
    # 로드된 학습/테스트용 DataFrame을 모두 반환
    return X_train, X_test, y_train, y_test

In [2]:
from sklearn.ensemble import GradientBoostingClassifier
import time
from sklearn.metrics import accuracy_score
import warnings
warnings.filterwarnings('ignore')

X_train, X_test, y_train, y_test = get_human_dataset()

# GBM 수행 시간 측정을 위함. 시작 시간 설정
start_time = time.time()

gb_clf = GradientBoostingClassifier(random_state=0)
gb_clf.fit(X_train, y_train)
gb_pred = gb_clf.predict(X_test)
gb_accuracy = accuracy_score(y_test, gb_pred)

print('GBM 정확도 : {0:.4f}'.format(gb_accuracy))
print('GBM 수행 시간 : {0:.1f}초'.format(time.time() - start_time))

GBM 정확도 : 0.9386
GBM 수행 시간 : 174.7초


$\rightarrow$ 기본 하이퍼 파라미터 만으로 랜덤 포레스트보다 나은 예측 성능을 나타냄

<br>

### 1.3.4 GBM의 단점

- 일반적으로 GBM이 랜덤 포레스트보다 예측 성능이 조금 뛰어난 경우가 많다.
- 하지만 수행 시간이 오래 걸리고, 하이퍼 파라미터 튜닝 노력도 더 필요하다.
- 특히 수행 시간 문제는 GBM이 극복해야 할 중요한 과제이다.
- 사이킷런의 `GradientBoostingClassifier`는 약한 학습기의 **순차적**인 예측 오류 보정을 통해 학습을 수행  
$\rightarrow$ 멀티 CPU 코어 시스템을 사용하더라도 병렬 처리가 지원되지 않아 대용량 데이터 학습 시 매우 많은 시간이 필요  

<br>

# 2. GBM 하이퍼 파라미터 및 튜닝

## 2.1 대표적인 GBM 하이퍼 파라미터

1) 트리 기반 자체 파라미터(`n_estimators`, `max_depth`, `max_features`)  
2) `loss`  
3) `learning_rate`  
4) `n_estimators`  
5) `subsample`

<br>

### 2.1.1 `loss`

- 경사 하강법에서 사용할 **비용 함수** 지정
- 특별한 이유가 없으면 기본값인 `deviance`를 그대로 사용

<br>

### 2.1.2 `learning_rate`

- GBM이 학습을 진행할 때마다 적용하는 학습률
- Weak learner가 순차적으로 오류 값을 보정해 나가는 데 적용하는 계수
- 0~1 사이의 값을 지정
- 기본값 = 0.1  
  
  
- **너무 작은 값을 적용한 경우**
  - 업데이트 되는 값이 작아짐
  - 최소 오류 값을 찾아 예측 성능이 높아질 가능성이 높음
  - 그러나 많은 weak learner는 순차적인 반복이 필요  
  $\rightarrow$ 수행 시간이 오래 걸림  
  - 모든 weak learner의 반복이 완료되도 최소 오류 값을 찾지 못할 수 있음  
  
  
- **너무 큰 값을 적용한 경우**
  - 최소 오류 값을 찾지 못하고 그냥 지나쳐 버려 예측 성능이 떨어질 가능성이 높음
  - 빠른 수행이 가능  
  
  
- 위와 같은 특성 때문에 `learning_rate`는 `n_estimators`와 **상호 보완적**으로 조합해 사용함  
  
  
- `learning_rate`을 작게, `n_estimators`를 크게 한 경우
  - 더 이상 성능이 좋아지지 않는 한계점까지는 예측 성능이 조금씩 좋아질 수 있음
  - 하지만 수행 시간이 너무 오래 걸림
  - 예측 성능 역시 현격히 좋아지지는 않음

<br>

### 2.1.3 `n_estimators`

- weak learner의 개수
- weak learner가 순차적으로 오류를 보정 $\rightarrow$ 개수가 많을수록 예측 성능이 일정 수준까지는 좋아짐
- 하지만 개수가 많을수록 수행 시간이 오래 걸림
- 기본값 = 100

<br>

### 2.1.4 `subsample`

- weak learner가 학습에 사용하는 데이터의 **샘플링 비율**
- 기본값 = 1 (전체 학습 데이터를 기반으로 학습한다는 의미)
- 0.5이면 학습 데이터의 50%를 샘플링으로 사용
- 과적합이 염려되는 경우 `subsample`을 1보다 작은 값으로 설정

<br>

## 2.2 `GridSearchCV` 이용 하이퍼 파라미터 최적화

In [None]:
from sklearn.model_selection import GridSearchCV

params = {
    'n_estimators': [100, 500],
    'learning_rate': [0.05, 0.1]
}

grid_cv = GridSearchCV(gb_clf, param_grid=params, cv=2, verbose=1)
grid_cv.fit(X_train, y_train)
print('최적 하이퍼 파라미터 : \n', grid_cv.best_params_)
print('최고 예측 정확도 : {0:.4f}'.format(grid_cv.best_scores_))

Fitting 2 folds for each of 4 candidates, totalling 8 fits


[Parallel(n_jobs=1)]: Using backend SequentialBackend with 1 concurrent workers.
[Parallel(n_jobs=1)]: Done   8 out of   8 | elapsed: 15.9min finished


<br>

최적 하이퍼 파라미터를 사용해 테스트 데이터 세트에 적용해 예측 정확도 확인

In [None]:
# GridSearchCV를 이용해 최적으로 학습된 estimator로 예측 수행
gb_pred = grid_cv.best_estimator_.predict(X_test)
gb_accuracy = accuracy_score(y_test, gb_pred)
print('GBM 정확도 : {0:.4f}'.format(gb_accuracy))

<br>

GBM은 과적합에도 강한 뛰어난 예측 성능을 가진 알고리즘이다.  
하지만 수행 시간이 오래 걸린다는 단점이 있다.  
많은 알고리즘이 GBM을 기반으로 새롭게 만들어지고 있음  
  
  
가장 각광 받고 있는 두 개의 그래디언트 부스팅 기반 ML 패키지
- XGBoost
- LightGBM