## 4. GBM(Gradient Boosting Machine)

부스팅 알고리즘은 여러 개의 약한 학습기(weak learner)를 순차적으로 학습-예측하면서 잘못 예측한 데이터에 가중치 부여를 통해 오류를 개선해 나가면서 학습하는 방식  
  
부스팅의 대표적인 구현은 `AdaBoost(Adaptive boosting)`와 `그래디언트 부스트`가 있다.  

`AdaBoost`는 오류 데이터에 가중치를 부여하면서 부스팅을 수행하는 대표적인 알고리즘  
개별 약한 학습기는 각각 가중치를 부여해 결합한다.  
  
`GBM(Gradient Boost Machine)`은 가중치 업데이트를 경사 하강법을 이용한다.  
경사 하강법 : **오류값 = 실제 값 - 예측 값**, 오류 값을 최소화하는 방향성을 가지고 반복적으로 가중치 값을 업데이트 하는 것  
즉, 반복 수행을 통해 오류를 최소화할 수 있도록 가중치의 업데이트 값을 도출하는 기법

In [8]:
import pandas as pd

def get_human_dataset():
    
    # 각 데이터 파일들은 공백으로 분리되어 있으므로 read_csv에서 공백 문자를 sep으로 할당.
    feature_name_df = pd.read_csv('data_set/human_activity/features.txt',sep='\s+',
                        header=None,names=['column_index','column_name'])
    # DataFrame에 피처명을 컬럼으로 부여하기 위해 리스트 객체로 다시 변환
    feature_name = feature_name_df.iloc[:, 1].values.tolist()
    
    # 학습 피처 데이터 셋과 테스트 피처 데이터을 DataFrame으로 로딩. 컬럼명은 feature_name 적용
    X_train = pd.read_csv('data_set/human_activity/train/X_train.txt',sep='\s+')
    X_train.columns = feature_name
    X_test = pd.read_csv('data_set/human_activity/test/X_test.txt',sep='\s+')
    X_test.columns = feature_name
    
    # 학습 레이블과 테스트 레이블 데이터을 DataFrame으로 로딩하고 컬럼명은 action으로 부여
    y_train = pd.read_csv('data_set/human_activity/train/y_train.txt',sep='\s+',names=['action'])
    y_test = pd.read_csv('data_set/human_activity/test/y_test.txt',sep='\s+',header=None,names=['action'])
    
    # 로드된 학습/테스트용 DataFrame을 모두 반환 
    return X_train, X_test, y_train, y_test

In [10]:
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.metrics import accuracy_score
import time
import warnings
warnings.filterwarnings('ignore')

X_train, X_test, y_train, y_test = get_human_dataset()

# GBM 수행 시간 측정을 위함. 시작 시간 설정.
start_time = time.time()

gb_clf = GradientBoostingClassifier(random_state=0)
gb_clf.fit(X_train , y_train)
gb_pred = gb_clf.predict(X_test)
gb_accuracy = accuracy_score(y_test, gb_pred)

print('GBM 정확도: {0:.4f}'.format(gb_accuracy))
print("GBM 수행 시간: {0:.1f} 초 ".format(time.time() - start_time))


GBM 정확도: 0.9067
GBM 수행 시간: 683.2 초 


앞의 랜덤 포레스트보다 나은 예측 성능을 나타낸다.  
하지만 수행 시간이 오래 걸리고, 하이퍼 파라미터 튜닝 시도도 더 필요하다.  
  
  
GBM은 약한 학습기의 순차적인 예측 오류 보정을 통해 학습을 수행하므로 멀티 CPU 코어 시스템을 사용하더라도 병렬처리가 지원되지 않아서 대용량 데이터의 경우 학습에 매우 많은 시간이 필요하다.  
  
  
반면 랜덤 포레스트는 상대적으로 빠른 수행 시간을 보장해주기 때문에 더 쉽게 예측 결과를 도출할 수 있다.

###  GBM 하이퍼 파라미터 및 튜닝

In [None]:
from sklearn.model_selection import GridSearchCV

params = {
    'n_estimators':[100, 500],
    'learning_rate' : [ 0.05, 0.1]
}
grid_cv = GridSearchCV(gb_clf , param_grid=params , cv=2 ,verbose=1)
grid_cv.fit(X_train , y_train)
print('최적 하이퍼 파라미터:\n', grid_cv.best_params_)
print('최고 예측 정확도: {0:.4f}'.format(grid_cv.best_score_))

In [None]:
# GridSearchCV를 이용하여 최적으로 학습된 estimator로 predict 수행. 
gb_pred = grid_cv.best_estimator_.predict(X_test)
gb_accuracy = accuracy_score(y_test, gb_pred)
print('GBM 정확도: {0:.4f}'.format(gb_accuracy))

GBM은 과적합에도 뛰어난 예측 성능을 가진 알고리즘이다. 하지만 수행 시간이 오래 걸리는 단점이 존재한다.