### GBM(Gradient Boosting Machine)
- 경사 하강법
        반복 수행을 통해 오류를 최소화할 수 있또록 가중치의 업데이트 값을 도출하는 기법
        

In [1]:
import pandas as pd

def get_human_dataset():
    
    # 각 데이터 파일들은 공백으로 분리되어 이씅므로 read_csv에서 공백 문자를 sep으로 할당.
    feature_name_df = pd.read_csv('./human_activity/features.txt', sep = '\s+',
                                 header=None, names=['column_index', 'column_name'])
    # DataFrame에 피처명을 칼럼으로 부여하기 위해 리스트 객체로 다시 변환
    feature_name = feature_name_df.iloc[:, 1].values.tolist()
    
    # 학습 피처 데이터 세트와 테스트 피처 데이터를 DataFrame으로 로딩. 칼럼명은 feature_name 적용
    X_train = pd.read_csv('./human_activity/train/X_train.txt', sep='\s+', names = feature_name)
    X_test = pd.read_csv('./human_activity/test/X_test.txt', sep='\s+', names = feature_name)
    
    # 학습 레이블과 테스트 레이블 데이터를 DataFrame으로 로딩하고 칼럼명은 action 으로 부여
    y_train = pd.read_csv('./human_activity/train/y_train.txt', sep='\s+', header=None, names=['action'])
    y_test = pd.read_csv('./human_activity/test/y_test.txt', sep='\s+', header=None, names=['action'])
    
    # 로드된 학습/테스트용 DataFrame을 모두 반환
    return X_train, X_test, y_train, y_test

In [8]:
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.metrics import accuracy_score
import time
import warnings
warnings.filterwarnings('ignore')

X_train, X_test, y_train, y_test = get_human_dataset()

# GBM 수행 시간 측정을 위한 시작 시간 설정
start_time = time.time()
gb_clf = GradientBoostingClassifier(random_state=0)
gb_clf.fit(X_train, y_train)
gb_pred = gb_clf.predict(X_test)
gb_accuracy = accuracy_score(y_test, gb_pred)

print('GBM 정확도 : {:.4f}'.format(gb_accuracy))
print('GBM 수행 시간 : {:.1f}초'.format(time.time() - start_time))

GBM 정확도 : 0.9376
GBM 수행 시간 : 201.5초


- 93.76%로 이전 랜덤포레스트 정확도인 91.65%보다 정확도가 높다.
- 일반적으로 GBM이 랜덤포레스트보다 예측 성능이 조금 뛰어난 경우가 많다.
- 하지만 수행시간이 너무나도 길다.

### GBM 하이퍼 파라미터 및 튜닝
- GBM 을 하이퍼 파라미터 튜닝을 하는데는 많은 시간이 걸린다.
- n_estimators 는 100, 500
- learning rate는 0.05, 0.1
- 교차 검증 세트는 2개만

In [10]:
from sklearn.model_selection import GridSearchCV

params ={
    'n_estimators':[100,500],
    'learning_rate':[0.05, 0.1]
}

grid_cv = GridSearchCV(gb_clf, param_grid=params, cv=2, verbose=1)
grid_cv.fit(X_train, y_train)
print('최적 하이퍼 파라미터:\n', grid_cv.best_params_)
print('최고 예측 정확도:{:.4f}'.format(grid_cv.best_score_))

In [11]:
# GridSearchCV를 이용해 최적으로 학습된 estimator로 예측 수행.
gb_pred = grid_cv.best_estimator_.predict(X_test)
gb_accuracy = accuracy_score(y_test, gb_pred)
print('GBM 정확도 : {:.4f}'.format(gb_accuracy))

- 시간이 너무 오래걸려 실행하지 못했음. 저자에 따르면 1시간 정도 시간이 걸린다고함.
- 책에 있는 내용을 빌리면 94.1% 정확도가 나온다.
- GBM 은 과적합에도 강한 뛰어난 예측 성능을 보인다.
- 하지만 수행 시간이 오래 걸린다는 치명적인 단점이 있다.