# Boosting

- 여러개의 약한 학습기를 "순차적" 으로 학습-예측
- 잘못 예측한 데이터나 학습트리에 가중치를 부여, 오류를 개선하며 학습수행


## Ada Boosting

- 반복적으로 예측오류값에 가중치를 수행하며 학습수행
- 바로이전의 오류값만을 사용하여 가중치를 계산함

<img alt="boosting" src="../images/ada-boosting.png" width="500px" />


## GBM (Gradient Boost Machine)

- Ada Boosting 과 유사
- 오류값의 가중치 업데이트시 경사하강법(Gradient Descent)을 이용함
- 오류값의 가중치가 지속적으로 누적됨
- 오류값 = 실제값 - 예측값
- h(x) = y - F(x)
- learning_rate: 가중치 부여비율로 가중치 부여시 곱할값이다. //하이퍼 파라미터

<img alt="gbm" src="../images/gbm.png" width="300px" />
     

In [4]:
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.metrics import accuracy_score
import time
import warnings
warnings.filterwarnings('ignore')

from modules import load_human_activity

In [5]:
X_train, X_test, y_train, y_test = load_human_activity.get_human_dataset()

start_time = time.time()

gb_clf = GradientBoostingClassifier(random_state=0)
gb_clf.fit(X_train, y_train)
gb_pred = gb_clf.predict(X_test)
gb_accuracy = accuracy_score(y_test, gb_pred)

print('GBM 정확도: {0:.4f}'.format(gb_accuracy))
print('GBM 수행시간: {0:.1f}'.format(time.time() - start_time))

GBM 정확도: 0.9393
GBM 수행시간: 533.4


In [6]:
from sklearn.model_selection import GridSearchCV

In [7]:
params = {
    'n_estimators': [100, 500],
    'learning_rate': [0.05, 0.1],
}

grid_cv = GridSearchCV(gb_clf, param_grid=params, cv=2, verbose=1)
grid_cv.fit(X_train, y_train)

print('최적 하이퍼 파라미터:\n', grid_cv.best_params_)
print('최고 예측정확도: {0:.4f}'.format(grid_cv.best_score_))

Fitting 2 folds for each of 4 candidates, totalling 8 fits
최적 하이퍼 파라미터:
 {'learning_rate': 0.05, 'n_estimators': 500}


AttributeError: 'GridSearchCV' object has no attribute 'best_socre_'

In [None]:
gb_prsklearn.model_selection.best_estimator_predict(X_test)
gb_accuracy = accuracy_score(y_test, gb_pred)
print('GBM 정확도: {0:.4f}'.format(gb_accuracy))