https://lsjsj92.tistory.com/522?category=853217

## 부스팅(boosting)
예측한 분류기가 예측을 틀린 부분에 있어서 가중치를 부여
ex) AdaBoost, gradient boosting

- AdaBoost

맞추지 못하는 부분에 있어서 가중치를 부여함, 마지막에 모든 것을 결합한 예측 모델을 만들어냄


![image of ](https://miro.medium.com/max/1700/0*paPv7vXuq4eBHZY7.png)

- Gradient Boosting

비슷하나 가중치 업데이트를 gradient desent 경사 하강법으로 진행한다. (실제값 - 예측값)을 최소화 하는 방향성으로 가중치를 업데이트
sklearn의 GB는 알고리즘 자체의 학습시간도 오래걸리고 병렬처리도 안되어 더욱 더 느리다. 하이퍼 파라미터 튜닝도 오래걸리는 편
RF와 하이퍼 파라미터는 똑같음

- 추가 hyper parameter
 1. loss: GB에서 사용할 비용함수, 특별한 이유가 없으면 default 인 deviance를 적용
 2. learning_rate: 학습률, 적으면 학습이 더디고, 많으면 너무 뛰수 있다. 보통 0.05 ~ 0.2 사이의 값을 사용
 3. n_estimators: weak learner의 갯수. 기본 값은 100이고 많으면 모델 성능이 좋아질 수 있지만 시간 소모가 크다.
 4. subsample: weak learner가 학습에 사용하는 데이터의 샘플링의 비율 기본 값은 1이며 전체 학습 데이터를 기반으로 사용. 0.5면 50%만 사용


- XGBoost(eXtra Gradient Boost)

GBM을 기반으로 하고 있지만 좀더 빠르며 overfitting의 regularization 문제를 해결

In [13]:
import pandas as pd
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.metrics  import accuracy_score
from sklearn.model_selection import GridSearchCV
import time

In [3]:
def get_human_dataset():
    feature_name_df = pd.read_csv("./features.txt", sep ='\s+', header = None, names =['column_index','column_name'])
    feature_name = feature_name_df.iloc[:,1].values.tolist()
    
    X_train = pd.read_csv('./X_train.txt', sep ='\s+', names =feature_name)
    X_test = pd.read_csv('./X_test.txt', sep = '\s+', names = feature_name)
    y_train = pd.read_csv('./y_train.txt', sep = '\s+', header = None, names =['action'])
    y_test = pd.read_csv('./y_test.txt', sep = '\s+', header = None, names = ['action'])
    return X_train, X_test, y_train, y_test
X_train, X_test, y_train, y_test = get_human_dataset()

  return _read(filepath_or_buffer, kwds)


In [4]:
start_time = time.time()

In [20]:
gb_clf = GradientBoostingClassifier(random_state = 0)
gb_clf.fit(X_train, y_train.values.ravel()) #ravel(): y_train을 1d array로 펴주는 함수
gb_pred = gb_clf.predict(X_test)
acc = accuracy_score(y_test, gb_pred)
print("정확도 : {0:.4f}".format(acc))
print("시간 ", time.time() - start_time)

정확도 : 0.9376
시간  2094.0707857608795


Grid Search를 활용하여 튜닝. 시간이 오래걸리기 때문에 n_estimator와 learning_rate만 해본다.

In [21]:
params = {
    'n_estimators':[100,300],
    'learning_rate' : [0.05,0.1]
}

grid_cv = GridSearchCV(gb_clf, param_grid = params, cv = 2, verbose = 1)
grid_cv.fit(X_train, y_train.values.ravel())
print('최고 파라미터 :', grid_cv.best_params_)
print('최고 예측 정확도 :', grid_cv.best_score_)

Fitting 2 folds for each of 4 candidates, totalling 8 fits


[Parallel(n_jobs=1)]: Using backend SequentialBackend with 1 concurrent workers.
[Parallel(n_jobs=1)]: Done   8 out of   8 | elapsed: 10.5min finished


최고 파라미터 : {'learning_rate': 0.05, 'n_estimators': 300}
최고 예측 정확도 : 0.9008433079434167
