### GBM(Gradient Boosting Machine)
    - DecisionTree -> Ensemble
    1) Bagging 알고리즘 -> RandomForest Machine
    2) Boosting 알고리즘 -> GradientBoosting Machine
    
    * Gradient Boost Machine
        모델을 합슥하고 결과를 예측. 이때 잘못 예측한 결과에 따라서 데이터(속성,feature)의 가중치를 조절해가면서
        학습하는 알고리즘이 구현되어있다. 
        이때, 속성들의 가중치를 업데이트 하는 방법으로 경사하강법(Gradient Descent)가 사용됨
        이때 경사하강법을 사용하려면 편미분이 사용됨
        
        Gradient Boost Machine에서는 이전에 볼 수 없었던, Hyper Parameter값들도 많이 증가한다.
        그 중에 가장 대표적인 Hyper Parameter는 learning_rate(학습 속도를 조절하는 매개변수)이다.

In [1]:
from sklearn.datasets import load_breast_cancer
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
import numpy as np

In [2]:
cancer = load_breast_cancer()

In [3]:
X_train,X_test,y_train,y_test = train_test_split(cancer.data,cancer.target)

In [10]:
# gbc=GradientBoostingClassifier(random_state=0) # 1.0  |  0.93
# gbc=GradientBoostingClassifier(random_state=0,max_depth=1) # max_depth=1 - .995  | .930
gbc=GradientBoostingClassifier(random_state=0,learning_rate=0.01) # learing_rate=0.01  .990  |  .937

gbc.fit(X_train,y_train)

print('*'*50)
print('Training Data Set Accuracy: {:3f}'.format(gbc.score(X_train,y_train)))
print('Test Data Set Accuracy: {:3f}'.format(gbc.score(X_test,y_test)))

**************************************************
Training Data Set Accuracy: 0.990610
Test Data Set Accuracy: 0.930070


### Grid Search
    - 우리가 지정해준 몇 가지의 잠재적인 파라미터 후보군들의 조합중에서 가장 좋은 조합을 찾아줌
    - 일일이 파라미터들을 대입해 가면서 작업하는 부분을 Grid Search가 대신 해줌.
    
    - 사이언티스트가 지정해준 하이퍼파라미터 후보군의 갯수에 비례하여 처리시간이 늘어나기 때문에 생각보다 매우 긴 시간이 소요됨.
    - sklearn.model_selction에 속해있음.

In [11]:
from sklearn.model_selection import GridSearchCV

In [12]:
param_grid={
    'n_estimators':[100,150,200,250],
    'max_depth':[4,6,9],
    'learning_rate':[0.1,0.01,0.001]
}

In [13]:
gbmodel = GradientBoostingClassifier()

#모델,parameters,사용할 cpu의 개수
grid_search = GridSearchCV(gbmodel,
                          param_grid,
                          n_jobs=-1)

grid_search.fit(X_train,y_train)

GridSearchCV(estimator=GradientBoostingClassifier(), n_jobs=-1,
             param_grid={'learning_rate': [0.1, 0.01, 0.001],
                         'max_depth': [4, 6, 9],
                         'n_estimators': [100, 150, 200, 250]})

In [14]:
grid_search.best_params_

{'learning_rate': 0.1, 'max_depth': 4, 'n_estimators': 200}

### 새로운 모델 생성

In [16]:
newmodel = GradientBoostingClassifier(random_state=100,learning_rate=0.1,n_estimators=150)
newmodel.fit(X_train,y_train)

train_score = newmodel.score(X_train,y_train)
test_score = newmodel.score(X_test,y_test)
print("Train score: ",train_score)
print("Test Score: ",test_score)

Train score:  1.0
Test Score:  0.9440559440559441
