### GBM(Gradient Boosting Machine)

    DecisionTree >> Ensemble
    Ensemble (크게 2가지)
        [1] Baggin 알고리즘 >> RandomForest Machine
        [2] Boosting 알고리즘 >> GradientBoosting Machine
        머신이 강해질수록 하이퍼 파라미터 갯수들도 늘어난다.
        하이퍼파라미터 값은 경험에 의한 인간이 직접 부여해줘야 한다.
        성능에 막대한 영향을 미친다.

In [2]:
from sklearn.datasets import load_iris, load_breast_cancer
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
import numpy as np

In [39]:
# 암관련된 데이터를 가져온다.
cancer = load_breast_cancer()

# train 데이터와 test할 데이터를 나눈다.
X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target)

In [49]:
# GradientBoostingClassifier로 모델을선언한다
gbm = GradientBoostingClassifier(random_state=0)

# 모델에 트레이닝 데이터로 fitting(학습)을 시켜준다.
gbm.fit(X_train, y_train)

# 트레이닝과 테스트 점수를 구해본다.
train_score = gbm.score(X_train, y_train)
test_score = gbm.score(X_test, y_test)
print(f' 훈련 : {train_score}, 테스트 : {test_score}')

# 결과 값에서 훈련값이 1.0이라고 나온건 overfitting 된것이다.
# overfitting은 학습과정에서 너무 학습을 많이 해버려서 모든 문제를 외워버린것이다.
# 즉, 수동적인 학습이 되어버린것이다.
# 그렇게 되면 테스트할때 성능저하가 일어나서
# 미지의 값을 넣었을때 능동적이게 데이터를 예측 할 수 없게 된다. 

 훈련 : 1.0, 테스트 : 0.9790209790209791


In [52]:
# max_depth하이퍼 파라미터를 넣어서 뎁스에 제한을 걸어 주어봤다.
gbm = GradientBoostingClassifier(random_state=0, max_depth=3)
gbm.fit(X_train, y_train)
train_score = gbm.score(X_train, y_train)
test_score = gbm.score(X_test, y_test)
print(f' 훈련 : {train_score}, 테스트 : {test_score}')

 훈련 : 1.0, 테스트 : 0.9790209790209791


In [50]:
gbm = GradientBoostingClassifier(random_state=0, max_depth=4)
gbm.fit(X_train, y_train)
train_score = gbm.score(X_train, y_train)
test_score = gbm.score(X_test, y_test)
print(f' 훈련 : {train_score}, 테스트 : {test_score}')

 훈련 : 1.0, 테스트 : 0.993006993006993


In [51]:
# 일부러 learning_rate값을 낮게주어서 훈련속도를 낮춰 주었다.
# 이와같은 경우는 underfitting되었다고 볼 수 있다.
gbm = GradientBoostingClassifier(random_state=0, learning_rate=0.001)
gbm.fit(X_train, y_train)
train_score = gbm.score(X_train, y_train)
test_score = gbm.score(X_test, y_test)
print(f' 훈련 : {train_score}, 테스트 : {test_score}')

 훈련 : 0.6267605633802817, 테스트 : 0.6293706293706294
