# GBM
####    Gradient Boosting Machine
####    DecisionTree --> Ensemble
####    Ensemble 종류와 그를 사용하는 ML
####    1) Bagging 알고리즘 --> Random Forest Machine
####    2) Boosting 알고리즘 --> Gradient Boosting Machine

In [None]:
'''
Gradient Machine 특징
::
모델을 학습하고 결과를 예측
Week Learner(잘못된 학습결과)에 따라서
데이터(속성)의 가중치를 조절해 가며 학습하는 알고리즘

이때 속성들의 가중치를 업데이트하는 방법으로 
경사하강법(Gradient Descent) 사용된다
이때 미분, 편미분이 사용된다

그렇기 때문에 Gradient Machine에서는 이전에 볼 수 없었던
Hyper Parameter 값들도 늘어난다
그 중에 가장 대표적인 Hyper Parameter는
learning_rate
'''

In [3]:
from sklearn.datasets import load_breast_cancer
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

## 1. Data Load

In [4]:
cancer = load_breast_cancer()

## 2. split

In [5]:
X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target)

## 3. Model 생성 및 학습

In [9]:
gbc=GradientBoostingClassifier(random_state=0)
gbc.fit(X_train,y_train)


GradientBoostingClassifier(random_state=0)

## 4. predict

In [10]:
print('훈련세트 데이터 정확도 : {:3f}' .format(gbc.score(X_train, y_train))) # 1.0
print('테스트 데이터 정확도 : {:3f}' .format(gbc.score(X_test, y_test))) # 0.965

훈련세트 데이터 정확도 : 1.000000
테스트 데이터 정확도 : 0.965035


In [None]:
# Overfitting에 이정도 규모에서 97% 정도는 나와야 함

## 5. Hyper Parameter 조정

In [23]:
gbc=GradientBoostingClassifier(random_state=0, learning_rate=0.01)
gbc.fit(X_train,y_train)

print('훈련세트 데이터 정확도 : {:3f}' .format(gbc.score(X_train, y_train))) # 1.0
print('테스트 데이터 정확도 : {:3f}' .format(gbc.score(X_test, y_test))) # 0.965

훈련세트 데이터 정확도 : 0.995305
테스트 데이터 정확도 : 0.930070


## Grid Search

In [None]:
'''
우리가 지정해준 몇 가지 잠재적인 parameter 후보군들의 조합 중에서
가장 Best의 조합을 찾아준다

다시 말해서
우리가 하나하나 일일이 parameter들을 대입해 가며
작업하는 부분을 Grid Search가 대신 해준다

이 라이브러리를 sklearn에서 제공한다

하지만 Grid Search의 가장 큰 단점은
지정해준 parameter 후보군의 개수에 비례해 시간이 늘어나기 때문에
생각보다 매우 긴 시간이 소요된다

Grid Search는 sklearn 패키지에서 model_selection에 있다
'''