### 하이퍼파라미터
* n_estimators
    - 학습기의 수 설정.
    - 많으면 예측률은 올라가나 시간이 오래걸릴 수 있음.
* learning_rate
    - GBM이 학습을 진행할 때마다 적용하는 학습률로서 순차적으로 오류 값을 보정해가는 데 적용하는 수 이다
    - 0~1 사이의 값으로 지정한다. default=0.1
    - 너무 작은 값이면 업데이트를 너무 많이 하게 되어 꼼꼼하지만 시간이 오래 걸린다
    - 너무 큰 값이면 최소 오류 값을 찾지 못할 수 있지만 빠르다
* subsample
    - 학습기가 학습에 사용하는 데이터 샘플의 비율(0~1). default=1.
    - 0.5일경우 50%학습데이터를 사용한다는 것이다
    - 과대적합을 줄이려면 작은 값을 적용해야 한다.

In [2]:
from sklearn.model_selection import train_test_split
from sklearn.ensemble import GradientBoostingClassifier
import pandas as pd

df = pd.read_csv('data/titanic_cleaning.csv')
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Sex,Age,SibSp,Parch,Fare
0,1,0,3,0,22.0,1,0,7.25
1,2,1,1,1,38.0,1,0,71.2833
2,3,1,3,1,26.0,0,0,7.925
3,4,1,1,1,35.0,1,0,53.1
4,5,0,3,0,35.0,0,0,8.05


In [3]:
features = ['Pclass', 'Sex', 'Age', 'SibSp', 'Parch',
       'Fare']
label = 'Survived'
X , y = df[features], df[label]

In [4]:
X_train, X_test, y_train, y_test = \
                    train_test_split(X,y, test_size=0.2)

gbc = GradientBoostingClassifier()
gbc.fit(X_train, y_train)

print('train : ', gbc.score(X_train, y_train))
print('test : ', gbc.score(X_test, y_test))

train :  0.8974719101123596
test :  0.8268156424581006


In [5]:
#보정은 10%일때마다 보정, 학습기 수 100, 학습데이터 90%
gbc = GradientBoostingClassifier(learning_rate =0.1,
                                n_estimators=100,
                                subsample=0.9)
gbc.fit(X_train, y_train)

print('train : ', gbc.score(X_train, y_train))
print('test : ', gbc.score(X_test, y_test))

train :  0.9101123595505618
test :  0.8268156424581006


In [7]:
import numpy as np
# range(1,10,2) 정수값 배열을 만듬
np.arange(0.1,1,0.2)#실수값 배열로 만듬

array([0.1, 0.3, 0.5, 0.7, 0.9])

In [8]:
from sklearn.model_selection import GridSearchCV

params = {
    'learning_rate': np.arange(0.1,1,0.2),
    'n_estimators': [100,300,500,700],
    'subsample': np.arange(0.1,1,0.2)
}

gbc = GradientBoostingClassifier()
grid_cv =GridSearchCV(gbc, param_grid=params, cv=3,n_jobs=-1)
grid_cv.fit(X_train, y_train)

print('최적의 하이퍼파라미터 : ', grid_cv.best_params_)
print('train :', grid_cv.score(X_train, y_train))
print('test :', grid_cv.score(X_test, y_test))

최적의 하이퍼파라미터 :  {'learning_rate': 0.1, 'n_estimators': 100, 'subsample': 0.7000000000000001}
train : 0.9073033707865169
test : 0.8212290502793296


In [11]:
#보정은 10%일때마다 보정, 학습기 수 100, 학습데이터 90%
gbc = GradientBoostingClassifier(learning_rate =0.1,
                                n_estimators=100,
                                subsample=0.9)
gbc.fit(X_train, y_train)

print('train : ', gbc.score(X_train, y_train))
print('test : ', gbc.score(X_test, y_test))

print(gbc.feature_importances_)
df.head(2)

train :  0.9058988764044944
test :  0.8324022346368715
[0.12464884 0.45194313 0.13035653 0.05314479 0.00632842 0.23357828]


Unnamed: 0,PassengerId,Survived,Pclass,Sex,Age,SibSp,Parch,Fare
0,1,0,3,0,22.0,1,0,7.25
1,2,1,1,1,38.0,1,0,71.2833
