### 랜덤 포레스트 하이퍼 파라미터
* n_estimators
    - 트리의 개수. default=10
    - 트리의 개수가 많이면 성능은 좋아지지만, 시간이 오래 걸릴수 있다.
* max_depth
    - 트리의 최대 깊이. default = None
    - 완벽하게 파라미터값이 결정될 때 까지 분할 또는 min_samples_split보자 작아질 때까지 분할
    - 깊이가 깊어지면 과대적합될 수 있으므로 적절히 제어 필요
* min_samples_leaf
    - 맆노드(자식노드가 없는 노드)가 되기 위해 필요한 최소한의 트리의 데이터수(n_estimators에서 생성되는 트리의 개수와 비례하게 설정하면 된다)
    - min_samples_split과 함께 과대적합 제어용도
    - 불균형 데이터의 경우 특정 트리의 데이터가 극도록 작을 수 있으므로 작게 설정 필요
* min_samples_split
    - 노드를 분할하기 위한 최소한의 샘플 데이터수. default = 2
    - 과대적합을 제어하는데 사용
    - 작게 설정할 수록 분할 노드가 많아져 과대적합 가능성 증가

![image](images/tree.png)

In [1]:
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
import pandas as pd

df = pd.read_csv('data/titanic_cleaning.csv')
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Sex,Age,SibSp,Parch,Fare
0,1,0,3,0,22.0,1,0,7.25
1,2,1,1,1,38.0,1,0,71.2833
2,3,1,3,1,26.0,0,0,7.925
3,4,1,1,1,35.0,1,0,53.1
4,5,0,3,0,35.0,0,0,8.05


In [2]:
df.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Sex', 'Age', 'SibSp', 'Parch',
       'Fare'],
      dtype='object')

In [3]:
features = ['Pclass', 'Sex', 'Age', 'SibSp', 'Parch',
       'Fare']
label = 'Survived'
X , y = df[features], df[label]

In [4]:
X_train, X_test, y_train, y_test = \
                    train_test_split(X,y, test_size=0.2)

rfc = RandomForestClassifier()
rfc.fit(X_train, y_train)

print('train : ', rfc.score(X_train, y_train))
print('test : ', rfc.score(X_test, y_test))

train :  0.9845505617977528
test :  0.8100558659217877


In [5]:
# 트리수 100, 깊이 10, 단말노드 4 , 샘플수 100
rfc = RandomForestClassifier(n_estimators=100,
                             max_depth=10,
                             min_samples_leaf=4,
                             min_samples_split=100)
rfc.fit(X_train, y_train)
print('train : ', rfc.score(X_train, y_train))
print('test : ', rfc.score(X_test, y_test))

train :  0.8174157303370787
test :  0.7988826815642458


In [8]:
from sklearn.model_selection import GridSearchCV

params = {
    'n_estimators':range(10,101,10),
    'max_depth':range(4,11,2),
    'min_samples_leaf':range(5,21,5),
    'min_samples_split':range(4,21,4)
}
rfc = RandomForestClassifier()

grid_cv = GridSearchCV(rfc, param_grid=params,
                              cv = 5, n_jobs = -1)
grid_cv.fit(X_train, y_train)

print('최적의 하이퍼파라미터 : ', grid_cv.best_params_)
print('train :', grid_cv.score(X_train, y_train))
print('test :', grid_cv.score(X_test, y_test))

최적의 하이퍼파라미터 :  {'max_depth': 6, 'min_samples_leaf': 5, 'min_samples_split': 8, 'n_estimators': 10}
train : 0.8497191011235955
test : 0.7877094972067039
