### GridSearchCV -> 마지막에 고려

- 모델의 일반화 성능을 개선하기 위한 매개변수 튜닝
- GridSearchCV(estimator, param_grid)
    - 조정하고자 하는 매개변수명과 설정값에 대해서 딕셔너리 타입으로 전달
    - 기본값으로 3-fold cross-validation을 적용
    - 분석모델로 분류기가 전달되면 stratified 3-fold cross-validation 적용
    - 일반적인 분석 모델 객체와 유사하게 GridSearch 객체도 predict, score 메서드 제공
        - predict() : 찾아낸 최적의 매개변수로 학습된 모델로부터 예측값 얻기
        - score() : 찾아낸 최적의 매개변수로로 학습된 모델의 일반화 성능 평가
    - 최적의 매개변수를 찾는 과정에서는 학습 데이터만 사용할 뿐 테스트 데이터는 사용하지 않음
        - grid_scores_
            - 모든 하이퍼파리미터 조합에 대한 성능 결과
            - parameters: 사용된 파라미터
            - mean_validation_score: 교차 검증(cross-validation) 결과의 평균값
            - cv_validation_scores: 모든 교차 검증(cross-validation) 결과
        - best_params_ : 찾아낸 최적의 매개변수
        - best_score_ : 최적의 매개변수로 학습 데이터에서 얻은 최상의 교차 검증 정확도
        - best_estimator_ : 최적의 매개변수에서 학습 데이터를 사용해서 학습한 모델 객체

In [1]:
# IRIS 데이터셋 사용
from sklearn import datasets

In [3]:
iris = datasets.load_iris()
iris

{'data': array([[5.1, 3.5, 1.4, 0.2],
        [4.9, 3. , 1.4, 0.2],
        [4.7, 3.2, 1.3, 0.2],
        [4.6, 3.1, 1.5, 0.2],
        [5. , 3.6, 1.4, 0.2],
        [5.4, 3.9, 1.7, 0.4],
        [4.6, 3.4, 1.4, 0.3],
        [5. , 3.4, 1.5, 0.2],
        [4.4, 2.9, 1.4, 0.2],
        [4.9, 3.1, 1.5, 0.1],
        [5.4, 3.7, 1.5, 0.2],
        [4.8, 3.4, 1.6, 0.2],
        [4.8, 3. , 1.4, 0.1],
        [4.3, 3. , 1.1, 0.1],
        [5.8, 4. , 1.2, 0.2],
        [5.7, 4.4, 1.5, 0.4],
        [5.4, 3.9, 1.3, 0.4],
        [5.1, 3.5, 1.4, 0.3],
        [5.7, 3.8, 1.7, 0.3],
        [5.1, 3.8, 1.5, 0.3],
        [5.4, 3.4, 1.7, 0.2],
        [5.1, 3.7, 1.5, 0.4],
        [4.6, 3.6, 1. , 0.2],
        [5.1, 3.3, 1.7, 0.5],
        [4.8, 3.4, 1.9, 0.2],
        [5. , 3. , 1.6, 0.2],
        [5. , 3.4, 1.6, 0.4],
        [5.2, 3.5, 1.5, 0.2],
        [5.2, 3.4, 1.4, 0.2],
        [4.7, 3.2, 1.6, 0.2],
        [4.8, 3.1, 1.6, 0.2],
        [5.4, 3.4, 1.5, 0.4],
        [5.2, 4.1, 1.5, 0.1],
  

In [5]:
# 독립 변수(문제), 종속 변수(정답) 분리
iris_x = iris.data
iris_y = iris.target

In [6]:
# 학습, 평가 데이터 분리(7 : 3)
from sklearn.model_selection import train_test_split

In [13]:
train_x, test_x, train_y, test_y = train_test_split(iris_x, iris_y, test_size=.3)

In [14]:
train_x.shape

(105, 4)

In [16]:
test_x.shape

(45, 4)

In [17]:
# RandomForest 모델 객체
from sklearn.ensemble import RandomForestClassifier

In [19]:
rf = RandomForestClassifier()

In [20]:
# 그리드 서치 라이브러리
from sklearn.model_selection import GridSearchCV

In [21]:
# GridSearchCV(model 변수, 파라미터 조합(딕셔너리))
# 그리드서치를 수행할 파라미터의 경우위 수를 딕셔너리로 생성(하이퍼파라미터 맵)
# n_estimator : 분류기 생성 횟수
# max_features : 독립 변수의 최대 개수
# max_depth : 의사 결정나무의 최대 깊이
# criterion : 불순도 지표
param_map = {'n_estimators':[50, 100, 150, 200, 250, 300],
            'max_depth':[1, 3, 5, 7, 9, 10]}

In [23]:
# 하이퍼파라미터 맵과 모델 결합
grid_search = GridSearchCV(estimator=rf, param_grid=param_map)

In [24]:
# 결합된 변수에 .fit() 명령어 사용
grid_search.fit(train_x, train_y)



GridSearchCV(cv='warn', error_score='raise-deprecating',
             estimator=RandomForestClassifier(bootstrap=True, class_weight=None,
                                              criterion='gini', max_depth=None,
                                              max_features='auto',
                                              max_leaf_nodes=None,
                                              min_impurity_decrease=0.0,
                                              min_impurity_split=None,
                                              min_samples_leaf=1,
                                              min_samples_split=2,
                                              min_weight_fraction_leaf=0.0,
                                              n_estimators='warn', n_jobs=None,
                                              oob_score=False,
                                              random_state=None, verbose=0,
                                              warm_start=False),
           

In [25]:
# 학습결과를 기반으로 최고의 성능을 가지는 하이퍼파라미터 조합 반환
grid_search.best_params_

{'max_depth': 1, 'n_estimators': 50}

In [26]:
# 최고의 성능을 가지는 하이퍼파라미터 조합 사용시의 전체 파라미터 현황 반환
grid_search.best_estimator_

RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',
                       max_depth=1, max_features='auto', max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, n_estimators=50,
                       n_jobs=None, oob_score=False, random_state=None,
                       verbose=0, warm_start=False)

In [27]:
# 최고 조합일 때의 성능
grid_search.best_score_

0.9523809523809523

In [28]:
grid_search.predict(test_x)

array([0, 0, 1, 1, 1, 1, 0, 0, 2, 0, 2, 0, 0, 0, 0, 0, 1, 1, 2, 2, 2, 0,
       2, 1, 1, 2, 1, 0, 2, 1, 0, 1, 0, 1, 1, 1, 0, 1, 2, 0, 0, 1, 1, 2,
       0])

In [29]:
grid_search.score(test_x, test_y)

0.9777777777777777

In [30]:
# 디시전트리의 max_depth 최적 경우의 수를 찾아보기(최소 1 ~ 최대 10)
from sklearn.tree import DecisionTreeClassifier

In [31]:
# 분류기 생성 (Classifier) -> class
dt = DecisionTreeClassifier()

In [32]:
# 하이퍼파라미터맵 생성(max_depth)
param = {'max_depth':[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]} # list(range(1, 11))

In [33]:
# 그리드서치 객체 생성
grid_search2 = GridSearchCV(estimator=dt, param_grid=param)

In [34]:
# 학습
grid_search2.fit(train_x, train_y)



GridSearchCV(cv='warn', error_score='raise-deprecating',
             estimator=DecisionTreeClassifier(class_weight=None,
                                              criterion='gini', max_depth=None,
                                              max_features=None,
                                              max_leaf_nodes=None,
                                              min_impurity_decrease=0.0,
                                              min_impurity_split=None,
                                              min_samples_leaf=1,
                                              min_samples_split=2,
                                              min_weight_fraction_leaf=0.0,
                                              presort=False, random_state=None,
                                              splitter='best'),
             iid='warn', n_jobs=None,
             param_grid={'max_depth': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]},
             pre_dispatch='2*n_jobs', refit=True, return_tr

In [36]:
# 최적조합 찾기
grid_search2.best_params_

{'max_depth': 4}

In [37]:
# 최적 조합을 이용한 시험 데이터 스코어 측정
grid_search2.score(test_x, test_y)

0.9555555555555556