### cross_val_score(): 교차 검증을 간편하게 해줌
<br>

- 기존 KFold: 폴드 세트 설정 -> for 루프 돌면서 학습/검증 데이터 추출, 학습, 예측 -> 폴드 세트 별로 예측 성능 평균하여 최종 성능 평가

<br>

- cross_val_score(): 위 과정을 한번에 수행

In [2]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score, cross_validate
from sklearn.datasets import load_iris
import numpy as np

iris_data = load_iris()
dt_clf = DecisionTreeClassifier(random_state=156)

data = iris_data.data
label = iris_data.target

# 성능 지표는 정확도, 교차 검증 세트: 3개
scores = cross_val_score(dt_clf, data, label, scoring='accuracy', cv=3)
print('교차 검증별 정확도: ', np.round(scores, 4))
print('평균 검증 정확도: ', np.round(np.mean(scores), 4))

교차 검증별 정확도:  [0.98 0.94 0.98]
평균 검증 정확도:  0.9667


### GridSearchCv: 교차 검증과 최적 하이퍼 파라미터 튜닝 한번에


In [6]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import GridSearchCV, train_test_split
from sklearn.metrics import accuracy_score

# 데이터 로딩하고 학습 데이터와 테스트 데이터 분리
iris = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris_data.data, iris_data.target,
                                                   test_size=0.2, random_state=121)
dtree = DecisionTreeClassifier()

# parameter들을 Dictionary 형태로 설정
# 하이퍼 파라미터 이름과 순차적으로 수행할 값들 리스트로 넣어줌
# (값이 하나만 있어도 리스트로 넣어야함)
parameters = {'max_depth': [1, 2, 3], 'min_samples_split': [2, 3]}

In [5]:
import pandas as pd

# pram_grid의 하이퍼 파라미터들은 3개의 train, test set fold로 나누어서 테스트 수행 설정
# refit=True가 default. True이면 가장 좋은 파라미터 설정으로 재 학습시킴
grid_dtree = GridSearchCV(dtree, param_grid=parameters, cv=3, refit=True, return_train_score=True)
# return_train_score: 트레인 스코어 가져옴(중요 X)

# 붓꽃 train data로 param_grid의 하이퍼 파라미터들을 순차적으로 학습/평가
grid_dtree.fit(X_train, y_train)
# 총 6x3=18번 수행

# GridSearchCV 결과는 cv_results_ 라는 딕셔너리로 저장. 이를 dataFrame으로 변환
scores_df = pd.DataFrame(grid_dtree.cv_results_)
scores_df[['params', 'mean_test_score', 'rank_test_score',
          'split0_test_score', 'split1_test_score', 'split2_test_score']]

Unnamed: 0,params,mean_test_score,rank_test_score,split0_test_score,split1_test_score,split2_test_score
0,"{'max_depth': 1, 'min_samples_split': 2}",0.7,5,0.7,0.7,0.7
1,"{'max_depth': 1, 'min_samples_split': 3}",0.7,5,0.7,0.7,0.7
2,"{'max_depth': 2, 'min_samples_split': 2}",0.958333,3,0.925,1.0,0.95
3,"{'max_depth': 2, 'min_samples_split': 3}",0.958333,3,0.925,1.0,0.95
4,"{'max_depth': 3, 'min_samples_split': 2}",0.975,1,0.975,1.0,0.95
5,"{'max_depth': 3, 'min_samples_split': 3}",0.975,1,0.975,1.0,0.95


In [7]:
# 데이터프레임으로 변환 안하고 그냥 딕셔너리 형태일때(가시성 떨어짐)
grid_dtree.cv_results_

{'mean_fit_time': array([0.        , 0.        , 0.00066662, 0.        , 0.        ,
        0.00067576]),
 'std_fit_time': array([0.        , 0.        , 0.00047137, 0.        , 0.        ,
        0.00047796]),
 'mean_score_time': array([0.00066654, 0.        , 0.00033355, 0.00033323, 0.        ,
        0.00032481]),
 'std_score_time': array([0.00047131, 0.        , 0.00047171, 0.00047126, 0.        ,
        0.00045934]),
 'param_max_depth': masked_array(data=[1, 1, 2, 2, 3, 3],
              mask=[False, False, False, False, False, False],
        fill_value='?',
             dtype=object),
 'param_min_samples_split': masked_array(data=[2, 3, 2, 3, 2, 3],
              mask=[False, False, False, False, False, False],
        fill_value='?',
             dtype=object),
 'params': [{'max_depth': 1, 'min_samples_split': 2},
  {'max_depth': 1, 'min_samples_split': 3},
  {'max_depth': 2, 'min_samples_split': 2},
  {'max_depth': 2, 'min_samples_split': 3},
  {'max_depth': 3, 'min_sample

In [8]:
print('GridSearchCV 최적 파라미터: ', grid_dtree.best_params_)
print('GridSearchCV 최고 정확도: {0:.4f}'.format(grid_dtree.best_score_))

# refit=True로 설정된 GridSearchCV 객체가 fit() 수행하면 학습 완료된 Estimator를 내포하므로 predict() 통해 예측도 가능
pred = grid_dtree.predict(X_test)
print('테스트 데이터 정확도: {0:0.4f}'.format(accuracy_score(y_test, pred)))

GridSearchCV 최적 파라미터:  {'max_depth': 3, 'min_samples_split': 2}
GridSearchCV 최고 정확도: 0.9750
테스트 데이터 정확도: 0.9667


In [9]:
# GridSearchCV의 refit으로 이미 학습도니 estimator 반환
estimator = grid_dtree.best_estimator_

# GridSearchCV의 best_estimator_는 이미 최적 하이퍼 파라미터로 학습이 됨
pred = estimator.predict(X_test)
print('테스트 데이터 세트 정확도: {0:.4f}'.format(accuracy_score(y_test, pred)))

테스트 데이터 세트 정확도: 0.9667
