### 교차 검증을 보다 간편하게 - cross_val_score()
1. 폴드 세트 설정
2. for 루프에서 반복으로 학습 및 테스트 데이터의 인덱스를 추출한 뒤
3. 반복적으로 학습과 예측을 수행하고 예측성능을 반환

일련의 과정을 한꺼번에 수행해주는 API

cross_val_score(`estimator`, `X`, `y = None`, `scoring = None`, `cv = None`, 
n_jobs = 1, verbose = 0, fit_params = None, pre_dispatch = '2*n_jobs')

**주요 파라미터**
- `estimator` : Classifier 또는 Regressor와 같은 사이킷런 알고리즘 클래스
- `X` : 피처 데이터 세트
- `y` : 레이블 데이터 세트
- `scoring` : 예측 성능 평가 지표
- `cv` : 교차 검증 폴드 수

**수행 후 반환 값**  
: 성능 지표 측정값을 배열 형태로 반환

`estimatror`가 classifier일 경우 Stratified K Fold방식으로 학습/테스트 세트 분할.
회귀인 경우 K Fold 방식으로 분할

In [2]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score
from sklearn.datasets import load_iris

import pandas as pd
import numpy as np

iris_data = load_iris()
dt_clf = DecisionTreeClassifier(random_state = 156)

data = iris_data.data
label = iris_data.target

# 성능 지표는 정확도(accuracy), 교차 검증 세트는 3개
scores = cross_val_score(dt_clf, data, label, scoring = 'accuracy', cv = 3)
print('교차 검증 별 정확도: ', np.round(scores, 4))
print('평균 검증 정확도: ', np.round(np.mean(scores), 4))

  return f(*args, **kwds)


교차 검증 별 정확도:  [0.98 0.94 0.98]
평균 검증 정확도:  0.9667


cross_val_score()는 cv로 지정된 횟수만큼 scoring 파라미터로 지정된 평가 지표로 평가 결괏값을 배열로 반환. 이를 평균해 평가 수치로 사용.  
cross_val_score()는 내부에서 Estimator를 학습(fit), 예측(predict), 평가(evaluation)시켜주므로 간단하게 교차 검증을 수행할 수 있다.  
cross_val_score() 수행결과와 StratifiedKfold의 교차 검증별 정확도와 평균 검증 정확도가 모두 동일하다. cross_val_score()가 내부적으로 StratifiedKFold를 이용하기 때문.

In [8]:
from sklearn.model_selection import StratifiedKFold
from sklearn.metrics import accuracy_score

skfold = StratifiedKFold(n_splits=3)
sk_clf = DecisionTreeClassifier(random_state = 156)

n_iter = 0
cv_accuracy = []

for train_index, test_index in skfold.split(data, label):
    X_train, X_test = data[train_index], data[test_index]
    y_train, y_test = label[train_index], label[test_index]
    
    sk_clf.fit(X_train, y_train)
    pred = sk_clf.predict(X_test)
    
    n_iter +=1
    
    cv_accuracy.append(np.round(accuracy_score(y_test, pred), 4))
    
print('교차 검증 별 정확도', cv_accuracy)
print('평균 검증 정확도', np.round(np.mean(cv_accuracy), 4))

교차 검증 별 정확도 [0.98, 0.94, 0.98]
평균 검증 정확도 0.9667


#### cross_validate()
cross_val_score()는 단 하나의 평가 지표만 가능하지만 `cross_validate()`는 여러 개의 평가 지표를 반환할 수 있다. 또한 학습 데이터에 대한 성능 평가 지표와 수행 시간도 같이 제공한다.

In [14]:
from sklearn.model_selection import cross_validate

iris_data = load_iris()
dt_clf = DecisionTreeClassifier(random_state = 156)

data = iris_data.data
label = iris_data.target

# 성능 지표는 정확도(accuracy), 교차 검증 세트는 3개
scores = cross_validate(dt_clf, data, label, scoring = 'accuracy', cv = 3)

print(scores)
print('*'*50)
print('교차 검증 별 정확도: ', scores['test_score'])
print('평균 검증 정확도', np.round(np.mean(scores['test_score']), 4))

{'fit_time': array([0.00141144, 0.        , 0.00099659]), 'score_time': array([0.        , 0.00099516, 0.        ]), 'test_score': array([0.98, 0.94, 0.98])}
**************************************************
교차 검증 별 정확도:  [0.98 0.94 0.98]
평균 검증 정확도 0.9667


## GridSearchCV   - 교차 검증과 최적 하이퍼 파라미터 튜닝을 한 번에
**하이퍼 파라미터**  
: 머신러닝 알고리즘을 구성하는 주요 구성 요소. 이 값을 조정해 알고리즘의 예측 성능을 개선할 수 있다.  
`GridSearchCV` API를 이용해 Classifier나 Regressor와 같은 알고리즘에 사용되는 하이퍼 파라미터를 순차적으로 입력하면서 편리하게 최적의 파라미터를 도출할 수 있는 방안을 제공.

In [16]:
grid_parameters = {'max_depth': [1, 2, 3],
                   'min_samples_split': [2, 3]}

다음과 같이 순차적으로 적용. 6회에 걸쳐 파라미터를 순차적으로 바꿔 실행하면서 최적의 파라미터와 수팽결과를 도출.

|순번 | max_depth | min_samples_split|
|-----|-----------|------------------|
|**1** | 1 | 2|
|**2** | 1 | 3|
|**3** | 2 | 2|
|**4** | 2 | 3|
|**5** | 3 | 2|
|**6** | 3 | 3|


GirdSearchCV는 __교차 검증을 기반으로 하이퍼 파라미터의 최적 값을 찾게 해준다.__ 즉, 데이터 세트를 cross-validation을 위한 학습/테스트 세트로 자동으로 분할한 뒤에 하이퍼 파라미터 그리드에 기술된 모든 파라미터를 순차적으로 적용해 최적의 파라미터를 찾을 수 있게 해준다. 
사용자가 튜닝하고자 하는 여러 종류의 하이퍼 파라미터를 다양하게 테스트하면서 최적의 파라미터를 찾게 해주지만 순차적으로 파라미터를 테스트하므로 __수행시간이 상대적으로 오래 걸린다.__

#### GridSearchCV 클래스의 생성자로 들어가는 주요 파라미터
- estimator: classifier, regressor, pipeline 등
- param_grid: key + 리스트 값을 가지는 딕셔너리. estimator의 튜닝을 위해 파라미터명과 사용될 여러 파라미터 값을 지정.
- scoring: 예측 성능을 측정할 평가 방법 ('accuracy')
- cv: 교차 검증을 위해 분할되는 학습/테스트 세트의 개수
- refit: default = True, True로 생성 시 가장 최적의 하이퍼 파라미터를 찾은 뒤 입력된 estimator 객체를 해당 하이퍼 파라미터로 재학습시킨다.

In [17]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import train_test_split

# 데이터를 로딩하고 학습 데이터와 테스트 데이터 분리

iris_data = load_iris()

X_train, X_test, y_train, y_test = train_test_split(iris_data.data,
                                                    iris_data.target,
                                                    test_size = .2,
                                                    random_state = 121)

dtree = DecisionTreeClassifier()

# 파라미터를 딕셔너리 형태로 설정
parameters = {'max_depth': [1, 2, 3], 'min_samples_split': [2, 3]}

학습 데이터 세트를 GridSearchCV 객체의 fit 메서드에 인자로 입력
GridSearchCV 객체의 fit메서드를 수행하면 학습 데이터를 cv에 기술된 폴딩 세트로 분할해 param_grid에 기술된 하이퍼 파라미터를 순차적으로 변경하면서 학습/평가를 수행하고 그 결과를 cv_results_ 속성에 기록
`cv_results_`는 gridsearchcv의 결과 세트로서 딕셔너리 형태로 key값과 리스트 형태의 value값을 가진다. DataFrame으로 변환하면 내용을 좀 더 쉽게 볼 수 있다.

In [26]:
# param_grid의 하이퍼 파라미터를 3개의 train, test set fold로 나누어 테스트 수행 
# refit = True가 default. True이면 가장 좋은 설정으로 재학습시킴

grid_dtree = GridSearchCV(dtree, param_grid = parameters, cv=3, refit = True)

# iris 데이터로 param_grid의 하이퍼 파라미터를 순차적으로 학습/평가
grid_dtree.fit(X_train, y_train)

# GridSearchCV 결과를 추출해 DataFrame으로 변환
scores_df = pd.DataFrame(grid_dtree.cv_results_)
scores_df[['params', 'mean_test_score', 'rank_test_score', 
           'split0_test_score', 'split1_test_score', 'split2_test_score']]

Unnamed: 0,params,mean_test_score,rank_test_score,split0_test_score,split1_test_score,split2_test_score
0,"{'max_depth': 1, 'min_samples_split': 2}",0.7,5,0.7,0.7,0.7
1,"{'max_depth': 1, 'min_samples_split': 3}",0.7,5,0.7,0.7,0.7
2,"{'max_depth': 2, 'min_samples_split': 2}",0.958333,3,0.925,1.0,0.95
3,"{'max_depth': 2, 'min_samples_split': 3}",0.958333,3,0.925,1.0,0.95
4,"{'max_depth': 3, 'min_samples_split': 2}",0.975,1,0.975,1.0,0.95
5,"{'max_depth': 3, 'min_samples_split': 3}",0.975,1,0.975,1.0,0.95


**주요 컬럼 별 의미**
- params: 수행할 때마다 적용된 개별 하이퍼 파라미터 값
- rank_test_score: 하이퍼 파라미터 별로 성능이 좋은 score 순위. 1이 가장 뛰어난 순위이며 이때의 파라미터가 최적의 하이퍼 파라미터이다.
- mean_test_score: 개별 하이퍼 파라미터 별로 CV의 폴딩 테스트 세트에 대해 총 수행한 평가 평균값

GridSearchCV 객체의 fit을 수행하면 최고 성능을 나타낸 하이퍼 파라미터의 값과 그 때의 평과 결과 값이 각각 `best_params_`, `best_scores_` 속성에 기록된다. (즉 cv_results_의 rank_test_score가 1일 때의 값)

In [27]:
print('GridSearchCV 최적 파라미터: ', grid_dtree.best_params_)
print('GridSearchCV 최고 정확도:{0:.4f}'.format(grid_dtree.best_score_))

GridSearchCV 최적 파라미터:  {'max_depth': 3, 'min_samples_split': 2}
GridSearchCV 최고 정확도:0.9750


In [28]:
# GridSearchCV의 refit으로 이미 학습된 estimator 반환
estimator = grid_dtree.best_estimator_

# GridSearchCV의 best_estimator_는 이미 최적 학습이 됐으므로 별도 학습이 필요없음
pred = estimator.predict(X_test)
print('테스트 데이터 세트 정확도:{0:.4f}'.format(accuracy_score(y_test, pred)))

테스트 데이터 세트 정확도:0.9667
