### 교차 검증 (Cross Validation)
- 기존 방식에서는 데이터 세트에서 학습 데이터 세트와 테스트 데이터 세트를 분리한 뒤 모델 검증을 진행한다.
- 교차 검증 시, 학습 데이터를 다시 분할하여 학습 데이터와 모델 성능을 1차 평가하는 검증 데이터로 나눈다.

<img src="./images/cross_validation01.png" width="500px">

#### 교차 검증의 장단점
- 👍 특정 데이터 세트에 대한 과적합 방지
- 👍 데이터 세트 규모가 적을 시 과소적합 방지
- 👎 모델 훈련, 모델 평가에 소요되는 시간 증가
- 즉, 과적합을 피하고 하이퍼 파라미터를 튜닝함으로써 모델을 일반화하고 신뢰성을 증가시키기 위한 목적이다

#### 교차 검증의 종류
K-Fold
- k개의 데이터 폴드 세트를 만든 뒤 k번 만큼 학습과 검증 평가를 반복하여 수행하는 방식.
- 학습 데이터와 검증 데이터를 정확히 자르기 때문에 타겟 데이터의 비중이 한 곳으로 치중될 수 있다.
- 예를 들어, 0, 1, 2 중에서 0, 1, 두 가지만 잘라서 검증하게 되면 다른 하나의 타겟 데이터를 예측할 수 없게 된다.
- Stratified K-Fold로 해결한다.

Stratified K-Fold
- k-Fold와 마찬가지로 k번 수행하지만, 학습 데이터 세트와 검증 데이터 세트가 가지는 타겟 분포도가 유사하도록 검증한다.
- 타겟 데이터의 비중을 항상 똑같게 자르기 때문에 데이터가 한 곳으로 치중되는 것을 방지한다.
<img src="./images/cross_validation02.png" width="600px">
※ 평균 검증 결과가 나오게 된다.

GridSearchCV
- 교차 검증과 최적의 하이퍼 파라미터 튜닝을 한번에 할 수 있는 객체이다.
- max_depth와 min_samples_split에 1차원 정수형 list를 전달하면, 2차원으로 결합하여 격자(Grid)를 만들고 이 중 최적의 점을 찾아낸다.
- 딥러닝에서는 학습 속도가 머신러닝에 비해 느리고, 레이어(층)가 깊어질 수록 조정해 주어야 할 하이퍼 파라미터 값이 많아지기 때문에, RandomSearchCV에서 대략적인 범위를 찾은 다음, GridSearchCV로 디테일을 조정하는 방식을 사용한다.

<img src="./images/grid_search_cv.png" width="500px">

In [1]:
from sklearn.datasets import load_iris
import numpy as np
import pandas as pd

# 아이리스(iris) 예시 데이터 호출 후 iris에 담기
iris = load_iris()

# 피처, 타겟 데이터 분리
features = iris.data
targets = iris.target

# 타겟 데이터 프레임 생성
target_df = pd.DataFrame(targets, columns=['target'])
target_df.value_counts()

target
0         50
1         50
2         50
Name: count, dtype: int64

#### K-Fold

In [2]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import KFold

In [3]:
# 결정 트리의 무작위성을 제어하고 분류 모델 담기
# 리프 노드가 가져야 하는 최소 샘플수 지정(모델이 너무 복잡해 지는 것을 제어하여 과적합 방지)
dtc = DecisionTreeClassifier(random_state=124, min_samples_leaf=6)
# 데이터를 몇개로 나눠서 검증할 건지 설정
kfold = KFold(n_splits=5)

In [4]:
# 피처의 속성 확인
features.shape

(150, 4)

In [5]:
count = 0

# 전체 데이터 세트를 넣지 말기!!
for train_index, test_index in kfold.split(features):
    # 분리
    X_train, X_test = features[train_index], features[test_index]
    y_train, y_test = targets[train_index], targets[test_index]

    # 학습
    dtc.fit(X_train, y_train)
    prediction = dtc.predict(X_test)

    # 평가
    accuracy = np.round(accuracy_score(y_test, prediction), 4)

    # 검증
    train_targets = pd.DataFrame(y_train)
    test_targets = pd.DataFrame(y_test)

    count += 1
    
    print(f'{count} 회차')
    print(f'학습 타겟 데이터 분포: \n{train_targets.value_counts()}')
    print(f'검증 타겟 데이터 분포: \n{test_targets.value_counts()}')
    print(f'정확도: {accuracy}')

1 회차
학습 타겟 데이터 분포: 
1    50
2    50
0    20
Name: count, dtype: int64
검증 타겟 데이터 분포: 
0    30
Name: count, dtype: int64
정확도: 1.0
2 회차
학습 타겟 데이터 분포: 
2    50
1    40
0    30
Name: count, dtype: int64
검증 타겟 데이터 분포: 
0    20
1    10
Name: count, dtype: int64
정확도: 1.0
3 회차
학습 타겟 데이터 분포: 
0    50
2    50
1    20
Name: count, dtype: int64
검증 타겟 데이터 분포: 
1    30
Name: count, dtype: int64
정확도: 0.8333
4 회차
학습 타겟 데이터 분포: 
0    50
1    40
2    30
Name: count, dtype: int64
검증 타겟 데이터 분포: 
2    20
1    10
Name: count, dtype: int64
정확도: 0.9333
5 회차
학습 타겟 데이터 분포: 
0    50
1    50
2    20
Name: count, dtype: int64
검증 타겟 데이터 분포: 
2    30
Name: count, dtype: int64
정확도: 0.8333


#### Stratified K-Fold

In [6]:
from sklearn.model_selection import StratifiedKFold

# 데이터를 몇개로 나눠서 검증할 건지 설정
s_kfold = StratifiedKFold(n_splits=5)

In [7]:
count = 0
accuacy_list=[]

# 전체 데이터 세트를 넣지 말기!!
# 비중을 맞추기 위해 타겟도 함께 전달해야 함
for train_index, test_index in s_kfold.split(features, targets):
    # 분리
    X_train, X_test = features[train_index], features[test_index]
    y_train, y_test = targets[train_index], targets[test_index]

    # 학습
    dtc.fit(X_train, y_train)
    prediction = dtc.predict(X_test)

    # 평가
    accuracy = np.round(accuracy_score(y_test, prediction), 4)
    accuacy_list.append(accuracy)

    # 검증
    train_targets = pd.DataFrame(y_train)
    test_targets = pd.DataFrame(y_test)

    count += 1
    
    print(f'{count} 회차')
    print(f'학습 타겟 데이터 분포: \n{train_targets.value_counts()}')
    print(f'검증 타겟 데이터 분포: \n{test_targets.value_counts()}')
    print(f'정확도: {accuracy}')
print(f'평균 정확도: {np.mean(accuacy_list)}')

1 회차
학습 타겟 데이터 분포: 
0    40
1    40
2    40
Name: count, dtype: int64
검증 타겟 데이터 분포: 
0    10
1    10
2    10
Name: count, dtype: int64
정확도: 0.9667
2 회차
학습 타겟 데이터 분포: 
0    40
1    40
2    40
Name: count, dtype: int64
검증 타겟 데이터 분포: 
0    10
1    10
2    10
Name: count, dtype: int64
정확도: 0.9667
3 회차
학습 타겟 데이터 분포: 
0    40
1    40
2    40
Name: count, dtype: int64
검증 타겟 데이터 분포: 
0    10
1    10
2    10
Name: count, dtype: int64
정확도: 0.9
4 회차
학습 타겟 데이터 분포: 
0    40
1    40
2    40
Name: count, dtype: int64
검증 타겟 데이터 분포: 
0    10
1    10
2    10
Name: count, dtype: int64
정확도: 0.8667
5 회차
학습 타겟 데이터 분포: 
0    40
1    40
2    40
Name: count, dtype: int64
검증 타겟 데이터 분포: 
0    10
1    10
2    10
Name: count, dtype: int64
정확도: 1.0
평균 정확도: 0.94002


#### 편하게 수행할 수 있는 교차 검증
**cross_val_score(estimator, x, y, cv, scoring)**  
- estimator: classifier 종류 모델이면 내부적으로 startified K-Fold로 진행된다.
- x: features
- y: targets
- cv: 폴드 세트 개수
- scoring: 평가 함수, 정확도(accuracy) 외에 다른 것은 다른 장에서 배운다.

In [8]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score
from sklearn.datasets import load_iris
import numpy as np

In [9]:
# 아이리스(iris) 예시 데이터 호출 후 iris에 담기
iris = load_iris()

# 결정 트리의 무작위성을 제어하고 분류 모델 담기
# 리프 노드가 가져야 하는 최소 샘플수 지정(모델이 너무 복잡해 지는 것을 제어하여 과적합 방지)
dtc = DecisionTreeClassifier(random_state=124, min_samples_leaf=6)

# 피처, 타겟 데이터 분리
features = iris.data
targets = iris.target

# 데이터 학습 및 교차 검증 진행
# cv=5가 과적합 방지가 가장 잘 됨, 빅데이터에서는 다르기 때문에 실무에서는 그 회사의 방침에 따르기
score = cross_val_score(dtc, features, targets, cv=5, scoring='accuracy')
# 평가 진행, 정확도 평균을 소수점 4자리까지 출력 (0은 미출력)
print(np.round(np.mean(score), 4))

0.94


#### GridSearchCV
**GridSearchCV(estimator, param_grid, cv, refit, return_train_score)**
- estimator: 학습할 모델 객체 작성
- param_grid: dict 형태로 전달해야 하며, 주요 key 값은 max_depth, min_samples_split이다.
- cv: 폴드 세트 개수
- refit: 최적의 하이퍼 파라미터로 전달한 모델 객체를 다시 훈련하고자 할 때 True를 전달한다.
- retrun_train_score: 교차 검증 점수를 가져올 지에 대해 True 또는 False를 전달한다.

In [10]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import GridSearchCV, train_test_split
from sklearn.metrics import accuracy_score

In [11]:
# 아이리스(iris) 예시 데이터 호출 후 iris에 담기
iris = load_iris()

# 피처, 타겟 데이터 분리
features = iris.data
targets = iris.target

# 학습, 테스트 데이터로 분리
X_train, X_test, y_train, y_test = train_test_split(features, targets, test_size=0.2, random_state=124)

# Decision Tree분류 모델 dtc에 담기
dtc = DecisionTreeClassifier()
# 파라미터 값 설정
# max_depth: 의사 결정 트리의 최대 깊이 지정
# min_samples_split: 노드를 분할하기 위해 필요한 최소 샘플 수
parameters = {'max_depth': [2, 3, 4], 'min_samples_split': [6, 7]}

In [12]:
# 교차 검증 설정하기
# cv는 3, 4, 5 중에 하나 사용(느리면 3~4 중에 사용)
g_dtc = GridSearchCV(dtc, param_grid=parameters, cv=5, refit=True, return_train_score=True, n_jobs=-1)

In [13]:
# 데이터 학습 및 교차검증 진행
g_dtc.fit(X_train, y_train)

In [14]:
# 그리드 서치를 통해 얻은 결과 확인
g_dtc.cv_results_

{'mean_fit_time': array([0.00211511, 0.00247865, 0.00240989, 0.003265  , 0.00173888,
        0.00094967]),
 'std_fit_time': array([0.00030715, 0.00036458, 0.00048204, 0.0018495 , 0.0004021 ,
        0.00064221]),
 'mean_score_time': array([0.00183821, 0.00184593, 0.00101361, 0.00106716, 0.00134592,
        0.00091558]),
 'std_score_time': array([7.26112384e-04, 3.83401112e-04, 2.63024863e-05, 1.30196193e-04,
        3.90831117e-04, 5.02860413e-04]),
 'param_max_depth': masked_array(data=[2, 2, 3, 3, 4, 4],
              mask=[False, False, False, False, False, False],
        fill_value='?',
             dtype=object),
 'param_min_samples_split': masked_array(data=[6, 7, 6, 7, 6, 7],
              mask=[False, False, False, False, False, False],
        fill_value='?',
             dtype=object),
 'params': [{'max_depth': 2, 'min_samples_split': 6},
  {'max_depth': 2, 'min_samples_split': 7},
  {'max_depth': 3, 'min_samples_split': 6},
  {'max_depth': 3, 'min_samples_split': 7},
  {'ma

In [15]:
# 데이터 프레임으로 변환하여 확인
result_df = pd.DataFrame(g_dtc.cv_results_)
result_df

Unnamed: 0,mean_fit_time,std_fit_time,mean_score_time,std_score_time,param_max_depth,param_min_samples_split,params,split0_test_score,split1_test_score,split2_test_score,...,mean_test_score,std_test_score,rank_test_score,split0_train_score,split1_train_score,split2_train_score,split3_train_score,split4_train_score,mean_train_score,std_train_score
0,0.002115,0.000307,0.001838,0.000726,2,6,"{'max_depth': 2, 'min_samples_split': 6}",1.0,0.958333,0.958333,...,0.975,0.020412,5,0.96875,0.979167,0.979167,0.96875,0.979167,0.975,0.005103
1,0.002479,0.000365,0.001846,0.000383,2,7,"{'max_depth': 2, 'min_samples_split': 7}",1.0,0.958333,0.958333,...,0.975,0.020412,5,0.96875,0.979167,0.979167,0.96875,0.979167,0.975,0.005103
2,0.00241,0.000482,0.001014,2.6e-05,3,6,"{'max_depth': 3, 'min_samples_split': 6}",1.0,1.0,0.958333,...,0.991667,0.016667,1,1.0,1.0,1.0,1.0,1.0,1.0,0.0
3,0.003265,0.00185,0.001067,0.00013,3,7,"{'max_depth': 3, 'min_samples_split': 7}",1.0,1.0,0.958333,...,0.991667,0.016667,1,1.0,1.0,1.0,1.0,1.0,1.0,0.0
4,0.001739,0.000402,0.001346,0.000391,4,6,"{'max_depth': 4, 'min_samples_split': 6}",1.0,1.0,0.958333,...,0.991667,0.016667,1,1.0,1.0,1.0,1.0,1.0,1.0,0.0
5,0.00095,0.000642,0.000916,0.000503,4,7,"{'max_depth': 4, 'min_samples_split': 7}",1.0,1.0,0.958333,...,0.991667,0.016667,1,1.0,1.0,1.0,1.0,1.0,1.0,0.0


In [16]:
# g_dtc.best_params_: 최적의 하이퍼파라미터 조합을 나타내는 딕셔너리
# g_dtc.best_score_: 해당 하이퍼파라미터 조합에 대한 평균 테스트 점수
print(g_dtc.best_params_,g_dtc.best_score_, sep="\n")

{'max_depth': 3, 'min_samples_split': 6}
0.9916666666666668


In [17]:
# g_dtc.best_estimator_는 그리드 서치를 통해 찾은 최적의 모델(추정기)
g_dtc.best_estimator_

In [18]:
# 학습된 모델 담기
dtc = g_dtc.best_estimator_
# 예측 수행하여 결과 담기
prediction = dtc.predict(X_test)
# 평가 진행하여 정확도 확인
accuracy_score(y_test, prediction)

0.9