### 교차 검증 (Cross Validation)
* 1) K fold 

In [None]:
import numpy as np
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.model_selection import KFold

In [None]:
iris     = load_iris()
features = iris.data
label    = iris.target
dt_clf   = DecisionTreeClassifier(random_state = 156)

In [None]:
# 5 개의 fold set 으로 분리하는 KFold 객체 생성하기
kfold = KFold(n_splits=5)

# fold set 별 정확도를 담는 리스트 객체 생성하기
cv_accuracy = []

print("iris dataset 의 크기 :",features.shape[0])

In [None]:
# KFold 객체의 split() 메소드를 호출해서
#               ㄴ features 를 argument 로 넣어줌
#               ㄴ 학습용데이터인덱스, 테스트용데이터인덱스 를 generator 로 반환함
#               ㄴ 이 generator 에서 unpaking 해서 
#               ㄴ 학습용데이터인덱스, 테스트용데이터인덱스 를 추출함
# fold 별로 학습용, 테스트(검증)용 데이터의
# row index 를 array로 반환하기
#  ㄴ 학습용데이터인덱스, 테스트용데이터인덱스

n_iter = 0

for train_index, test_index in kfold.split(features):
    n_iter += 1
    
    X_train, X_test = features[train_index], features[test_index]
    y_train, y_test = label[train_index], label[test_index]
    
    # 학습 및 예측하기
    dt_clf.fit(X_train, y_train)
    pred = dt_clf.predict(X_test)
    
    # 정확도(accuracy) 측정하기
    accuracy = np.round(accuracy_score(y_test, pred), 4)
    train_size = X_train.shape[0]
    test_size  = X_test.shape[0]
    
    print(f"{n_iter} 번째 교차검증 정확도 : {accuracy}\n"
          f"학습데이터 크기 : {train_size}\n"
          f"검증데이터 크기 : {test_size}\n"
          f"{n_iter} 번째 학습데이터세트 인덱스 :\n{train_index}\n"
          f"{n_iter} 번째 검증데이터세트 인덱스 :\n{test_index}")
    
    cv_accuracy.append(accuracy)
    
print()  
print(f"cv_accuracy :\n{cv_accuracy}")
print()
print(f"최종 정확도 :\n{np.mean(cv_accuracy)}")

* 2) Strarified K fold
* 불균형한(imbalanced) 분포도를 가진 label(결정클래스) 데이터집합에 사용하는 방식
* 학습데이터세트와 테스트데이터세트가 가지는 label 분포도가 유사하도록 
* 테스트데이터를 추출함
*  ㄴ 원본데이터와 유사한 label 값의 분포도를 학습데이터세트와 테스트데이터세트에서
* 유지시키기 위한 방식
* 분류(Classification) 에서 많이 사용하는 교차검증 방식
* 회귀(Regression) 에서는 Stratified K fold 방식을 지원하지 않음

In [None]:
import pandas as pd

iris = load_iris()

iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
iris_df["label"] = iris.target
iris_df.head()

In [None]:
iris_df["label"].value_counts()