### 교차 검증 (Cross Validation)

- 모델을 더욱 신뢰성 있게 평가하는 방법
- 데이터셋을 여러 개로 나누고, 각 부분이 한 번씩 검증 데이터로 사용되도록 하는 방법
- 훈련-검증 반복하면서 학습 진행
- 과대적합 방지 효과 있음 (학습하는 데이터가 매번 바뀌기 때문)

##### K-fold

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
# 데이터 로드
from sklearn.datasets import load_iris

iris_input, iris_target = load_iris(return_X_y=True)

In [None]:
# 
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import KFold
from sklearn.metrics import accuracy_score

# 모델 생성
lr_clf = LogisticRegression()

# 교차검증 kfold 객체 생성

kfold = KFold(n_splits=5, shuffle=True, random_state=42)
# 데이터를 k개로 균등하게 나눠주기만 하는 역할
# n_splits: 몇 개로 나눌 것인지
# shuffle=True: fold나누기 전에 데이터 row를 섞을 것인지

cv_accuracy = []
# accuracy score를 저장할 리스트 초기화

for train_index, val_index in kfold.split(iris_input):
    # .split()해주면 받은 input에서 훈련할 데이터 인덱스와 검증할 데이터 인덱스를 반환함
    # 이때 k=5이므로 다섯 번 반환.

    X_train, y_train = iris_input[train_index], iris_target[train_index]
    X_val, y_val = iris_input[val_index], iris_target[val_index]
    # 훈련-검증 데이터 저장

    print(np.unique(y_train, return_counts=True))
    print(np.unique(y_val, return_counts=True))
    # KFold로 분리된 y_train과 y_val의 label값(0, 1, 2)에 대한 개수 출력
    # iris_data는 target이 class 3개가 모두 50개씩.

    # 만약 샘플 간 label 개수의 차이가 크면 샘플링 편향 일어날 수 있음
    # --> stratified 지정!

    print('==========================')

    lr_clf.fit(X_train, y_train)
    y_pred = lr_clf.predict(X_val)
    acc_score = accuracy_score(y_val, y_pred)
    cv_accuracy.append(acc_score)
    # 정확도 점수를 append로 저장

print('훈련별 정확도:', cv_accuracy)
print('분류모델 정확도:', np.mean(cv_accuracy))

(array([0, 1, 2]), array([40, 41, 39]))
(array([0, 1, 2]), array([10,  9, 11]))
(array([0, 1, 2]), array([37, 40, 43]))
(array([0, 1, 2]), array([13, 10,  7]))
(array([0, 1, 2]), array([38, 40, 42]))
(array([0, 1, 2]), array([12, 10,  8]))
(array([0, 1, 2]), array([42, 40, 38]))
(array([0, 1, 2]), array([ 8, 10, 12]))
(array([0, 1, 2]), array([43, 39, 38]))
(array([0, 1, 2]), array([ 7, 11, 12]))
훈련별 정확도: [1.0, 1.0, 0.9333333333333333, 0.9666666666666667, 0.9666666666666667]
분류모델 정확도: 0.9733333333333334


### Stratified-K-fold