# 교차검증 (Cross Validation)
- 모델을 더욱 신뢰성 있게 평가하는 방법
- 데이터셋을 여러 개로 나누고, 각 부분이 한번씩 검증 데이터로 사용되도록 하는 방법
- 훈련-검증을 반복하면서 학습을 진행
- 과대적합 방지 효과

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

### K-fold

![](https://d.pr/i/0pWjyI+)

In [None]:
# 데이터 로드
from sklearn.datasets import load_iris

iris_input, iris_target = load_iris(return_X_y=True)    # data, target
np.unique(iris_target, return_counts=True)

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import KFold
from sklearn.metrics import accuracy_score

# 모델 생성
lr_clf = LogisticRegression()

# 교차검증 KFold 객체 생성
# - n_splits: 폴드 개수, shuffle: 폴드로 나누기 전에 섞을건지 여부
kfold = KFold(n_splits=5, shuffle=True, random_state=42)    

# k번 반복하면서 평가한 정확도를 저장할 배열
cv_accuracy = []

for train_index, val_index in kfold.split(iris_input):
    X_train, y_train = iris_input[train_index], iris_target[train_index]
    X_val, y_val = iris_input[val_index], iris_target[val_index]

    print(np.unique(y_train, return_counts=True))
    print(np.unique(y_val, return_counts=True))
    print("====================================")

    lr_clf.fit(X_train, y_train)    # 모델 학습
    y_pred = lr_clf.predict(X_val)    # 검증 데이터로 예측
    acc_score = accuracy_score(y_val, y_pred)    # 정확도 계산
    cv_accuracy.append(acc_score)    # cv_accuracy 배열에 정확도 추가

print("훈련별 정확도:", cv_accuracy)
print("분류모델 정확도:", np.mean(cv_accuracy))

### Stratified-K-Fold

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import StratifiedKFold
from sklearn.metrics import accuracy_score

# 모델 생성
lr_clf = LogisticRegression()

# 교차검증 StratifiedKFold 객체 생성
# - n_splits: 폴드 개수
stratified_kfold = StratifiedKFold(n_splits=5)

# k번 반복하면서 평가한 정확도를 저장할 배열
cv_accuracy = []

for train_index, val_index in stratified_kfold.split(iris_input, iris_target):
    X_train, y_train = iris_input[train_index], iris_target[train_index]
    X_val, y_val = iris_input[val_index], iris_target[val_index]

    print(np.unique(y_train, return_counts=True))
    print(np.unique(y_val, return_counts=True))
    print("====================================")

    lr_clf.fit(X_train, y_train)    # 모델 학습
    y_pred = lr_clf.predict(X_val)    # 검증 데이터로 예측
    acc_score = accuracy_score(y_val, y_pred)    # 정확도 계산
    cv_accuracy.append(acc_score)    # cv_accuracy 배열에 정확도 추가

print("훈련별 정확도:", cv_accuracy)
print("분류모델 정확도:", np.mean(cv_accuracy))

### cross_val_score
- 교차검증을 통해 모델 성능을 평가하는 함수
- 내부적으로 지정한 횟수만큼 학습/검증을 나누어 반복 처리

In [None]:
from sklearn.model_selection import cross_val_score

lr_clf = LogisticRegression(max_iter=1000)

# 첫 번째 인자: 모델
# 두 번째 인자: 입력 데이터
# 세 번째 인자: 라벨 데이터
# scoring: 평가 지표 (accuracy, precision, recall, f1)
# cv: 반복 횟수(KFold 사용, StratifiedKFold 객체 전달 가능)
# 반환값 = 반복한 훈련별 검증 점수 배열
scores = cross_val_score(lr_clf, iris_input, iris_target, scoring='accuracy', cv=5)

print("훈련별 정확도:", scores)
print("모델 정확도:", np.mean(scores))