# 교차검증 (Cross Validation)
- 모델을 더욱 신뢰성 있게 평가하는 방법
- 데이터셋을 여러 개로 나누고, 각 부분이 한 번씩 검증 데이터로 사용되도록 하는 방법
- 훈련-검증을 반복하면서 학습을 진행
- 과대적합 방지 효과

In [8]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings



k-fold
![](https://d.pr/i/0pWjyI+)

In [9]:
from sklearn.datasets import load_iris

iris_input, iris_target = load_iris(return_X_y=True)



In [13]:
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import KFold
from sklearn.metrics import accuracy_score

#모델 생성
lr_clf = LogisticRegression()

#교차검증 KFold 객체 생성
# - n_splits : 폴드 갯수

kfold = KFold(n_splits=5, shuffle=True, random_state=42)

cv_accuracy = []

for train_index,val_index in kfold.split(iris_input):
    X_train,y_train = iris_input[train_index],iris_target[train_index]
    X_val,y_val = iris_input[val_index],iris_target[val_index]
    
    lr_clf.fit(X_train,y_train)                 # 모델 학습
    y_pred = lr_clf.predict(X_val)              # 검증 데이터로 예측
    accuracy = accuracy_score(y_val,y_pred)     # 정확도 계산
    cv_accuracy.append(accuracy)                # cv_accuracy 배열에 정확도 추가
    
print("훈련별 정확도:",cv_accuracy)
print("분류모델 정확도:",np.mean(cv_accuracy))
    

훈련별 정확도: [1.0, 1.0, 0.9333333333333333, 0.9666666666666667, 0.9666666666666667]
분류모델 정확도: 0.9733333333333334


### cross_val_score
- 교차검증을 통해 모델 성능을 평가하는 함수
- 내부적으로 지정한 횟수만큼 학습/검증을 나누어 반복 처리

In [15]:
from sklearn.model_selection import cross_val_score

lr_clf = LogisticRegression()

cross_val_score(lr_clf,iris_input,iris_target,scoring="accuracy",cv=5)


array([0.96666667, 1.        , 0.93333333, 0.96666667, 1.        ])