### 교차 검증 (Cross Validation)

- 모델을 더욱 신뢰성 있게 평가하는 방법
- 데이터셋을 여러 개로 나누고, 각 부분이 한 번씩 검증 데이터로 사용되도록 하는 방법
- 훈련-검증 반복하면서 학습 진행
- 과대적합 방지 효과 있음 (학습하는 데이터가 매번 바뀌기 때문)

##### K-fold

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
# 데이터 로드
from sklearn.datasets import load_iris

iris_input, iris_target = load_iris(return_X_y=True)

In [3]:
# 
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import KFold
from sklearn.metrics import accuracy_score

# 모델 생성
lr_clf = LogisticRegression()

# 교차검증 kfold 객체 생성

kfold = KFold(n_splits=5, shuffle=True, random_state=42)
# 데이터를 k개로 균등하게 나눠주기만 하는 역할
# n_splits: 몇 개로 나눌 것인지
# shuffle=True: fold나누기 전에 데이터 row를 섞을 것인지

cv_accuracy = []
# accuracy score를 저장할 리스트 초기화

for train_index, val_index in kfold.split(iris_input):
    # .split()해주면 받은 input에서 훈련할 데이터 인덱스와 검증할 데이터 인덱스를 반환함
    # 이때 k=5이므로 다섯 번 반환.

    X_train, y_train = iris_input[train_index], iris_target[train_index]
    X_val, y_val = iris_input[val_index], iris_target[val_index]
    # 훈련-검증 데이터 저장

    print(np.unique(y_train, return_counts=True))
    print(np.unique(y_val, return_counts=True))
    # KFold로 분리된 y_train과 y_val의 label값(0, 1, 2)에 대한 개수 출력
    # iris_data는 target이 class 3개가 모두 50개씩.

    # 만약 샘플 간 label 개수의 차이가 크면 샘플링 편향 일어날 수 있음
    # --> stratified 지정!

    print('==========================')

    lr_clf.fit(X_train, y_train)
    y_pred = lr_clf.predict(X_val)
    acc_score = accuracy_score(y_val, y_pred)
    cv_accuracy.append(acc_score)
    # 정확도 점수를 append로 저장

print('훈련별 정확도:', cv_accuracy)
print('분류모델 정확도:', np.mean(cv_accuracy))

(array([0, 1, 2]), array([40, 41, 39]))
(array([0, 1, 2]), array([10,  9, 11]))
(array([0, 1, 2]), array([37, 40, 43]))
(array([0, 1, 2]), array([13, 10,  7]))
(array([0, 1, 2]), array([38, 40, 42]))
(array([0, 1, 2]), array([12, 10,  8]))
(array([0, 1, 2]), array([42, 40, 38]))
(array([0, 1, 2]), array([ 8, 10, 12]))
(array([0, 1, 2]), array([43, 39, 38]))
(array([0, 1, 2]), array([ 7, 11, 12]))
훈련별 정확도: [1.0, 1.0, 0.9333333333333333, 0.9666666666666667, 0.9666666666666667]
분류모델 정확도: 0.9733333333333334


### Stratified-K-fold

In [None]:
from sklearn.model_selection import StratifiedKFold
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# 모델 생성
lr_clf = LogisticRegression()

# 교차검증 (Stratified)
st_kfold = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

cv_accuracy=[]

for train_index, val_index in st_kfold.split(iris_input, iris_target):
    # Stratified는 label의 비율을 반영해 split하는 메서드이므로 label 데이터도 넘겨야 함

    X_train, y_train = iris_input[train_index], iris_target[train_index]
    X_val, y_val = iris_input[val_index], iris_target[val_index]
    # 훈련-검증 데이터 저장

    print(np.unique(y_train, return_counts=True))
    print(np.unique(y_val, return_counts=True))

    print('==========================')

    lr_clf.fit(X_train, y_train)
    y_pred = lr_clf.predict(X_val)
    acc_score = accuracy_score(y_val, y_pred)
    cv_accuracy.append(acc_score)
    # 정확도 점수를 append로 저장

print('훈련별 정확도:', cv_accuracy)
print('분류모델 정확도:', np.mean(cv_accuracy))

(array([0, 1, 2]), array([40, 40, 40]))
(array([0, 1, 2]), array([10, 10, 10]))
(array([0, 1, 2]), array([40, 40, 40]))
(array([0, 1, 2]), array([10, 10, 10]))
(array([0, 1, 2]), array([40, 40, 40]))
(array([0, 1, 2]), array([10, 10, 10]))
(array([0, 1, 2]), array([40, 40, 40]))
(array([0, 1, 2]), array([10, 10, 10]))
(array([0, 1, 2]), array([40, 40, 40]))
(array([0, 1, 2]), array([10, 10, 10]))
훈련별 정확도: [1.0, 0.9666666666666667, 0.9333333333333333, 1.0, 0.9333333333333333]
분류모델 정확도: 0.9666666666666668


STOP: TOTAL NO. OF ITERATIONS REACHED LIMIT

Increase the number of iterations to improve the convergence (max_iter=100).
You might also want to scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. OF ITERATIONS REACHED LIMIT

Increase the number of iterations to improve the convergence (max_iter=100).
You might also want to scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


### cross_val_score
- 교차검증을 통해 모델 성능을 평가하는 함수
- 내부적으로 지정한 횟수만큼 학습/검증을 나누어 반복 처리

In [None]:
from sklearn.model_selection import cross_val_score

lr_clf = LogisticRegression(max_iter=1000)

scores = cross_val_score(lr_clf, iris_input, iris_target, cv=5, scoring='accuracy')
# 첫 번째 인자: 모델(클래스 이름)
# 두세 번째 인자: X, y 데이터
# cv: 교차 검증 반복 횟수(분류 문제가 아니면 KFold 기본으로 사용. 분류 문제는 StratifiedKFold)
#                      -> 샘플링 편향 방지 위해 StratifiedKFold 써야함
#                      -> StratifiedKFold 객체 전달 가능. (BaseCrossValidator)
# scoring: 평가 지표(기본으로 accuracy 사용. precision, recall, f1-score 지정 가능. 단, 두 개 이상 불가)

# 반환값: 반복한 훈련별 검증 점수를 배열 형태로 반환
print('훈련별 정확도:', scores)
print('모델 정확도:', np.mean(scores))

훈련별 정확도: [0.96666667 1.         0.93333333 0.96666667 1.        ]
모델 정확도: 0.9733333333333334


In [None]:
from sklearn.model_selection import cross_validate

lr_clf = LogisticRegression(max_iter=1000)

scores = cross_validate(lr_clf, iris_input, iris_target,
                        cv=5, scoring=('accuracy', 'f1_macro'),
                        return_train_score=True
                        )
# scoring: tuple형 가능. 즉, 다중 평가 지표 사용 가능
# 'f1'은 이진분류로 평가. 'f1_macro'는 다중 분류
# return_train_score = True: train데이터의 평가 지표도 함께 반환

# time값을 보고 판단하는 것도 필요(오래 걸리면 안 좋음)
# 교차 검증 메서드는 모델을 학습시키고 평가 점수도 내지만 모델 객체에 저장x
#   따라서 lr_clf.predict(iris_input) 쓰면 예측 불가
scores

{'fit_time': array([0.04188895, 0.05452538, 0.02415466, 0.01635027, 0.01613498]),
 'score_time': array([0.00701308, 0.00301957, 0.        , 0.        , 0.        ]),
 'test_accuracy': array([0.96666667, 1.        , 0.93333333, 0.96666667, 1.        ]),
 'train_accuracy': array([0.96666667, 0.96666667, 0.98333333, 0.98333333, 0.975     ]),
 'test_f1_macro': array([0.96658312, 1.        , 0.93265993, 0.96658312, 1.        ]),
 'train_f1_macro': array([0.96664582, 0.96664582, 0.98333333, 0.98332291, 0.97499609])}