#### 【 교차검증 (Cross Validation) 】

- 적은 데이터셋으로 안정적이고 신뢰성있는 모델 평가를 위한 방법
- 학습 데이터셋을 K개 분할 후 매번 다른 데이터로 검증 진행
- 교차검증 후 모델의 일반화 성능으로 여김

[1] 모듈 로딩 및 데이터 준비<hr>

In [1]:
## [1-1] 모듈 로딩
##-> 기본 모듈
import numpy as np
import pandas as pd

##-> ML 관련 모듈
from sklearn.model_selection import KFold, StratifiedGroupKFold   ## 교차검증용
from sklearn.neighbors import KNeighborsClassifier                ## 학습 알고리즘

In [2]:
## [1-2] 데이터 준비
DATA_FILE = '../Data/iris.csv'

irisDF = pd.read_csv(DATA_FILE)
irisDF.head(3)

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.0,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa


[2] 데이터 전처리 및 학습 준비 <hr>

In [4]:
## [2-1] 품종컬럼 자료형 변환
pd.options.mode.copy_on_write = True

irisDF.variety = irisDF.variety.astype('category')
irisDF.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype   
---  ------        --------------  -----   
 0   sepal.length  150 non-null    float64 
 1   sepal.width   150 non-null    float64 
 2   petal.length  150 non-null    float64 
 3   petal.width   150 non-null    float64 
 4   variety       150 non-null    category
dtypes: category(1), float64(4)
memory usage: 5.1 KB


In [5]:
## [2-2] 피쳐와 타겟분리
featureDF = irisDF[ irisDF.columns[:-1] ]
targetSR  = irisDF [ irisDF.columns[-1] ]

print(f'featureDF : {featureDF.shape},  targetSR : {targetSR.shape}')

featureDF : (150, 4),  targetSR : (150,)


[3] 교차검증 <hr>

In [None]:
## ======================================================
## [3-1] K-Fold 교차검증
## ======================================================
## K-Fold 인스턴스 생성
kfold = KFold(random_state=7, shuffle=True)
print(f'kfold => {kfold}')

## K개 교차검증 진행
## => 학습용 k-1/k 인덱스, 검증용 1/k 인덱스
for train_index, valid_index in kfold.split(featureDF):
    print(f'train_index : {train_index.shape},  x_test : {valid_index.shape}')
    
    print(f'x_test indices : {valid_index}')
    print(featureDF.iloc[valid_index], targetSR[valid_index])
    break

kfold => KFold(n_splits=5, random_state=7, shuffle=True)
x_train : (120,),  x_test : (30,)
x_test indices : [ 11  28  32  37  40  41  46  51  52  63  66  70  77  80  82  84  85  94
  97 101 106 108 109 119 120 129 137 138 140 149]
     sepal.length  sepal.width  petal.length  petal.width
11            4.8          3.4           1.6          0.2
28            5.2          3.4           1.4          0.2
32            5.2          4.1           1.5          0.1
37            4.9          3.6           1.4          0.1
40            5.0          3.5           1.3          0.3
41            4.5          2.3           1.3          0.3
46            5.1          3.8           1.6          0.2
51            6.4          3.2           4.5          1.5
52            6.9          3.1           4.9          1.5
63            6.1          2.9           4.7          1.4
66            5.6          3.0           4.5          1.5
70            5.9          3.2           4.8          1.8
77            6