<a href="https://colab.research.google.com/github/choisangh/STUDY/blob/main/ML/%EA%B5%90%EC%B0%A8%EA%B2%80%EC%A6%9D.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 교차검증 (Cross-Validation)

## 개념
ref) https://scikit-learn.org/stable/modules/cross_validation.html#cross-validation

<font size=3><ul>
    <li>기존 검증 방식의 문제: <br>
        고정된 테스트 데이터로 평가를 하면 해당 데이터에만 과적합되는 모델이 만들어지게 된다.</li>
    <li>이러한 과적합 문제를 해결하기 위해 <font color=blue><b>train data를 train set, validation set으로 여러 번 분할하여 학습과 평가를 수행</b></font>하는 것을 의미</li>
    </ul></font>
    
|장점|단점|
|----|----|
|특정 데이터셋에 대한 과적합 방지=>더욱 일반화된 모델 생성 가능|모델 훈련 및 평가 소요시간 증가|
|데이터셋 규모가 적을 시 과소적합 방지||

## 종류

### K-Fold
ref) https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.KFold <br>
ref) https://jonsyou.tistory.com/23

* K개의 데이터 폴드 세트를 만들어서 K번만큼 각 폴드 세트에 학습과 검증을 반복적으로 수행
* 문제점: 원본 데이터의 레이블 분포를 학습 및 테스트 세트에 제대로 반영해 분배하지 못하는 경우 발생 -> Stratified K-Fold

<img src='https://blog.kakaocdn.net/dn/spjcn/btrwJVGmAhq/DNLiG5wUQ7DMqSAPFzjc61/img.png' width=600>

<font size=4 color=green><b>절차</b></font><hr>

<br>1. 데이터를 K개의 Group으로 나눔</br>
<br>2. K-1개 그룹의 데이터를 train 데이터로 사용하여 모델을 훈련</br>
<br>3. 데이터의 나머지 부분에 대해 검증 --validation</br>
<br>4. 검증 데이터 그룹을 달리하여 2,3 과정을 반복 (즉, 총 K번의 검증이 이루어짐)</br>

<font size=4 color=green><b>API</b></font><hr>
<img src='https://blog.kakaocdn.net/dn/bRZvc4/btrwIiB28nt/xK1PzROrXlxfk1Fkkw5XB0/img.png' width=800> 

<font size=4 color=green><b>파라미터</b></font><hr>
<ul>
    <li><font size=3><b>n_splits : int, default=5</b></font>
    <br>폴드 수를 지정하는 것으로 최소 2이며, 주로 5, 10을 많이 사용 (데이터의 특성에 따라 다름)</li>
    <li><font size=3><b>shuffle : bool, default=False</b></font>
    <br>폴드를 나누기 전에 데이터를 무작위로 섞을 것인지 여부</li>
    <li><font size=3><b>random_state : int, RandomState instance or None, default=None</b></font>
    <br>shuffle=True일 때, random_state로 폴드의 랜덤한 상태를 제어할 수 있다. 특정 수로 지정하여 재현가능</li></ul>

<font size=4 color=green><b>예시</b></font><hr>

In [None]:
import numpy as np
from sklearn.model_selection import KFold

X = ["a", "b", "c", "d"]
kf = KFold(n_splits=2)
for train_idx, test_idx in kf.split(X):   #split()으로 반환되는 인덱스 확인 가능
    print("train_idx :",train_idx, "test_idx :",test_idx)

train_idx : [2 3] test_idx : [0 1]
train_idx : [0 1] test_idx : [2 3]


In [None]:
import numpy as np
import pandas as pd
from sklearn.model_selection import KFold

X = np.arange(12*2).reshape(12,-1) 
y = np.array([0,0,1,2,1,0,0,0,0,1,2,2])

df=pd.DataFrame(X,columns=['X1','X2'])
y=pd.Series(y,name='y')
df=pd.concat([df,y],axis=1)

kf = KFold(n_splits=3) 
print(df['y'].value_counts())

for train_index, test_index in kf.split(df[['X1','X2']], df['y']):
    print("TRAIN:", df['y'][train_index].values, "TEST:", df['y'][test_index].values)

0    6
1    3
2    3
Name: y, dtype: int64
TRAIN: [1 0 0 0 0 1 2 2] TEST: [0 0 1 2]
TRAIN: [0 0 1 2 0 1 2 2] TEST: [1 0 0 0]
TRAIN: [0 0 1 2 1 0 0 0] TEST: [0 1 2 2]


### Stratified K-Fold
ref) https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.StratifiedKFold

* 불균형한 클래스 분포를 가진 데이터를 위한 K-Fold 방식
* 원본 데이터의 레이블 분포를 고려한 뒤, 이 비율과 동일하게 폴드에 분배
* 회귀에선 지원X -> 회귀의 레이블은 연속된 숫자값이기에 결정값별로 분포를 정하는 의미가 없기 때문

<img src='https://blog.kakaocdn.net/dn/kYoPe/btrwIhXr0Ec/6tuVdcY6mkd5MK7N3TItaK/img.webp' width=700>

<font size=4 color=green><b>API</b></font><hr>
<img src='https://blog.kakaocdn.net/dn/cjDhPx/btrwA6WKbar/gdVpMCjvHIltkj7sDSaL50/img.png' width=800> 

<font size=4 color=green><b>예시</b></font><hr>

In [None]:
import numpy as np
import pandas as pd
from sklearn.model_selection import StratifiedKFold

X = np.arange(12*2).reshape(12,-1) 
y = np.array([0,0,1,2,1,0,0,0,0,1,2,2])

df=pd.DataFrame(X,columns=['X1','X2'])
y=pd.Series(y,name='y')
df=pd.concat([df,y],axis=1)

skf = StratifiedKFold(n_splits=3) 
print(df['y'].value_counts())

# 레이블 데이터 분포도에 따라 train,val을 나누기에 split() 인자로 레이블 데이터도 필요
for train_index, test_index in skf.split(df[['X1','X2']], df['y']): 
    print("TRAIN:", df['y'][train_index].values, "TEST:", df['y'][test_index].values)


0    6
1    3
2    3
Name: y, dtype: int64
TRAIN: [1 0 0 0 0 1 2 2] TEST: [0 0 1 2]
TRAIN: [0 0 1 2 0 0 1 2] TEST: [1 0 0 2]
TRAIN: [0 0 1 2 1 0 0 2] TEST: [0 0 1 2]


### cross_val_score

* <font size=3>교차검증절차 과정을 편리하게 수행</font> <br>
<font size=2> 절차: " 1) 폴드세트 설정, 2) for 반복문으로 training, validation 세트의 인덱스 추출, 3) 학습 및 검증 수행 후 예측 성능 반환 "</font> 

<font size=4 color=green><b>API</b></font><hr>
<img src='https://blog.kakaocdn.net/dn/p9rhH/btrwwsTAbRC/FpQ2JkcNvdmblQ7mkqnGuk/img.png' width=700> 

<font size=4 color=green><b>파라미터</b></font><hr>
<ul>
    <li><font size=3><b>estimator : estimator object implementing ‘fit’</b></font>
    <br>학습 할 모델 ex) DecisionTreeClassifier</li>
    <li><font size=3><b>X : array-like of shape (n_samples, n_features)</b></font>
    <br>피쳐 데이터 세트</li>
    <li><font size=3><b>y : array-like of shape (n_samples,) or (n_samples, n_outputs), default=None</b></font>
    <br>레이블 데이터 세트</li>
    <li><font size=3><b>scoring : str or callable, default=None</b></font>
    <br>예측 성능 평가 지표, none일 경우 기본 scorer 사용</li>
    <li><font size=3><b>cv : int, cross-validation generator or an iterable, default=None</b></font>
    <br>교차 검증 폴더 수 / 교차 검증 반복자, input으로 int/none일 경우에 모델이 분류기이고 y가 이진 또는 다중 클래스일 때 StratifiedKFold이 사용, 나머지 경우엔 KFold </li>
    <li><font size=3><b>return) scores: ndarray of float of shape=(len(list(cv)),)</b></font>
    <br>교차 검증 점수를 array로 형태로 반환</li>

</ul>

In [None]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import StratifiedKFold
from sklearn.datasets import load_iris

data=load_iris().data
label=load_iris().target
classifier=DecisionTreeClassifier(random_state=111)
skf = StratifiedKFold(n_splits=3)

print(cross_val_score(classifier, data, label, cv=skf))

[0.98 0.94 0.98]


## import

In [None]:
from sklearn.model_selection import KFold
from sklearn.model_selection import StratifiedKFold
from sklearn.model_selection import cross_val_score