## 교차 검증

<img src='https://velog.velcdn.com/images/pppanghyun/post/2a39921c-be87-4c53-ba92-3e5c4c06699d/image.png'>


머신러닝 모델의 **일반화 성능**을 보다 정확하고 신뢰성 있게 평가하기 위한 기법입니다. 데이터를 훈련 세트(Training Set)와 테스트 세트(Test Set)로 한 번만 나누어 평가할 때 발생할 수 있는 데이터 편향이나 **과적합(Overfitting)** 문제를 방지하는 데 목적

---

## 1. 교차 검증이란?

정의: 전체 데이터셋을 여러 개의 작은 부분집합(폴드, Fold)으로 나누고, 각 폴드를 돌아가면서 한 번은 **검증 세트(Validation Set)**로, 나머지는 **훈련 세트(Training Set)**로 사용하여 모델을 학습하고 평가하는 방식입니다.
* **목적:**
* **과적합 방지:** 특정 데이터셋에만 과도하게 최적화되는 것을 막고, 새로운 데이터에 대한 모델의 성능(일반화 성능)을 측정합니다.
* **데이터 활용 극대화:** 모든 데이터 샘플이 훈련 및 평가에 한 번 이상 사용될 수 있도록 하여 데이터 부족으로 인한 문제를 완화합니다.


* **최종 성능:** 여러 번의 학습 및 검증 과정을 통해 얻은 성능 지표(예: 정확도)들의 **평균값**을 최종 모델 성능으로 산출합니다.

---

## 2. 교차 검증의 대표적인 종류가장 일반적으로 사용되는 교차 검증 방법

 **K-겹 교차 검증(K-Fold Cross Validation)**이며, 데이터의 특성에 따라 그 변형된 형태를 사용합니다.

### A. K-겹 교차 검증 (K-Fold Cross Validation)* **원리:

** 전체 데이터셋을 K개의 동일한 크기의 폴드로 나눕니다.

* **과정:**
1. 총 K번의 반복을 수행합니다.
2. 매 반복마다 **하나의 폴드**를 검증 세트(Test set 또는 Validation set)로 사용하고, **나머지 K-1개의 폴드**를 훈련 세트(Training set)로 사용합니다.
3. K번의 실험을 통해 얻은 K개의 성능 지표를 **평균**하여 최종 모델 성능을 결정합니다.


* **특징:**
* 일반적으로 K는 5 또는 10으로 설정하는 경우가 많습니다.
* 회귀 모델 등 데이터의 분포가 독립적이고 균일할 때 주로 사용됩니다.



### B. 계층별 K-겹 교차 검증 (Stratified K-Fold Cross Validation)

* **필요성:** K-겹 교차 검증을 사용할 때, 분류(Classification) 문제에서 **레이블(클래스)의 분포가 불균형**할 경우(특정 클래스가 많거나 적을 경우), 무작위로 폴드를 나누면 특정 폴드에는 특정 클래스만 몰릴 수 있습니다. 이 경우 성능 평가가 제대로 이루어지지 않을 수 있습니다.
* **원리:** 원본 데이터셋의 레이블(클래스) 분포 비율을 먼저 고려하여, **모든 폴드에 걸쳐 레이블 분포가 원본 데이터와 유사하게 유지**되도록 폴드를 나눕니다.

* **사용:** 주로 **분류 모델**에서 K-겹 교차 검증보다 더 정확한 성능 평가를 위해 사용됩니다.

### C. 기타 교차 검증 방법* 
**LOOCV (Leave-One-Out Cross Validation):** K를 데이터 인스턴스(개수)와 동일하게 설정하는 방식으로, 매 반복마다 **하나의 인스턴스만** 검증 세트로 사용하고 나머지를 훈련 세트로 사용합니다. 데이터가 매우 작을 때 사용되지만, 계산 비용이 매우 높습니다.
* **Group K-Fold:** 데이터에 밀접하게 연관된 그룹이 있을 때, 같은 그룹의 데이터는 항상 훈련 세트나 검증 세트 **둘 중 하나**에만 있도록 분할합니다. (예: 환자별 측정 데이터)

---

## 3. 장점과 단점
| 구분 | 장점 (Why use Cross Validation) | 단점 (Drawbacks) |
| --- | --- | --- |
| **장점** |  **일반화된 성능 측정:** 데이터 편향이나 과적합 방지. |  **높은 계산 비용:** K번의 모델 학습과 평가를 반복해야 하므로, 시간이 오래 걸립니다. |
| **장점** |  **데이터 활용 극대화:** 모든 데이터를 훈련과 평가에 사용할 수 있어 효율적입니다. |  **대규모 데이터:** 데이터가 매우 클 경우, 단일 검증 세트만으로도 충분할 수 있으며 교차 검증은 비효율적일 수 있습니다. |

---

교차 검증은 모델을 개발하고 하이퍼파라미터를 튜닝할 때 필수적으로 사용되는 기법입니다. 데이터의 특성과 문제 유형에 따라 적절한 교차 검증 방식을 선택하는 것이 중요합니다.


In [1]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier, plot_tree
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import KFold, StratifiedKFold, cross_val_score
from sklearn.preprocessing import StandardScaler

import matplotlib.pyplot as plt
import matplotlib
matplotlib.rcParams['font.family']='Malgun Gothic'
matplotlib.rcParams['axes.unicode_minus'] = False

In [2]:
cancer = load_breast_cancer()

In [3]:
x_data = cancer['data']
y_data = cancer['target']

In [4]:
model = DecisionTreeClassifier()

In [5]:
kfold = KFold( n_splits=5 , shuffle=True)
result = cross_val_score( model, x_data, y_data, cv=kfold, verbose=3)

[CV] END ................................ score: (test=0.904) total time=   0.0s
[CV] END ................................ score: (test=0.930) total time=   0.0s
[CV] END ................................ score: (test=0.886) total time=   0.0s
[CV] END ................................ score: (test=0.939) total time=   0.0s
[CV] END ................................ score: (test=0.929) total time=   0.0s


[Parallel(n_jobs=1)]: Done   5 out of   5 | elapsed:    0.0s finished


In [6]:
result.mean()

np.float64(0.9174196553330228)

In [7]:
len( y_data)

569

In [8]:
np.bincount( y_data)

array([212, 357])

In [9]:
scaleF = StandardScaler()
x_scale = scaleF.fit_transform( x_data)

In [10]:
model_logi = LogisticRegression(max_iter=500)

In [11]:
skf = StratifiedKFold( shuffle=True , random_state=42)
score_skf = cross_val_score( model_logi, x_scale, y_data , cv=skf,
                             scoring='accuracy', verbose=3)

[CV] END ................................ score: (test=0.974) total time=   0.0s
[CV] END ................................ score: (test=0.947) total time=   0.0s
[CV] END ................................ score: (test=0.965) total time=   0.0s
[CV] END ................................ score: (test=0.991) total time=   0.0s
[CV] END ................................ score: (test=0.991) total time=   0.0s


[Parallel(n_jobs=1)]: Done   5 out of   5 | elapsed:    0.0s finished


In [12]:
score_skf.mean()

np.float64(0.9736686849868033)

In [13]:
score_skf.std()

np.float64(0.016627222216787987)

In [14]:
### 퀴즈 피마인디언 데이터셋에 대해 교차검증을 실시하시요( 결정트리 )

In [16]:
df = pd.read_csv('../data/pima-indians-diabetes.data.csv')

In [17]:
x_data = df.iloc[:,:-1].values
y_data = df.iloc[:,-1].values

In [18]:
np.bincount( y_data)

array([500, 268])

In [19]:
from sklearn.model_selection import GridSearchCV
param_grid={'min_samples_leaf':[1,3,5,7,9] }
# model = DecisionTreeClassifier(min_samples_leaf=3)
model_grid = GridSearchCV( DecisionTreeClassifier(), 
                          param_grid=param_grid, verbose=1)
model_grid.fit( x_data, y_data)

Fitting 5 folds for each of 5 candidates, totalling 25 fits


0,1,2
,estimator,DecisionTreeClassifier()
,param_grid,"{'min_samples_leaf': [1, 3, ...]}"
,scoring,
,n_jobs,
,refit,True
,cv,
,verbose,1
,pre_dispatch,'2*n_jobs'
,error_score,
,return_train_score,False

0,1,2
,criterion,'gini'
,splitter,'best'
,max_depth,
,min_samples_split,2
,min_samples_leaf,9
,min_weight_fraction_leaf,0.0
,max_features,
,random_state,
,max_leaf_nodes,
,min_impurity_decrease,0.0


In [20]:
model_grid.best_params_

{'min_samples_leaf': 9}

In [21]:
model_grid.best_score_

np.float64(0.7214158390628979)

In [22]:
model_grid.best_estimator_

0,1,2
,criterion,'gini'
,splitter,'best'
,max_depth,
,min_samples_split,2
,min_samples_leaf,9
,min_weight_fraction_leaf,0.0
,max_features,
,random_state,
,max_leaf_nodes,
,min_impurity_decrease,0.0


In [23]:
skf = StratifiedKFold( shuffle=True , random_state=42)
score_skf = cross_val_score( model_grid.best_estimator_, x_data, y_data , cv=skf,
                             scoring='accuracy', verbose=3)

[CV] END ................................ score: (test=0.792) total time=   0.0s
[CV] END ................................ score: (test=0.773) total time=   0.0s
[CV] END ................................ score: (test=0.747) total time=   0.0s
[CV] END ................................ score: (test=0.725) total time=   0.0s
[CV] END ................................ score: (test=0.680) total time=   0.0s


[Parallel(n_jobs=1)]: Done   5 out of   5 | elapsed:    0.0s finished


In [24]:
score_skf.mean()

np.float64(0.7433834139716493)