* Stratified K 폴드는 불균형한(imbalanced) 분포도를 가진 레이블(결정 클래스) 데이터 집합을 위한 K폴드 방식입니다. 불균형한 분포도를 가진 레이블 데이터 집합은 특정 레이블 값이 특이하게 많거나 매우 적어서 값의 분포가 한쪽으로 치우치는 것을 말한다.

In [5]:
# 넘파이 판다스 
import numpy as np
import pandas as pd

# iris 데이터 셋
from sklearn.datasets import load_iris

# 데이터 분할
from sklearn.model_selection import train_test_split

# KFold 호출
from sklearn.model_selection import KFold
from sklearn.model_selection import StratifiedKFold

# 필요 알고리즘
from sklearn.tree import DecisionTreeClassifier

# 평가지표 
from sklearn.metrics import accuracy_score as acc_sc

In [9]:
iris = load_iris()
iris_df = pd.DataFrame(iris.data, columns=iris.feature_names)
iris_df['label'] = iris.target
iris_df.label.value_counts()

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
       [4.9, 3

In [15]:
kfold = KFold(n_splits=3)  # k = 3 // cv = 3

for train_index, val_index in kfold.split(iris_df):
    label_train = iris_df['label'].iloc[train_index]  # label => series 값의 iloc(index 기반)을 적용
    label_val = iris_df['label'].iloc[val_index]
    
    print('학습 레이블의 데이터 분포:\n', label_train.value_counts())
    print('검증 레이블의 데이터 분포:\n', label_val.value_counts())

학습 레이블의 데이터 분포:
 1    50
2    50
Name: label, dtype: int64
검증 레이블의 데이터 분포:
 0    50
Name: label, dtype: int64
학습 레이블의 데이터 분포:
 0    50
2    50
Name: label, dtype: int64
검증 레이블의 데이터 분포:
 1    50
Name: label, dtype: int64
학습 레이블의 데이터 분포:
 0    50
1    50
Name: label, dtype: int64
검증 레이블의 데이터 분포:
 2    50
Name: label, dtype: int64


In [17]:
# 층화 KFold 적용 => 자동으로 train val test 안분하여 갯수를 맞춰준다.
from sklearn.model_selection import StratifiedKFold

skf = StratifiedKFold(n_splits=3)  # k = 3 // cv = 3

for train_index, val_index in skf.split(iris_df, iris_df['label']):
    label_train = iris_df['label'].iloc[train_index]  # label => series 값의 iloc(index 기반)을 적용
    label_val = iris_df['label'].iloc[val_index]
    
    print('학습 레이블의 데이터 분포:\n', label_train.value_counts())
    print('검증 레이블의 데이터 분포:\n', label_val.value_counts())

학습 레이블의 데이터 분포:
 2    34
0    33
1    33
Name: label, dtype: int64
검증 레이블의 데이터 분포:
 0    17
1    17
2    16
Name: label, dtype: int64
학습 레이블의 데이터 분포:
 1    34
0    33
2    33
Name: label, dtype: int64
검증 레이블의 데이터 분포:
 0    17
2    17
1    16
Name: label, dtype: int64
학습 레이블의 데이터 분포:
 0    34
1    33
2    33
Name: label, dtype: int64
검증 레이블의 데이터 분포:
 1    17
2    17
0    16
Name: label, dtype: int64
