## Stratifide Kfold - 층화 Kfold

- Stratified K 폴드는 불균형한(imbalanced) 분포도를 가진 레이블(결정 클래스) 데이터 집합을 위한 K폴드 방식이다. 불균형한 분포도를 가진 레이블 데이터 집합은 특정 레이블 값이 특이하게 많거나 매우 적어서 값의 분포가 한쪽으로 치우치는 것을 말한다.

In [7]:
# 넘파이, 판다스
import pandas as pd
import numpy as np

# iris 데이터 셋
from sklearn.datasets import load_iris

# 데이터 분할
from sklearn.model_selection import train_test_split

# Kfold 호출
from sklearn.model_selection import KFold
from sklearn.model_selection import StratifiedKFold # 층화 KFold

# 필요 알고리즘
from sklearn.tree import DecisionTreeClassifier # 의사결정나무

# 평가지표
from sklearn.metrics import accuracy_score as acc_sc # 정확도

In [12]:
# 데이터 정의
iris = load_iris()
iris_df = pd.DataFrame(iris.data, columns = iris.feature_names)
iris_df['label'] = iris.target
iris_df.label.value_counts()

0    50
1    50
2    50
Name: label, dtype: int64

In [28]:
iris_df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2


In [21]:
kfold = KFold(n_splits=3) # k = 3 // cv = 3

for train_index, val_index in kfold.split(iris_df):
    label_train = iris_df['label'].iloc[train_index] # label => Series값의 iloc(위치기반)을 적용
    label_val = iris_df['label'].iloc[val_index]
    
    print('학습 레이블의 데이터 분포:\n', label_train.value_counts())
    
    print('검증 레이블의 데이터 분포:\n', label_val.value_counts())

학습 레이블의 데이터 분포:
 1    50
2    50
Name: label, dtype: int64
검증 레이블의 데이터 분포:
 0    50
Name: label, dtype: int64
학습 레이블의 데이터 분포:
 0    50
2    50
Name: label, dtype: int64
검증 레이블의 데이터 분포:
 1    50
Name: label, dtype: int64
학습 레이블의 데이터 분포:
 0    50
1    50
Name: label, dtype: int64
검증 레이블의 데이터 분포:
 2    50
Name: label, dtype: int64


In [33]:
# 층화 K-Fold를 적용한다.
from sklearn.model_selection import StratifiedKFold

skf = StratifiedKFold(n_splits=3) # k = 3 // cv = 3

for train_index, val_index in skf.split(iris_df, iris_df['label']):
    label_train = iris_df['label'].iloc[train_index] # label => Series값의 iloc(위치기반)을 적용
    label_val = iris_df['label'].iloc[val_index]
    
    print('학습 레이블의 데이터 분포:\n', label_train.value_counts())
    
    print('검증 레이블의 데이터 분포:\n', label_val.value_counts())

학습 레이블의 데이터 분포:
 2    34
0    33
1    33
Name: label, dtype: int64
검증 레이블의 데이터 분포:
 0    17
1    17
2    16
Name: label, dtype: int64
학습 레이블의 데이터 분포:
 1    34
0    33
2    33
Name: label, dtype: int64
검증 레이블의 데이터 분포:
 0    17
2    17
1    16
Name: label, dtype: int64
학습 레이블의 데이터 분포:
 0    34
1    33
2    33
Name: label, dtype: int64
검증 레이블의 데이터 분포:
 1    17
2    17
0    16
Name: label, dtype: int64
