In [None]:
## [Sklearn] 파이썬 K-Fold 교차 검증 예제(KFold, StratifiedKFold 함수)
# https://jimmy-ai.tistory.com/178

In [2]:
from sklearn.datasets import load_iris
import pandas as pd
import numpy as np

## 데이터셋 로드
iris = load_iris()
df = pd.DataFrame(data= np.c_[iris.data, iris.target] , 
                  columns= ['sepal length', 'sepal width', 'petal length', 'petal width', 'class'])

df.tail()

Unnamed: 0,sepal length,sepal width,petal length,petal width,class
145,6.7,3.0,5.2,2.3,2.0
146,6.3,2.5,5.0,1.9,2.0
147,6.5,3.0,5.2,2.0,2.0
148,6.2,3.4,5.4,2.3,2.0
149,5.9,3.0,5.1,1.8,2.0


In [23]:
## KFold 함수 이용 데이터셋 분할 방법
from sklearn.model_selection import KFold

X = np.array(df.iloc[:, :-1]) # class 열 제외한 feature 열들 모음 -> array 변환
y = df['class']

# split 개수, 셔플 여부 및 seed 설정
kf = KFold(n_splits = 10, shuffle = True, random_state = 50)

# split 개수 스텝 만큼 train, test 데이터셋을 매번 분할
for train_index, test_index in kf.split(X):
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]

In [24]:
## K-Fold 교차 검증을 통한 분류기 학습 방법
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

accuracy_history = []

# K-fold 검증 과정으로 실제 랜덤 포레스트 모델을 학습하여 정확도 평균을 내는 방법
for train_index, test_index in kf.split(X):

    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]

    model = RandomForestClassifier(n_estimators=10, random_state=50) # 모델 선언
    model.fit(X_train, y_train) # 모델 학습

    y_pred = model.predict(X_test) # 예측 라벨
    accuracy_history.append(accuracy_score(y_pred, y_test)) # 정확도 측정 및 기록

print("각 분할의 정확도 기록 :", accuracy_history)
print("평균 정확도 :", np.mean(accuracy_history))

각 분할의 정확도 기록 : [1.0, 0.9333333333333333, 0.9333333333333333, 1.0, 1.0, 0.9333333333333333, 0.9333333333333333, 1.0, 0.9333333333333333, 0.9333333333333333]
평균 정확도 : 0.96


In [21]:
## class 별 동일 비율 분할 교차 검증 : StratifiedKFold 함수
from sklearn.model_selection import StratifiedKFold

# split 개수, 셔플 여부 및 seed 설정
str_kf = StratifiedKFold(n_splits = 10, shuffle = True, random_state = 50)

# split 개수 스텝 만큼 train, test 데이터셋을 매번 분할
for train_index, test_index in str_kf.split(X, y):
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]

In [22]:
## StratifiedKFold 교차 검증을 통한 분류기 학습 방법
accuracy_history = []

# K-fold 검증 과정으로 실제 랜덤 포레스트 모델을 학습하여 정확도 평균을 내는 방법
for train_index, test_index in str_kf.split(X, y):

    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]

    model = RandomForestClassifier(n_estimators=10, random_state=50) # 모델 선언
    model.fit(X_train, y_train) # 모델 학습

    y_pred = model.predict(X_test) # 예측 라벨
    accuracy_history.append(accuracy_score(y_pred, y_test)) # 정확도 측정 및 기록

print("각 분할의 정확도 기록 :", accuracy_history)
print("평균 정확도 :", np.mean(accuracy_history))

각 분할의 정확도 기록 : [0.9333333333333333, 0.9333333333333333, 0.8666666666666667, 1.0, 1.0, 1.0, 0.9333333333333333, 0.9333333333333333, 1.0, 0.8666666666666667]
평균 정확도 : 0.9466666666666667
