# 학습/테스트 데이터 분할

In [1]:
# iris 데이터
from sklearn.datasets import load_iris
# pandas
import pandas as pd

In [2]:
# 데이터 불러오기
df_raw = load_iris()
df_raw

{'data': array([[5.1, 3.5, 1.4, 0.2],
        [4.9, 3. , 1.4, 0.2],
        [4.7, 3.2, 1.3, 0.2],
        [4.6, 3.1, 1.5, 0.2],
        [5. , 3.6, 1.4, 0.2],
        [5.4, 3.9, 1.7, 0.4],
        [4.6, 3.4, 1.4, 0.3],
        [5. , 3.4, 1.5, 0.2],
        [4.4, 2.9, 1.4, 0.2],
        [4.9, 3.1, 1.5, 0.1],
        [5.4, 3.7, 1.5, 0.2],
        [4.8, 3.4, 1.6, 0.2],
        [4.8, 3. , 1.4, 0.1],
        [4.3, 3. , 1.1, 0.1],
        [5.8, 4. , 1.2, 0.2],
        [5.7, 4.4, 1.5, 0.4],
        [5.4, 3.9, 1.3, 0.4],
        [5.1, 3.5, 1.4, 0.3],
        [5.7, 3.8, 1.7, 0.3],
        [5.1, 3.8, 1.5, 0.3],
        [5.4, 3.4, 1.7, 0.2],
        [5.1, 3.7, 1.5, 0.4],
        [4.6, 3.6, 1. , 0.2],
        [5.1, 3.3, 1.7, 0.5],
        [4.8, 3.4, 1.9, 0.2],
        [5. , 3. , 1.6, 0.2],
        [5. , 3.4, 1.6, 0.4],
        [5.2, 3.5, 1.5, 0.2],
        [5.2, 3.4, 1.4, 0.2],
        [4.7, 3.2, 1.6, 0.2],
        [4.8, 3.1, 1.6, 0.2],
        [5.4, 3.4, 1.5, 0.4],
        [5.2, 4.1, 1.5, 0.1],
  

In [3]:
# Target
df_y = df_raw.target
# Features
df_x = df_raw.data
# pandas 변환
df = pd.DataFrame(data = df_x, columns = df_raw.feature_names)
df['Target'] = df_y
df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),Target
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


In [4]:
# train_test_split
from sklearn.model_selection import train_test_split
# 데이터 분할
X_train, X_test, Y_train, Y_test = train_test_split(df_x, df_y, test_size = 0.3, random_state = 121)
# 결과 확인
print('train data X size :', X_train.shape)
print('train data Y size :', Y_train.shape)
print('test data X size :', X_test.shape)
print('test data Y size :', Y_test.shape)

train data X size : (105, 4)
train data Y size : (105,)
test data X size : (45, 4)
test data Y size : (45,)


In [5]:
# Decision Tree Classifier
from sklearn.tree import DecisionTreeClassifier as DTC
# 모델 생성
dtc_basic = DTC(random_state = 11)
# 학습
dtc_basic.fit(X_train, Y_train)
# 예측
y_pred_basic = dtc_basic.predict(X_test)

In [6]:
# 성능 평가
from sklearn.metrics import accuracy_score
# 성능 확인
print('정확도 : {:.4f}'.format(accuracy_score(Y_test, y_pred_basic)))

정확도 : 0.9556


 # K폴드 교차 검증

In [7]:
# K-Fold
from sklearn.model_selection import KFold
kfold = KFold(n_splits = 5)
# 정확도 평가 리스트 변수 생성
kfold_accuracy = []
# Numpy
import numpy as np

In [9]:
# 순서 확인 변수
n = 0
# K-Fold 적용
for i, j in kfold.split(df_x) :
    # 데이터 분할
    X_train, X_test = df_x[i], df_x[j]
    Y_train, Y_test = df_y[i], df_y[j]
    # 모델 생성
    dtc_kfold = DTC(random_state = 156)
    # 학습
    dtc_kfold.fit(X_train, Y_train)
    # 예측
    y_pred_kfold = dtc_kfold.predict(X_test)
    
    n += 1
    
    # 정확도
    accuracy = np.round(accuracy_score(Y_test, y_pred_kfold), 4)
    train_size = X_train.shape[0]
    test_size = X_test.shape[0]
    # 결과 확인
    print('\n{} 교차 검증 정확도 : {:.4f}, train data 크기 : {}, test data 크기 : {}'.format(n, accuracy, train_size, test_size))
    # 정확도 저장
    kfold_accuracy.append(accuracy)

# 평균 정확도
print('\n평균 정확도 :', np.mean(kfold_accuracy))


1 교차 검증 정확도 : 1.0000, train data 크기 : 120, test data 크기 : 30

2 교차 검증 정확도 : 0.9667, train data 크기 : 120, test data 크기 : 30

3 교차 검증 정확도 : 0.8667, train data 크기 : 120, test data 크기 : 30

4 교차 검증 정확도 : 0.9333, train data 크기 : 120, test data 크기 : 30

5 교차 검증 정확도 : 0.7333, train data 크기 : 120, test data 크기 : 30

평균 정확도 : 0.9


# Stratified K폴드

In [12]:
# Target 고유값
df['Target'].value_counts()

0    50
1    50
2    50
Name: Target, dtype: int64

In [13]:
# K-Fold
kfold = KFold(n_splits = 5)
# 순서 확인 변수
n = 0
# K-Fold 적용
for i, j in kfold.split(df) :
    n += 1
    
    train = df['Target'].iloc[i]
    test = df['Target'].iloc[j]
    print('교차 검증 : {}'.format(n))
    print('\nTrain data 분포 : \n', train.value_counts())
    print('\nTest data 분포 : \n', test.value_counts())

교차 검증 : 1

Train data 분포 : 
 1    50
2    50
0    20
Name: Target, dtype: int64

Test data 분포 : 
 0    30
Name: Target, dtype: int64
교차 검증 : 2

Train data 분포 : 
 2    50
1    40
0    30
Name: Target, dtype: int64

Test data 분포 : 
 0    20
1    10
Name: Target, dtype: int64
교차 검증 : 3

Train data 분포 : 
 0    50
2    50
1    20
Name: Target, dtype: int64

Test data 분포 : 
 1    30
Name: Target, dtype: int64
교차 검증 : 4

Train data 분포 : 
 0    50
1    40
2    30
Name: Target, dtype: int64

Test data 분포 : 
 2    20
1    10
Name: Target, dtype: int64
교차 검증 : 5

Train data 분포 : 
 0    50
1    50
2    20
Name: Target, dtype: int64

Test data 분포 : 
 2    30
Name: Target, dtype: int64


* 고르지 못한 것을 확인

In [15]:
# Stratified K-Fold
from sklearn.model_selection import StratifiedKFold
skfold = StratifiedKFold(n_splits = 3)
# 순서 확인 변수
n = 0
# Stratified K-Fold 적용
for i, j in skfold.split(df, df['Target']) :
    n += 1
    
    train = df['Target'].iloc[i]
    test = df['Target'].iloc[j]
    print('교차 검증 : {}'.format(n))
    print('\nTrain data 분포 : \n', train.value_counts())
    print('\nTest data 분포 : \n', test.value_counts())   

교차 검증 : 1

Train data 분포 : 
 2    34
0    33
1    33
Name: Target, dtype: int64

Test data 분포 : 
 0    17
1    17
2    16
Name: Target, dtype: int64
교차 검증 : 2

Train data 분포 : 
 1    34
0    33
2    33
Name: Target, dtype: int64

Test data 분포 : 
 0    17
2    17
1    16
Name: Target, dtype: int64
교차 검증 : 3

Train data 분포 : 
 0    34
1    33
2    33
Name: Target, dtype: int64

Test data 분포 : 
 1    17
2    17
0    16
Name: Target, dtype: int64


* 고르게 분할된 것을 확인할 수 있음

# cross_val_score()

In [16]:
# cross_val_score
from sklearn.model_selection import cross_val_score, cross_validate
# Decision Tree
dtc_cvs = DTC(random_state = 156)
# cross_val_score 적용
scores = cross_val_score(dtc_cvs, df_x, df_y, scoring = 'accuracy', cv = 3)
# 결과 확인
print('교차 검증별 정확도 :', np.round(scores, 4))
print('평균 검증 정확도 :', np.round(np.mean(scores), 4))

교차 검증별 정확도 : [0.98 0.94 0.98]
평균 검증 정확도 : 0.9667
