In [1]:
import numpy as np

from sklearn.model_selection import train_test_split
from sklearn import datasets

In [2]:
iris = datasets.load_iris()
X = iris.data
y = iris.target

X.shape, y.shape

((150, 4), (150,))

In [3]:
X_tr, X_te, y_tr, y_te = train_test_split(X, y, test_size = 0.4, random_state=0)

In [5]:
X_tr.shape, X_te.shape, y_tr.shape, y_te.shape

((90, 4), (60, 4), (90,), (60,))

In [6]:
from sklearn import svm

In [7]:
clf = svm.SVC(kernel='linear', C=1)
clf.fit(X_tr, y_tr)

In [8]:
clf.score(X_te, y_te)

0.9666666666666667

===

In [9]:
from sklearn.model_selection import KFold
from sklearn.metrics import accuracy_score

In [10]:
# 모델 정의
clf = svm.SVC(kernel='linear', C=1)

In [11]:
# 교차 검증
kf = KFold(n_splits=5, shuffle=True, random_state=0)

In [36]:
print(f"X_tr counts : {len(X_tr)}")

for train_index, valid_index in kf.split(X_tr):
    print(f"train_index = {train_index}")
    print(f"valid_index = {valid_index}")
    break

X_tr counts : 90
train_index = [ 0  1  3  4  5  6  9 10 11 12 14 15 17 18 19 20 21 22 23 25 27 28 29 31
 32 34 35 36 37 38 39 40 42 44 46 47 48 49 50 51 52 54 55 57 58 59 60 61
 62 64 65 67 68 69 70 71 72 73 74 75 76 77 79 80 81 82 83 84 85 86 87 88]
valid_index = [ 2  7  8 13 16 24 26 30 33 41 43 45 53 56 63 66 78 89]


In [35]:
n_iter = 0
accuracy_lst = []

for train_index, valid_index in kf.split(X_tr):
    print(train_index, valid_index)
    n_iter += 1
    # 학습용, 검증용 데이터 구성
    train_x, valid_x = X_tr[train_index], X_tr[valid_index]
    train_y, valid_y = y_tr[train_index], y_tr[valid_index]
    # 학습
    clf.fit(train_x, train_y)
    # 예측
    pred = clf.predict(valid_x)
    # 평가
    accuracy = np.round(accuracy_score(valid_y, pred), 4)
    accuracy_lst.append(accuracy)
    print(f'{n_iter} 번째 K-fold 정확도: {accuracy}, 학습데이터 크기: {train_x.shape}, 검증데이터 크기: {valid_x.shape}')

# 최종 평가
print('-'*50)
print(f'교차 검증 정확도: {np.mean(accuracy_lst)} / 모델 평가: {clf.score(X_te, y_te)}')

[ 0  1  3  4  5  6  9 10 11 12 14 15 17 18 19 20 21 22 23 25 27 28 29 31
 32 34 35 36 37 38 39 40 42 44 46 47 48 49 50 51 52 54 55 57 58 59 60 61
 62 64 65 67 68 69 70 71 72 73 74 75 76 77 79 80 81 82 83 84 85 86 87 88] [ 2  7  8 13 16 24 26 30 33 41 43 45 53 56 63 66 78 89]
1 번째 K-fold 정확도: 1.0, 학습데이터 크기: (72, 4), 검증데이터 크기: (18, 4)
[ 0  1  2  4  5  7  8  9 10 11 12 13 14 15 16 17 19 20 21 23 24 25 26 28
 29 30 31 32 33 34 35 36 37 38 39 40 41 43 44 45 46 47 49 52 53 55 56 57
 58 59 60 63 64 65 66 67 68 69 70 71 72 74 76 78 81 83 84 85 86 87 88 89] [ 3  6 18 22 27 42 48 50 51 54 61 62 73 75 77 79 80 82]
2 번째 K-fold 정확도: 0.9444, 학습데이터 크기: (72, 4), 검증데이터 크기: (18, 4)
[ 1  2  3  6  7  8  9 10 12 13 14 16 18 19 20 21 22 24 25 26 27 29 30 31
 32 33 36 37 39 41 42 43 44 45 46 47 48 49 50 51 53 54 56 57 58 60 61 62
 63 64 65 66 67 69 70 71 72 73 75 76 77 78 79 80 82 83 84 85 86 87 88 89] [ 0  4  5 11 15 17 23 28 34 35 38 40 52 55 59 68 74 81]
3 번째 K-fold 정확도: 0.9444, 학습데이터 크기: (72, 4), 검증데이터 크

In [37]:
from sklearn.model_selection import StratifiedKFold

import pandas as pd

In [39]:
df_train = pd.DataFrame(data=X_tr, columns=iris.feature_names)
df_train['label'] = y_tr
df_train.shape 

(90, 5)

In [40]:
# 모델 정의
clf = svm.SVC(kernel='linear', C=1)

In [41]:
# 교차 검증
skf = StratifiedKFold(n_splits=5, shuffle=True, random_state=0)

In [44]:
n_iter = 0
accuracy_lst = []

for train_index, valid_index in skf.split(df_train, df_train['label']):
    n_iter += 1
    # 학습용, 검증용 데이터 구성
    label_train = df_train['label'].iloc[train_index]
    label_valid = df_train['label'].iloc[valid_index]

    train_x, valid_x = X_tr[train_index], X_tr[valid_index]
    train_y, valid_y = y_tr[train_index], y_tr[valid_index]
    # 학습
    clf.fit(train_x, train_y)
    # 예측
    pred = clf.predict(valid_x)
    # 평가
    accuracy = np.round(accuracy_score(valid_y, pred), 4)
    accuracy_lst.append(accuracy)
    print(f'{n_iter} 번째 Stratified Stratified K-Fold 정확도: {accuracy}, 학습데이터 label 분포: {label_train.value_counts()}, 검증데이터 label 분포: {label_valid.value_counts()}')

# 최종 평가
print('-'*50)
print(f'교차 검증 정확도: {np.mean(accuracy_lst)} / 모델 평가: {clf.score(X_te, y_te)}')

1 번째 Stratified Stratified K-Fold 정확도: 1.0, 학습데이터 label 분포: 0    27
2    24
1    21
Name: label, dtype: int64, 검증데이터 label 분포: 0    7
1    6
2    5
Name: label, dtype: int64
2 번째 Stratified Stratified K-Fold 정확도: 1.0, 학습데이터 label 분포: 0    28
2    23
1    21
Name: label, dtype: int64, 검증데이터 label 분포: 1    6
0    6
2    6
Name: label, dtype: int64
3 번째 Stratified Stratified K-Fold 정확도: 1.0, 학습데이터 label 분포: 0    27
2    23
1    22
Name: label, dtype: int64, 검증데이터 label 분포: 0    7
2    6
1    5
Name: label, dtype: int64
4 번째 Stratified Stratified K-Fold 정확도: 0.9444, 학습데이터 label 분포: 0    27
2    23
1    22
Name: label, dtype: int64, 검증데이터 label 분포: 0    7
2    6
1    5
Name: label, dtype: int64
5 번째 Stratified Stratified K-Fold 정확도: 1.0, 학습데이터 label 분포: 0    27
2    23
1    22
Name: label, dtype: int64, 검증데이터 label 분포: 0    7
2    6
1    5
Name: label, dtype: int64
--------------------------------------------------
교차 검증 정확도: 0.98888 / 모델 평가: 0.8833333333333333


In [45]:
from sklearn.model_selection import cross_val_predict

In [47]:
# 모델 정의
clf = svm.SVC(kernel='linear', C=1)
# 교차 검증
predicts = cross_val_predict(clf, X_tr, y_tr, cv=5)
print(f'각 예측 결과과: \n:{pd.Series(predicts)}')

각 예측 결과과: 
:0     1
1     0
2     2
3     1
4     1
     ..
85    0
86    2
87    1
88    2
89    0
Length: 90, dtype: int64


In [48]:
from sklearn.model_selection import cross_val_score

In [49]:
# 모델 정의
clf = svm.SVC(kernel='linear', C=1)
# 교차 검증
scores = cross_val_score(clf, X_tr, y_tr, scoring='accuracy', cv=5)
print(f'각 검증 별 점수: \n{pd.Series(scores)}')
print(f'교차 검증 평균 점수: {np.mean(scores)}')

각 검증 별 점수: 
0    1.000000
1    1.000000
2    1.000000
3    1.000000
4    0.944444
dtype: float64
교차 검증 평균 점수: 0.9888888888888889
