## 붖꽃 품종 예측하기
- datasets : 붖꽃 데이터 세트(load_iris) 가져오기 위한 라이브러리
- tree : 학습 모듈 (DecisionTree : 의사 결정 트리)
- train_test_split : 데이터 분리를 위한 함수
- pandas : 데이터 핸들링을 위한 라이브러리
- accuracy_score : 정확도 측정을 위한 함수

In [1]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import pandas as pd

In [2]:
# 붖꽃 데이터 세트 로딩 
iris = load_iris()

In [3]:
# 붖꽃 데이터 세트중 피처만으로 되어있는 데이터를 가져옴
iris_data = iris.data

In [4]:
# 데이터 확인
iris_label = iris.target
print('iris target값 : {}'.format(iris_label))
print('iris target명 : {}'.format(iris.target_names))

iris target값 : [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
iris target명 : ['setosa' 'versicolor' 'virginica']


In [5]:
# 데이터 세트를 dataframe 으로 변경
# label 은 품종으로 0, 1, 2 로 구성되어 있음
iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names)
iris_df['label'] = iris.target
iris_df.head(5)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


In [6]:
# 데이터 분리 
# test_size=0.2 : 테스트 20%, 학습데이터 80% (default : 0.25)
# random_state=11 : 랜덤한 세트로 분리하기 위한 시드값 (시드값을 지정해주지 않으면 실행시마다 다른 세트로 나올수 있으며 11은 큰 의미 없으므로 다른 숫자를 넣어도 됨) 
# shuffle : 데이터를 분리하기전 미리 섞을 것인지 : (default: true)
x_train, x_test , y_train , y_test = train_test_split(iris_data, iris_label, test_size=0.2, random_state=11, shuffle=True)

In [7]:
# 트리 생성
dt_class = DecisionTreeClassifier(random_state=11)

In [8]:
# 학습 수행
dt_class.fit(x_train, y_train)

DecisionTreeClassifier(random_state=11)

In [9]:
# 학습 완료된 객체에서 테스트 데이터 세트로 예측 수행
pred = dt_class.predict(x_test)

In [10]:
# 정확도 출력 : 93%
print('정확도 : {0:.4f}'.format(accuracy_score(y_test, pred)))

정확도 : 0.9333


## 교차검증
### 1) K 폴드 교차 검증

In [11]:
from sklearn.model_selection import KFold
import numpy as np

In [12]:
iris = load_iris()
features = iris.data # 입력 데이터
label = iris.target # 정답 데이터
dt_class = DecisionTreeClassifier(random_state=156)

In [13]:
# K 폴드 선언
kfold = KFold(n_splits=5)
cv_accuracy = []
print('붖꽃 데이터 세트 크기 : ', features.shape[0])

붖꽃 데이터 세트 크기 :  150


In [38]:
n_iter = 0
# Kfold 의 split 함수 호출시 index 반환
for train_index, test_index in kfold.split(features):
    x_train, x_test = features[train_index], features[test_index]
    y_train, y_test = label[train_index], label[test_index]
    #학습 및 예측
    dt_class.fit(x_train, y_train)
    pred = dt_class.predict(x_test)
    n_iter+=1
    #정확도 측정
    accuracy = np.round(accuracy_score(y_test, pred), 4)
    train_size = x_train.shape[0]
    test_size = x_test.shape[0]
    print("[{0}] 번째 교차 검증".format(n_iter))
    print('- 교차 검증 정확도 : {0}, 학습 데이터 크기 : {1}, 검증 데이터 크기 : {2}'.format(accuracy, train_size, test_size))
    print('- 검증 인덱스 : {0}'.format(test_index))
    print("----------------------------------------------------------------------")
    cv_accuracy.append(accuracy)

[1] 번째 교차 검증
- 교차 검증 정확도 : 0.0, 학습 데이터 크기 : 100, 검증 데이터 크기 : 50
- 검증 인덱스 : [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47
 48 49]
----------------------------------------------------------------------
[2] 번째 교차 검증
- 교차 검증 정확도 : 0.0, 학습 데이터 크기 : 100, 검증 데이터 크기 : 50
- 검증 인덱스 : [50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73
 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97
 98 99]
----------------------------------------------------------------------
[3] 번째 교차 검증
- 교차 검증 정확도 : 0.0, 학습 데이터 크기 : 100, 검증 데이터 크기 : 50
- 검증 인덱스 : [100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117
 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135
 136 137 138 139 140 141 142 143 144 145 146 147 148 149]
----------------------------------------------------------------------


In [15]:
# 정확도 : K개 검증 평균 => 90%
print("검증 정확도 : {}".format(np.mean(cv_accuracy)))

검증 정확도 : 0.9


### 2) stratified K 폴드
- 데이터가 편향되어 분배되는 것을 방지하기 위한 방법

In [16]:
from sklearn.model_selection import StratifiedKFold
import numpy as np

In [17]:
iris = load_iris()
features = iris.data # 입력 데이터
label = iris.target # 정답 데이터
dt_class = DecisionTreeClassifier(random_state=156)

In [18]:
# K 폴드 선언
skfold = StratifiedKFold(n_splits=5)
cv_accuracy = []
print('붖꽃 데이터 세트 크기 : ', features.shape[0])

붖꽃 데이터 세트 크기 :  150


In [37]:
n_iter = 0
# Kfold 의 split 함수 호출시 index 반환
for train_index, test_index in skfold.split(features, label):
    x_train, x_test = features[train_index], features[test_index]
    y_train, y_test = label[train_index], label[test_index]
    #학습 및 예측
    dt_class.fit(x_train, y_train)
    pred = dt_class.predict(x_test)
    n_iter+=1
    #정확도 측정
    accuracy = np.round(accuracy_score(y_test, pred), 4)
    train_size = x_train.shape[0]
    test_size = x_test.shape[0]
    print("[{0}] 번째 교차 검증".format(n_iter))
    print('- 교차 검증 정확도 : {0}, 학습 데이터 크기 : {1}, 검증 데이터 크기 : {2}'.format(accuracy, train_size, test_size))
    print('- 검증 인덱스 : {0}'.format(test_index))
    print("----------------------------------------------------------------------")
    cv_accuracy.append(accuracy)

[1] 번째 교차 검증
- 교차 검증 정확도 : 0.98, 학습 데이터 크기 : 100, 검증 데이터 크기 : 50
- 검증 인덱스 : [  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  50
  51  52  53  54  55  56  57  58  59  60  61  62  63  64  65  66 100 101
 102 103 104 105 106 107 108 109 110 111 112 113 114 115]
----------------------------------------------------------------------
[2] 번째 교차 검증
- 교차 검증 정확도 : 0.94, 학습 데이터 크기 : 100, 검증 데이터 크기 : 50
- 검증 인덱스 : [ 17  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  67
  68  69  70  71  72  73  74  75  76  77  78  79  80  81  82 116 117 118
 119 120 121 122 123 124 125 126 127 128 129 130 131 132]
----------------------------------------------------------------------
[3] 번째 교차 검증
- 교차 검증 정확도 : 0.98, 학습 데이터 크기 : 100, 검증 데이터 크기 : 50
- 검증 인덱스 : [ 34  35  36  37  38  39  40  41  42  43  44  45  46  47  48  49  83  84
  85  86  87  88  89  90  91  92  93  94  95  96  97  98  99 133 134 135
 136 137 138 139 140 141 142 143 144 145 146 147 148 149]
------------------

In [20]:
# 정확도 : K개 검증 평균 => 96%
print("검증 정확도 : {}".format(np.mean(cv_accuracy)))

검증 정확도 : 0.9600200000000001


### 3) K 폴드 vs stratified K 폴드
- 분류에서는 stratified K 폴드를 주로 사용
- 회귀에서는 정답 데이터가 연속적인 값이기에 stratified K 폴드를 사용할 수 없다. (input에 정답 데이터를 넣기에)

In [32]:
# K 폴드 방식
kfold = KFold(n_splits=3)

n_iter = 0
for train_index, test_index in kfold.split(features):
    y_train, y_test = label[train_index], label[test_index]
    n_iter+=1
    print("[{0}] 번째 교차 검증".format(n_iter))
    print("- 학습 데이터\n{0}".format(pd.DataFrame(y_train).value_counts()))
    print("- 검증 데이터\n{0}".format(pd.DataFrame(y_test).value_counts()))
    print("------------------")

[1] 번째 교차 검증
- 학습 데이터
2    50
1    50
dtype: int64
- 검증 데이터
0    50
dtype: int64
------------------
[2] 번째 교차 검증
- 학습 데이터
2    50
0    50
dtype: int64
- 검증 데이터
1    50
dtype: int64
------------------
[3] 번째 교차 검증
- 학습 데이터
1    50
0    50
dtype: int64
- 검증 데이터
2    50
dtype: int64
------------------


In [33]:
# stratified K 폴드 방식
skfold = StratifiedKFold(n_splits=3)

n_iter = 0
for train_index, test_index in skfold.split(features, label):
    y_train, y_test = label[train_index], label[test_index]
    n_iter+=1
    print("[{0}] 번째 교차 검증".format(n_iter))
    print("- 학습 데이터\n{0}".format(pd.DataFrame(y_train).value_counts()))
    print("- 검증 데이터\n{0}".format(pd.DataFrame(y_test).value_counts()))
    print("------------------")

[1] 번째 교차 검증
- 학습 데이터
2    34
1    33
0    33
dtype: int64
- 검증 데이터
1    17
0    17
2    16
dtype: int64
------------------
[2] 번째 교차 검증
- 학습 데이터
1    34
2    33
0    33
dtype: int64
- 검증 데이터
2    17
0    17
1    16
dtype: int64
------------------
[3] 번째 교차 검증
- 학습 데이터
0    34
2    33
1    33
dtype: int64
- 검증 데이터
2    17
1    17
0    16
dtype: int64
------------------
