In [27]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
import pandas as pd

# 붓꽃 데이터 세트 로딩
iris = load_iris()
print(type(iris))


iris_data = iris.data
# print(type(iris_data))

iris_label = iris.target
# print(iris.target_names)


iris_df = pd.DataFrame(data=iris_data, columns = iris.feature_names)
iris_df['label'] = iris.target
iris_df.head(3)

X_train, X_test, y_train, y_test = train_test_split(iris_data, iris_label, test_size = 0.2, random_state=11)

# DecisionTreeClassifier 객체 생성
df_clf = DecisionTreeClassifier(random_state= 11)

# 학습 수행
df_clf.fit(X_train, y_train)

pred = df_clf.predict(X_test)

from sklearn.metrics import accuracy_score
print('예측 정확도 : {0:.4f}'.format(accuracy_score(y_test,pred)))

<class 'sklearn.utils.Bunch'>
예측 정확도 : 0.9333


In [35]:
# STEP 데이터 탐색


from sklearn.datasets import load_iris

iris_data = load_iris()
print(type(iris_data))

# Bunch 클래스는 딕셔너리와 유사하다.

keys = iris_data.keys()
print('붓꽃 데이터 세트의 키들 : ', keys)
print('\n')

print('feature_names 의 type : ', type(iris_data.feature_names))
print('feature_names 의 shape : ', len(iris_data.feature_names))
print(iris_data.feature_names)
print('\n')

print('target_names의 type : ', type(iris_data.target_names))
print('target_names의 shape : ', len(iris_data.target_names))
print(iris_data.target_names)
print('\n')

print('data의 type : ', type(iris_data.data))
print('data 의 shape : ', iris_data.data.shape)
print(iris_data['data'])

print('target 의 type : ', type(iris_data.target))
print('target 의 shape : ', iris_data.target.shape)
print(iris_data.target)

<class 'sklearn.utils.Bunch'>
붓꽃 데이터 세트의 키들 :  dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names', 'filename'])


feature_names 의 type :  <class 'list'>
feature_names 의 shape :  4
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']


target_names의 type :  <class 'numpy.ndarray'>
target_names의 shape :  3
['setosa' 'versicolor' 'virginica']


data의 type :  <class 'numpy.ndarray'>
data 의 shape :  (150, 4)
[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.

In [44]:
# STEP 데이터 분리

from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split

iris = load_iris()
dt_clf = DecisionTreeClassifier()
train_data = iris.data
train_label = iris.target
dt_clf.fit(train_data, train_label)

pred = dt_clf.predict(train_data)
print('예측정확도 : ', accuracy_score(train_label, pred))
# 예측 정확도가 1이 나오는데 이것은 이미 학습한 train_data로 예측을 했기 떄문이다.
# 떄문에 train, test 데이터로 분리해야 한다.

dt_clf = DecisionTreeClassifier()
iris_data = load_iris()

X_train, X_test, y_train, y_test = train_test_split(iris_data.data, iris_data.target, test_size = 0.3, random_state=121)
dt_clf.fit(X_train,y_train)
pred = dt_clf.predict(X_test)
print('예측 정확도 : {:.4f}'.format(accuracy_score(y_test,pred)))


예측정확도 :  1.0
예측 정확도 : 0.9556


In [49]:
# 과적합 방지를 위한 교차검증

from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import KFold
import numpy as np

iris = load_iris()
features = iris.data
label = iris.target
dt_clf = DecisionTreeClassifier(random_state = 156)

kfold = KFold(n_splits = 5)
cv_accuracy = []
print('붓꽃 데이터 세트 크기 : ', features.shape[0])
n_iter = 0

for train_index, test_index, in kfold.split(features):
    X_train, X_test = features[train_index], features[test_index]
    y_train, y_test = label[train_index], label[test_index]
    
    dt_clf.fit(X_train, y_train)
    pred = dt_clf.predict(X_test)
    n_iter += 1
    
    accuracy = np.round(accuracy_score(y_test, pred),4)
    train_size = X_train.shape[0]
    test_size = X_test.shape[0]
    print('\n#{0} 교차검증 정확도 : {1}, 학습 데이터 크기 : {2}, 검증 데이터 크기 : {3}'.format(n_iter,accuracy,train_size,test_size))
    print('#{0} 검증 세트 인덱스 : {1}'.format(n_iter, test_index))
    cv_accuracy.append(accuracy)
    
print('\n##평균검증 정확도 : ', np.mean(cv_accuracy))

붓꽃 데이터 세트 크기 :  150

#1 교차검증 정확도 : 1.0, 학습 데이터 크기 : 120, 검증 데이터 크기 : 30
#1 검증 세트 인덱스 : [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29]

#2 교차검증 정확도 : 0.9667, 학습 데이터 크기 : 120, 검증 데이터 크기 : 30
#2 검증 세트 인덱스 : [30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53
 54 55 56 57 58 59]

#3 교차검증 정확도 : 0.8667, 학습 데이터 크기 : 120, 검증 데이터 크기 : 30
#3 검증 세트 인덱스 : [60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83
 84 85 86 87 88 89]

#4 교차검증 정확도 : 0.9333, 학습 데이터 크기 : 120, 검증 데이터 크기 : 30
#4 검증 세트 인덱스 : [ 90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119]

#5 교차검증 정확도 : 0.7333, 학습 데이터 크기 : 120, 검증 데이터 크기 : 30
#5 검증 세트 인덱스 : [120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137
 138 139 140 141 142 143 144 145 146 147 148 149]

##평균검증 정확도 :  0.9
