In [1]:
import sklearn

In [2]:
import warnings
warnings.filterwarnings('ignore')

In [3]:
sklearn.__version__

'1.2.1'

In [4]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
import pandas as pd
from sklearn.metrics import accuracy_score

In [5]:
# 설명 .DESCR
print(load_iris().DESCR)

.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
                
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

    :Missing Attribute Values: None
    :Class Distribution: 33.3% for each of 3 classes.
    :Creator: R.A. Fisher
    :Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
    :

In [55]:
iris = load_iris()

In [57]:
iris.keys()

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])

In [58]:
type(iris)

sklearn.utils._bunch.Bunch

In [59]:
print('타깃의 이름:', iris['target_names'])

타깃의 이름: ['setosa' 'versicolor' 'virginica']


In [60]:
print('특성의 이름:\n', iris['feature_names'])

특성의 이름:
 ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']


In [12]:
print('data의 타입:', type(iris['data']))

data의 타입: <class 'numpy.ndarray'>


In [13]:
print('data의 크기:', iris['data'].shape)

data의 크기: (150, 4)


In [14]:
iris_df = pd.DataFrame(data=iris.data, 
             columns=iris.feature_names)

In [64]:
print('타깃의 이름:', iris['target_names'])
print('특성의 이름:\n', iris['feature_names'])

타깃의 이름: ['setosa' 'versicolor' 'virginica']
특성의 이름:
 ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']


In [65]:
iris_df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2


In [16]:
iris_df['label'] = iris.target
iris_df.head(3)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0


In [67]:
x_train, x_test, y_train, y_test = train_test_split(iris.data, 
                                                    iris.target, 
                                                    test_size=0.2, 
                                                    random_state=11)

In [68]:
x_train, x_test, y_train, y_test

(array([[5.1, 3.5, 1.4, 0.2],
        [6.9, 3.2, 5.7, 2.3],
        [7.7, 2.8, 6.7, 2. ],
        [5. , 3.3, 1.4, 0.2],
        [4.7, 3.2, 1.6, 0.2],
        [7.7, 2.6, 6.9, 2.3],
        [7.6, 3. , 6.6, 2.1],
        [6.7, 3. , 5. , 1.7],
        [5.5, 3.5, 1.3, 0.2],
        [6. , 2.7, 5.1, 1.6],
        [5. , 2. , 3.5, 1. ],
        [7.9, 3.8, 6.4, 2. ],
        [4.6, 3.4, 1.4, 0.3],
        [6.9, 3.1, 4.9, 1.5],
        [6.5, 3. , 5.8, 2.2],
        [5.1, 2.5, 3. , 1.1],
        [6.6, 2.9, 4.6, 1.3],
        [5. , 3.2, 1.2, 0.2],
        [7.4, 2.8, 6.1, 1.9],
        [5.1, 3.8, 1.6, 0.2],
        [6.8, 3.2, 5.9, 2.3],
        [6.9, 3.1, 5.1, 2.3],
        [5.9, 3. , 4.2, 1.5],
        [4.9, 2.5, 4.5, 1.7],
        [6.7, 3.1, 4.7, 1.5],
        [4.4, 3.2, 1.3, 0.2],
        [5.4, 3.4, 1.7, 0.2],
        [6.5, 2.8, 4.6, 1.5],
        [5.1, 3.7, 1.5, 0.4],
        [5. , 3.4, 1.6, 0.4],
        [6.1, 2.6, 5.6, 1.4],
        [6.5, 3. , 5.5, 1.8],
        [6.3, 2.5, 5. , 1.9],
        [5

In [74]:
df_clf = DecisionTreeClassifier(random_state=11)
df_clf.fit(x_train, y_train)
pred = df_clf.predict(x_test)
print(f'예측정확도 : {accuracy_score(y_test, pred)}')

예측정확도 : 0.9333333333333333


In [70]:
pred

array([1, 2, 1, 0, 0, 1, 1, 1, 1, 2, 2, 1, 1, 0, 0, 2, 1, 0, 2, 0, 2, 2,
       1, 1, 1, 1, 0, 0, 2, 2])

In [71]:
y_test

array([2, 2, 2, 1, 2, 0, 1, 0, 0, 1, 2, 1, 1, 2, 2, 0, 2, 1, 2, 2, 1, 0,
       0, 1, 0, 0, 2, 1, 0, 1])

In [72]:
iris

{'data': array([[5.1, 3.5, 1.4, 0.2],
        [4.9, 3. , 1.4, 0.2],
        [4.7, 3.2, 1.3, 0.2],
        [4.6, 3.1, 1.5, 0.2],
        [5. , 3.6, 1.4, 0.2],
        [5.4, 3.9, 1.7, 0.4],
        [4.6, 3.4, 1.4, 0.3],
        [5. , 3.4, 1.5, 0.2],
        [4.4, 2.9, 1.4, 0.2],
        [4.9, 3.1, 1.5, 0.1],
        [5.4, 3.7, 1.5, 0.2],
        [4.8, 3.4, 1.6, 0.2],
        [4.8, 3. , 1.4, 0.1],
        [4.3, 3. , 1.1, 0.1],
        [5.8, 4. , 1.2, 0.2],
        [5.7, 4.4, 1.5, 0.4],
        [5.4, 3.9, 1.3, 0.4],
        [5.1, 3.5, 1.4, 0.3],
        [5.7, 3.8, 1.7, 0.3],
        [5.1, 3.8, 1.5, 0.3],
        [5.4, 3.4, 1.7, 0.2],
        [5.1, 3.7, 1.5, 0.4],
        [4.6, 3.6, 1. , 0.2],
        [5.1, 3.3, 1.7, 0.5],
        [4.8, 3.4, 1.9, 0.2],
        [5. , 3. , 1.6, 0.2],
        [5. , 3.4, 1.6, 0.4],
        [5.2, 3.5, 1.5, 0.2],
        [5.2, 3.4, 1.4, 0.2],
        [4.7, 3.2, 1.6, 0.2],
        [4.8, 3.1, 1.6, 0.2],
        [5.4, 3.4, 1.5, 0.4],
        [5.2, 4.1, 1.5, 0.1],
  

In [23]:
dt_clf = DecisionTreeClassifier()
dt_clf.fit(iris.data,iris.target)
pred = dt_clf.predict(iris.data)
accuracy_score(iris.target,pred)

1.0

In [24]:
x_train, x_test, y_train, y_test = train_test_split(iris.data, 
                                                    iris.target, 
                                                    test_size=0.3, 
                                                    random_state=None)

In [25]:
dt_clf = DecisionTreeClassifier(random_state=None)
dt_clf.fit(x_train,y_train)
pred = dt_clf.predict(iris.data)
accuracy_score(iris.target,pred)

0.9733333333333334

In [26]:
# KFold 클래스

In [27]:
from sklearn.model_selection import KFold
import numpy as np

In [28]:
# iris = load_iris()
dt_clf = DecisionTreeClassifier(random_state=156)

In [29]:
kfold = KFold(n_splits=5, shuffle=False)
cv_accuracy = []
print(iris.target.shape)

(150,)


In [30]:
n_iter = 0
for train_index, test_index in kfold.split(iris.data):
    # print(train_index)
    # print(test_index)
    x_train, x_test = iris.data[train_index], iris.data[test_index]
    y_train, y_test = iris.target[train_index], iris.target[test_index]
    # print(x_test)
    dt_clf.fit(x_train, y_train)
    pred = dt_clf.predict(x_test)
    n_iter += 1
    accuracy = np.round(accuracy_score(y_test,pred),4)
    train_size = x_train.shape[0]
    test_size = x_test.shape[0]
    print(f'{n_iter} 교차 검증 정확도 : {accuracy}, 학습데이터 크기: {train_size}, 검증데이터 크기 : {test_size}')
    print(f'검증데이터 인덱스:{test_index}')
    cv_accuracy.append(accuracy)
print(f'평균 정확도:{np.mean(cv_accuracy)}')

1 교차 검증 정확도 : 1.0, 학습데이터 크기: 120, 검증데이터 크기 : 30
검증데이터 인덱스:[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29]
2 교차 검증 정확도 : 0.9667, 학습데이터 크기: 120, 검증데이터 크기 : 30
검증데이터 인덱스:[30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53
 54 55 56 57 58 59]
3 교차 검증 정확도 : 0.8667, 학습데이터 크기: 120, 검증데이터 크기 : 30
검증데이터 인덱스:[60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83
 84 85 86 87 88 89]
4 교차 검증 정확도 : 0.9333, 학습데이터 크기: 120, 검증데이터 크기 : 30
검증데이터 인덱스:[ 90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119]
5 교차 검증 정확도 : 0.7333, 학습데이터 크기: 120, 검증데이터 크기 : 30
검증데이터 인덱스:[120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137
 138 139 140 141 142 143 144 145 146 147 148 149]
평균 정확도:0.9


In [75]:
# shuffle=True
kfold = KFold(n_splits=5, shuffle=True)
n_iter = 0
for train_index, test_index in kfold.split(iris.data):
    # print(train_index)
    # print(test_index)
    x_train, x_test = iris.data[train_index], iris.data[test_index]
    y_train, y_test = iris.target[train_index], iris.target[test_index]
    # print(x_test)
    dt_clf.fit(x_train, y_train)
    pred = dt_clf.predict(x_test)
    n_iter += 1
    accuracy = np.round(accuracy_score(y_test,pred),4)
    train_size = x_train.shape[0]
    test_size = x_test.shape[0]
    print(f'{n_iter} 교차 검증 정확도 : {accuracy}, 학습데이터 크기: {train_size}, 검증데이터 크기 : {test_size}')
    print(f'검증데이터 인덱스:{test_index}')
    cv_accuracy.append(accuracy)
print(f'평균 정확도:{np.mean(cv_accuracy)}')

1 교차 검증 정확도 : 0.9333, 학습데이터 크기: 120, 검증데이터 크기 : 30
검증데이터 인덱스:[  6   7  11  13  24  27  30  44  56  60  64  68  69  85  96 100 103 105
 106 116 117 118 119 130 132 140 141 143 146 148]
2 교차 검증 정확도 : 0.9333, 학습데이터 크기: 120, 검증데이터 크기 : 30
검증데이터 인덱스:[  3   4   8  16  19  21  26  28  37  38  45  50  53  59  70  71  74  76
  78  79  83  88  93  97 107 124 133 135 136 144]
3 교차 검증 정확도 : 0.9333, 학습데이터 크기: 120, 검증데이터 크기 : 30
검증데이터 인덱스:[  0   5  15  20  31  36  40  43  47  52  55  58  61  72  82  84  86  87
  91  94 109 110 111 113 115 121 125 138 145 147]
4 교차 검증 정확도 : 0.9333, 학습데이터 크기: 120, 검증데이터 크기 : 30
검증데이터 인덱스:[  9  10  12  17  18  23  25  34  41  42  51  57  62  67  73  75  77  81
  89  98 104 108 114 120 122 126 127 134 139 142]
5 교차 검증 정확도 : 0.9667, 학습데이터 크기: 120, 검증데이터 크기 : 30
검증데이터 인덱스:[  1   2  14  22  29  32  33  35  39  46  48  49  54  63  65  66  80  90
  92  95  99 101 102 112 123 128 129 131 137 149]
평균 정확도:0.9499875


In [31]:
kfold = KFold(n_splits=3, shuffle=False)
n_iter = 0
for train_index, test_index in kfold.split(iris.data):
    # print(train_index)
    # print(test_index)
    x_train, x_test = iris.data[train_index], iris.data[test_index]
    y_train, y_test = iris.target[train_index], iris.target[test_index]
    # print(x_test)
    dt_clf.fit(x_train, y_train)
    pred = dt_clf.predict(x_test)
    n_iter += 1
    accuracy = np.round(accuracy_score(y_test,pred),4)
    train_size = x_train.shape[0]
    test_size = x_test.shape[0]
    print(f'{n_iter} 교차 검증 정확도 : {accuracy}, 학습데이터 크기: {train_size}, 검증데이터 크기 : {test_size}')
    print(f'검증데이터 인덱스:{test_index}')
    cv_accuracy.append(accuracy)
print(f'평균 정확도:{np.mean(cv_accuracy)}')

1 교차 검증 정확도 : 0.0, 학습데이터 크기: 100, 검증데이터 크기 : 50
검증데이터 인덱스:[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47
 48 49]
2 교차 검증 정확도 : 0.0, 학습데이터 크기: 100, 검증데이터 크기 : 50
검증데이터 인덱스:[50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73
 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97
 98 99]
3 교차 검증 정확도 : 0.0, 학습데이터 크기: 100, 검증데이터 크기 : 50
검증데이터 인덱스:[100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117
 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135
 136 137 138 139 140 141 142 143 144 145 146 147 148 149]
평균 정확도:0.5625


In [32]:
kfold = KFold(n_splits=3, shuffle=True)
n_iter = 0
for train_index, test_index in kfold.split(iris_df):
    n_iter += 1
    label_train = iris_df['label'].iloc[train_index]
    label_test = iris_df['label'].iloc[test_index]
    print(f'{n_iter} 교차검증')
    print(f'학습 레이블 데이터 분포:\n{label_train.value_counts()}')
    print(f'검증 레이블 데이터 분포:\n{label_test.value_counts()}')

1 교차검증
학습 레이블 데이터 분포:
1    35
2    33
0    32
Name: label, dtype: int64
검증 레이블 데이터 분포:
0    18
2    17
1    15
Name: label, dtype: int64
2 교차검증
학습 레이블 데이터 분포:
1    36
0    34
2    30
Name: label, dtype: int64
검증 레이블 데이터 분포:
2    20
0    16
1    14
Name: label, dtype: int64
3 교차검증
학습 레이블 데이터 분포:
2    37
0    34
1    29
Name: label, dtype: int64
검증 레이블 데이터 분포:
1    21
0    16
2    13
Name: label, dtype: int64


In [33]:
from sklearn.model_selection import StratifiedKFold

In [34]:
skfold = StratifiedKFold(n_splits=3, shuffle=False)
n_iter = 0
for train_index, test_index in kfold.split(iris_df, iris_df['label']):
    n_iter += 1
    label_train = iris_df['label'].iloc[train_index]
    label_test = iris_df['label'].iloc[test_index]
    print(f'{n_iter} 교차검증')
    print(f'학습 레이블 데이터 분포:\n{label_train.value_counts()}')
    print(f'검증 레이블 데이터 분포:\n{label_test.value_counts()}')

1 교차검증
학습 레이블 데이터 분포:
1    35
0    33
2    32
Name: label, dtype: int64
검증 레이블 데이터 분포:
2    18
0    17
1    15
Name: label, dtype: int64
2 교차검증
학습 레이블 데이터 분포:
0    34
1    33
2    33
Name: label, dtype: int64
검증 레이블 데이터 분포:
1    17
2    17
0    16
Name: label, dtype: int64
3 교차검증
학습 레이블 데이터 분포:
2    35
0    33
1    32
Name: label, dtype: int64
검증 레이블 데이터 분포:
1    18
0    17
2    15
Name: label, dtype: int64


In [35]:
skfold = StratifiedKFold(n_splits=3, shuffle=False)
n_iter = 0
cv_accuracy = []
for train_index, test_index in skfold.split(iris.data,iris.target):
    # print(train_index)
    # print(test_index)
    x_train, x_test = iris.data[train_index], iris.data[test_index]
    y_train, y_test = iris.target[train_index], iris.target[test_index]
    # print(x_test)
    dt_clf.fit(x_train, y_train)
    pred = dt_clf.predict(x_test)
    n_iter += 1
    accuracy = np.round(accuracy_score(y_test,pred),4)
    train_size = x_train.shape[0]
    test_size = x_test.shape[0]
    print(f'{n_iter} 교차 검증 정확도 : {accuracy}, 학습데이터 크기: {train_size}, 검증데이터 크기 : {test_size}')
    print(f'검증데이터 인덱스:{test_index}')
    cv_accuracy.append(accuracy)
print(f'평균 정확도:{np.mean(cv_accuracy)}')

1 교차 검증 정확도 : 0.98, 학습데이터 크기: 100, 검증데이터 크기 : 50
검증데이터 인덱스:[  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  50
  51  52  53  54  55  56  57  58  59  60  61  62  63  64  65  66 100 101
 102 103 104 105 106 107 108 109 110 111 112 113 114 115]
2 교차 검증 정확도 : 0.94, 학습데이터 크기: 100, 검증데이터 크기 : 50
검증데이터 인덱스:[ 17  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  67
  68  69  70  71  72  73  74  75  76  77  78  79  80  81  82 116 117 118
 119 120 121 122 123 124 125 126 127 128 129 130 131 132]
3 교차 검증 정확도 : 0.98, 학습데이터 크기: 100, 검증데이터 크기 : 50
검증데이터 인덱스:[ 34  35  36  37  38  39  40  41  42  43  44  45  46  47  48  49  83  84
  85  86  87  88  89  90  91  92  93  94  95  96  97  98  99 133 134 135
 136 137 138 139 140 141 142 143 144 145 146 147 148 149]
평균 정확도:0.9666666666666667


In [36]:
# 교차검증 cross_val_score()

In [77]:
from sklearn.model_selection import cross_val_score

In [78]:
dt_clf = DecisionTreeClassifier(random_state=156)
cross_val_score(df_clf, 
                iris.data, 
                iris.target,
                cv=3,
                scoring='accuracy',
                verbose=0)

array([0.98, 0.92, 0.98])

In [83]:
dt_clf = DecisionTreeClassifier(random_state=156)
scores = cross_val_score(df_clf, 
                iris.data, 
                iris.target,
                cv=3,
                scoring='accuracy',
                verbose=0)

print('교차 검증별 정확도:', np.round(scores,4))
print('평균 검증 정확도:', np.round(np.mean(scores),4))

교차 검증별 정확도: [0.98 0.92 0.98]
평균 검증 정확도: 0.96


In [39]:
from sklearn.model_selection import GridSearchCV

In [40]:
x_train, x_test, y_train, y_test = train_test_split(iris.data, 
                                                    iris.target, 
                                                    test_size=0.2, 
                                                    random_state=121)
dtree = DecisionTreeClassifier()
### 파라미터를 딕셔너리 형태로 설정
param = {'max_depth':[1,2,3],
         'min_samples_split':[2,3]}

In [41]:
grid_tree = GridSearchCV(dtree, 
                         param_grid=param,
                         cv=3,
                         refit=True)

In [42]:
grid_tree.fit(x_train, y_train)

In [43]:
grid_tree.best_score_

0.975

In [44]:
grid_tree.best_params_

{'max_depth': 3, 'min_samples_split': 2}

In [45]:
grid_tree.best_index_

4

In [46]:
grid_tree.cv_results_

{'mean_fit_time': array([0.00050227, 0.00016777, 0.00033379, 0.00016729, 0.        ,
        0.00209936]),
 'std_fit_time': array([0.00040968, 0.00023726, 0.00047204, 0.00023658, 0.        ,
        0.00155179]),
 'mean_score_time': array([0.00050243, 0.00066932, 0.        , 0.00053676, 0.        ,
        0.        ]),
 'std_score_time': array([0.00041007, 0.00023546, 0.        , 0.00042826, 0.        ,
        0.        ]),
 'param_max_depth': masked_array(data=[1, 1, 2, 2, 3, 3],
              mask=[False, False, False, False, False, False],
        fill_value='?',
             dtype=object),
 'param_min_samples_split': masked_array(data=[2, 3, 2, 3, 2, 3],
              mask=[False, False, False, False, False, False],
        fill_value='?',
             dtype=object),
 'params': [{'max_depth': 1, 'min_samples_split': 2},
  {'max_depth': 1, 'min_samples_split': 3},
  {'max_depth': 2, 'min_samples_split': 2},
  {'max_depth': 2, 'min_samples_split': 3},
  {'max_depth': 3, 'min_sample

In [47]:
df = pd.DataFrame(grid_tree.cv_results_)

In [48]:
df.columns

Index(['mean_fit_time', 'std_fit_time', 'mean_score_time', 'std_score_time',
       'param_max_depth', 'param_min_samples_split', 'params',
       'split0_test_score', 'split1_test_score', 'split2_test_score',
       'mean_test_score', 'std_test_score', 'rank_test_score'],
      dtype='object')

In [49]:
df[['params',
    'mean_test_score',
    'rank_test_score',
    'split0_test_score', 
    'split1_test_score', 
    'split2_test_score']]

Unnamed: 0,params,mean_test_score,rank_test_score,split0_test_score,split1_test_score,split2_test_score
0,"{'max_depth': 1, 'min_samples_split': 2}",0.7,5,0.7,0.7,0.7
1,"{'max_depth': 1, 'min_samples_split': 3}",0.7,5,0.7,0.7,0.7
2,"{'max_depth': 2, 'min_samples_split': 2}",0.958333,3,0.925,1.0,0.95
3,"{'max_depth': 2, 'min_samples_split': 3}",0.958333,3,0.925,1.0,0.95
4,"{'max_depth': 3, 'min_samples_split': 2}",0.975,1,0.975,1.0,0.95
5,"{'max_depth': 3, 'min_samples_split': 3}",0.975,1,0.975,1.0,0.95


In [50]:
pred = grid_tree.predict(x_test)

In [51]:
accuracy_score(y_test,pred)

0.9666666666666667

In [52]:
pred = grid_tree.best_estimator_.predict(x_test)
accuracy_score(y_test,pred)

0.9666666666666667