In [1]:
import sklearn

In [2]:
sklearn.__version__

'0.24.2'

---

In [3]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
import pandas as pd
import numpy as np

In [4]:
iris = load_iris()

In [5]:
iris.keys()

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename'])

In [6]:
iris.target

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

In [7]:
iris.target_names

array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

In [8]:
iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
iris_df.head(2)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2


In [9]:
iris_df['label'] = iris.target
iris_df.sample(2)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
86,6.7,3.1,4.7,1.5,1
3,4.6,3.1,1.5,0.2,0


In [10]:
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target,
                                                   test_size=0.2,
                                                   random_state=11)

In [11]:
X_train.shape

(120, 4)

In [12]:
X_test.shape

(30, 4)

In [13]:
dt_clf = DecisionTreeClassifier(random_state=11)

In [14]:
dt_clf

DecisionTreeClassifier(random_state=11)

In [15]:
dt_clf.fit(X_train, y_train)

DecisionTreeClassifier(random_state=11)

In [16]:
pred = dt_clf.predict(X_test)

In [17]:
from sklearn.metrics import accuracy_score

In [18]:
accuracy_score(y_test, pred)

0.9333333333333333

---

In [19]:
iris = load_iris()
dt_clf = DecisionTreeClassifier()
train_data = iris.data
test_data = iris.target
dt_clf.fit(train_data, test_data)

DecisionTreeClassifier()

In [20]:
pred = dt_clf.predict(train_data)

In [21]:
accuracy_score(test_data, pred)

1.0

---

In [22]:
from sklearn.model_selection import KFold

In [23]:
iris = load_iris()
dt_clf = DecisionTreeClassifier(random_state=156)

In [24]:
kfold = KFold(n_splits=5, shuffle=True)
cv_accuracy = []

In [25]:
n_iter = 0
for train_index, test_index in kfold.split(iris.data) :
    # print(train_index, test_index)
    # print('-'*60)
    
    X_train, X_test = iris.data[train_index], iris.data[test_index]
    y_train, y_test = iris.target[train_index], iris.target[test_index]
    
    dt_clf.fit(X_train, y_train)
    pred = dt_clf.predict(X_test)
    
    n_iter += 1
    accuracy = np.round(accuracy_score(y_test, pred), 4)
    
    train_size = X_train.shape[0]
    test_size = y_train.shape[0]
    
    print(f'\n{n_iter} 번째 교차검증 정확도 : {accuracy}, 학습 데이터 크기 : {train_size}, 검증 데이터 크기 : {test_size}')
    print(f'{n_iter} 검증 데이터 인덱스 : {test_index}')
        
    cv_accuracy.append(accuracy)


1 번째 교차검증 정확도 : 0.9333, 학습 데이터 크기 : 120, 검증 데이터 크기 : 120
1 검증 데이터 인덱스 : [  4   5   6  13  17  20  21  30  54  59  76  80  81  82  84  94  95  97
  99 102 108 110 117 119 121 129 131 133 141 149]

2 번째 교차검증 정확도 : 0.9333, 학습 데이터 크기 : 120, 검증 데이터 크기 : 120
2 검증 데이터 인덱스 : [  2   9  22  24  25  26  40  43  45  47  49  52  58  60  61  63  65  69
  72  73  87  88 103 114 115 116 122 123 130 135]

3 번째 교차검증 정확도 : 0.9667, 학습 데이터 크기 : 120, 검증 데이터 크기 : 120
3 검증 데이터 인덱스 : [ 11  19  28  31  35  39  41  42  44  53  57  64  66  71  74  83  89  93
  96  98 109 111 112 113 127 128 138 143 144 147]

4 번째 교차검증 정확도 : 0.9667, 학습 데이터 크기 : 120, 검증 데이터 크기 : 120
4 검증 데이터 인덱스 : [  1   7   8  10  12  14  15  29  33  36  46  50  51  55  67  68  70  78
  85  91 100 104 105 107 124 126 132 139 142 148]

5 번째 교차검증 정확도 : 0.9333, 학습 데이터 크기 : 120, 검증 데이터 크기 : 120
5 검증 데이터 인덱스 : [  0   3  16  18  23  27  32  34  37  38  48  56  62  75  77  79  86  90
  92 101 106 118 120 125 134 136 137 140 145 146]


In [26]:
np.mean(cv_accuracy)

0.94666

In [27]:
from sklearn.model_selection import StratifiedKFold

In [31]:
skf = StratifiedKFold(n_splits=3)
n_iter = 0

for train_index, test_index in skf.split(iris_df, iris_df['label']) :
    n_iter += 1
    label_train = iris_df['label'].iloc[train_index]
    label_test = iris_df['label'].iloc[test_index]
    print(n_iter)
    print('학습\n', label_train.value_counts())
    print('검증\n', label_test.value_counts())    
    print('-'*60)

1
학습
 2    34
0    33
1    33
Name: label, dtype: int64
검증
 0    17
1    17
2    16
Name: label, dtype: int64
------------------------------------------------------------
2
학습
 1    34
0    33
2    33
Name: label, dtype: int64
검증
 0    17
2    17
1    16
Name: label, dtype: int64
------------------------------------------------------------
3
학습
 0    34
1    33
2    33
Name: label, dtype: int64
검증
 1    17
2    17
0    16
Name: label, dtype: int64
------------------------------------------------------------


---

In [34]:
iris = load_iris()
dt_clf = DecisionTreeClassifier(random_state=156)

skfold = StratifiedKFold(n_splits=3)

cv_accuracy = []
n_iter = 0

for train_index, test_index in skfold.split(iris.data, iris.target) :
    # print(train_index, test_index)
    # print('-'*60)
    
    X_train, X_test = iris.data[train_index], iris.data[test_index]
    y_train, y_test = iris.target[train_index], iris.target[test_index]
    
    dt_clf.fit(X_train, y_train)
    pred = dt_clf.predict(X_test)
    
    n_iter += 1
    accuracy = np.round(accuracy_score(y_test, pred), 4)
    
    train_size = X_train.shape[0]
    test_size = y_train.shape[0]
    
    print(f'\n{n_iter} 번째 교차검증 정확도 : {accuracy}, 학습 데이터 크기 : {train_size}, 검증 데이터 크기 : {test_size}')
    print(f'{n_iter} 검증 데이터 인덱스 : {test_index}')
        
    cv_accuracy.append(accuracy)


1 번째 교차검증 정확도 : 0.98, 학습 데이터 크기 : 100, 검증 데이터 크기 : 100
1 검증 데이터 인덱스 : [  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  50
  51  52  53  54  55  56  57  58  59  60  61  62  63  64  65  66 100 101
 102 103 104 105 106 107 108 109 110 111 112 113 114 115]

2 번째 교차검증 정확도 : 0.94, 학습 데이터 크기 : 100, 검증 데이터 크기 : 100
2 검증 데이터 인덱스 : [ 17  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  67
  68  69  70  71  72  73  74  75  76  77  78  79  80  81  82 116 117 118
 119 120 121 122 123 124 125 126 127 128 129 130 131 132]

3 번째 교차검증 정확도 : 0.98, 학습 데이터 크기 : 100, 검증 데이터 크기 : 100
3 검증 데이터 인덱스 : [ 34  35  36  37  38  39  40  41  42  43  44  45  46  47  48  49  83  84
  85  86  87  88  89  90  91  92  93  94  95  96  97  98  99 133 134 135
 136 137 138 139 140 141 142 143 144 145 146 147 148 149]


---

In [36]:
from sklearn.preprocessing import LabelEncoder

In [39]:
items = ['TV', '냉장고', '전자레인지', '선풍기', '믹서']

encoder = LabelEncoder()
encoder.fit(items)

labels = encoder.transform(items)

In [40]:
labels

array([0, 1, 4, 3, 2])